r相关内容

使用正则表达式的 R 子集数据集

有没有办法让下面的 R 代码运行得更快(即矢量化以避免使用 for 循环)? 我的示例包含两个数据框.首先是维度 n1*p.p 列之一包含名称.第二个数据框是一个列向量 (n2*1).它还包含名称.我想保留第一个数据帧的所有行,其中第二个数据帧的列向量中名称的某些部分出现在相应的第一个数据帧中.对不起,粗暴的解释. 示例(数据框 1): xy小狗 1你好 2嗨狗3斑马 4 示例(数 ..
发布时间:2021-07-06 20:35:12 其他开发

使用 gsub 插入反斜杠

我想用 knitr 输出我的 R 分析,我有一个包含一行下划线的文本.我必须让它们转义,以便将每个 _ 转换为 \_. 但是因为反斜杠也是正则表达式中的一个特殊字符,我没有找到一种方法在每个下划线之前插入一个反斜杠.似乎奇数个反斜杠会产生错误(我猜最后一个与下划线配对)但试图用偶数转义也不起作用. a gsub("_", "\\_", a ..
发布时间:2021-07-06 20:33:40 其他开发

r 在分隔符上拆分而不是在括号中

我目前正在尝试在管道分隔符上拆分字符串: 999|150|222|(123|145)|456|12,260|(10|10000) 问题是我不想在括号内的 | 上拆分,我只想在括号外的这个字符上拆分. 这只是拆分每个 | 字符,产生我不想要的结果: x 我希望得到以下结果,将所有内容都放在括号内: [[1]][1] “999" “150" “222" “(123 | 145)", ..
发布时间:2021-07-06 20:33:22 其他开发

路径变量的子串

我有一个这样的路径 ../some/thing/foobar/foobar.happening 并且我想要最后一个 / 之间的 character 字符串code> 和 .. 我意识到这对某些人来说很容易,但我还不熟悉正则表达式等.我也可能自己用 strsplit 来做这件事,但如果可能的话,我正在寻找一种优雅的单线. 提前致谢! 解决方案 basename 会给你最后一个斜线 ..
发布时间:2021-07-06 20:32:58 其他开发

删除R中字符串中大写字母的第一个实例之前的字符

我正在尝试删除字符串向量中每个字符串的第一个大写字母实例之前的所有字符: x 有什么想法吗? 谢谢. 解决方案 您需要使用带有反向引用的捕获组: sub("^.*?([A-Z])", "\\1", x) 这里, ^ - 字符串的开始 .*? - 尽可能少的任意 0+ 个字符 ([A-Z]) - 捕获组 1 捕获将在替换模式中使用 \1 引用的大写 ASCII 字母 ..
发布时间:2021-07-06 20:31:25 其他开发

在两个可能的分隔符之一之前查找单词

字:12335别名:2323434完全不同的词/455字/32 我需要仅使用基本 R 函数来获取 : 或 / 之前的字符串.我可以使用 stringr 来做到这一点,但不想在我的包中添加另一个依赖项.单词可以有可变数量的字符,但总是以分隔符(之一)结尾.我不需要保留后面的内容. 解决方案 也许试试: x gsub 有一些正则表达式解决方案也可以使用,但根据我遇到类似问题的经验,st ..
发布时间:2021-07-06 20:30:57 其他开发

处理由天、小时、分钟和秒定义的持续时间,例如“1d 3h 2m 28s"在 R

我有一个包含字符向量的数据框,格式为“1d 3h 2m 28s": >头(状态[5])期间1 0d 20h 46m 31s2 2d 0h 13m 54s3 2d 0h 13m 53s4 0d 9h 53m 38s5 5d 12h 17m 37s6 0d 10h 21m 19s 我可以用组件的正则表达式解析它,但无法想出一种将持续时间转换为秒的好方法.我可以将向量 gsub 转化为一个表达式,该 ..
发布时间:2021-07-06 20:30:23 其他开发

计算字符串中模式匹配的数量

例如,我有一个字符串 “AAAAAAACGAAAAAACGAAADGCGEDCG" 我想统计"CG"重复了多少次.我该怎么做? 解决方案 你可以使用gregexpr来查找vec中"CG"的位置代码>.我们必须检查是否没有匹配(-1).函数 sum 计算匹配的数量. >vec sum(gregexpr("CG", ve ..
发布时间:2021-07-06 20:28:44 其他开发

火柴&替换字符串,在替换中使用原始字符串,在 R 中

我正在尝试掌握 R 中正则表达式的世界. 我想知道是否有任何简单的方法可以将“grep"和“gsub"的功能结合起来? 具体来说,我想向任何与特定模式匹配的内容附加一些附加信息. 举个通用的例子,假设我有一个字符向量: char_vec 然后假设我想在 char_vec 的任何元素中附加任何字母 append ..
发布时间:2021-07-06 20:25:59 其他开发

gsub 在 R 中有例外

我正在从希伯来语文本中删除英文字符,但想保留我想要的英文单词的简短列表,例如words2keep .所以我当前的正则表达式是 text ..
发布时间:2021-07-06 20:24:22 其他开发

R在正则表达式中使用变量

好的 - 也许这是一个更好的例子.我正在寻找有关如何在正则表达式中引用变量的指南/参考资料 - 而不是如何为此数据构建正则表达式. 如何使用变量中的值来正则表达式下一个变量? 库(plyr)图书馆(tm)图书馆(字符串)图书馆(gsubfn) 速度数据集 d1$sub ..
发布时间:2021-07-06 20:24:18 其他开发

在 R 中使用正则表达式为变量赋值

所以我的工作区中有一堆变量.我想将它们的一个子集分配给一个新变量,这样我就可以轻松地在这个子集上运行函数: 工作区: ...第10组第40组位置40测试 期望的分配: groupList 预期的正则表达式: ^group[0-9]+ 有什么想法吗? 解决方案 ls 接受一个 pattern 参数: group10 您可以使用 lapply 循环遍历变量名称列表并获 ..
发布时间:2021-07-06 20:24:13 其他开发

提取电话号码正则表达式

如何从文本文件中提取电话号码? x 解决方案 这是我能做到的最好的 - 您有非常广泛的格式,包括一些带有空格的格式,因此正则表达式非常通用.它只是说“查找至少 5 个字符的字符串,完全由数字、句点、括号、连字符或空格组成": 库(stringr)str_extract_all(x, "(^| )[0-9.() -]{5,}( |$)") 输出: [[1]][1]“2-613-213- ..
发布时间:2021-07-06 20:23:25 其他开发