r 第499页 - IT屋-程序员软件开发技术分享社区

使用stringr从R中的文本字符串中提取一个或多个单词

我有以下数据框: df 我正在使用 str_extract 并在单独的列中返回“in"之后的单词. 库(stringr)str_extract(df$city, '(? ..

发布时间：2021-07-06 20:38:21 regex r stringr 其他开发

R 中的字符串转换 |将字符串的单词分组

我想对字符串的单词进行分组(下面给出) text="Lorem,ipsum,dolor,sit,amet,consectetuer" 喜欢这个 textNew="Lorem ipsum,ipsum dolor,dolor sat,sit amet,amet consectetuer" 谢谢. 解决方案通过gsub函数， >text="Lorem,ipsum,dolor,sit, ..

发布时间：2021-07-06 20:36:46 regex r string 其他开发

替换两个特殊字符之间的文本

我有一个字符向量: x 和 y 我想用 y 中的文本(“TOT_A01")替换 TOT_F50. 您知道如何替换 " 和 \ (即 "TOT_F50) 之间的文本吗? 解决方案尝试 sub('(? ..

发布时间：2021-07-06 20:36:16 regex r text replace 其他开发

使用正则表达式的 R 子集数据集

有没有办法让下面的 R 代码运行得更快(即矢量化以避免使用 for 循环)? 我的示例包含两个数据框.首先是维度 n1*p.p 列之一包含名称.第二个数据框是一个列向量 (n2*1).它还包含名称.我想保留第一个数据帧的所有行，其中第二个数据帧的列向量中名称的某些部分出现在相应的第一个数据帧中.对不起，粗暴的解释. 示例(数据框 1): xy小狗 1你好 2嗨狗3斑马 4 示例(数 ..

发布时间：2021-07-06 20:35:12 regex r subset 其他开发

使用 gsub 插入反斜杠

我想用 knitr 输出我的 R 分析，我有一个包含一行下划线的文本.我必须让它们转义，以便将每个 _ 转换为 \_. 但是因为反斜杠也是正则表达式中的一个特殊字符，我没有找到一种方法在每个下划线之前插入一个反斜杠.似乎奇数个反斜杠会产生错误(我猜最后一个与下划线配对)但试图用偶数转义也不起作用. a gsub("_", "\\_", a ..

发布时间：2021-07-06 20:33:40 r regex 其他开发

r 在分隔符上拆分而不是在括号中

我目前正在尝试在管道分隔符上拆分字符串: 999|150|222|(123|145)|456|12,260|(10|10000) 问题是我不想在括号内的 | 上拆分，我只想在括号外的这个字符上拆分. 这只是拆分每个 | 字符，产生我不想要的结果: x 我希望得到以下结果，将所有内容都放在括号内: [[1]][1] “999" “150" “222" “(123 | 145)"， ..

发布时间：2021-07-06 20:33:22 regex r 其他开发

路径变量的子串

我有一个这样的路径 ../some/thing/foobar/foobar.happening 并且我想要最后一个 / 之间的 character 字符串code> 和 .. 我意识到这对某些人来说很容易，但我还不熟悉正则表达式等.我也可能自己用 strsplit 来做这件事，但如果可能的话，我正在寻找一种优雅的单线. 提前致谢！解决方案 basename 会给你最后一个斜线 ..

发布时间：2021-07-06 20:32:58 regex r 其他开发

删除R中字符串中大写字母的第一个实例之前的字符

我正在尝试删除字符串向量中每个字符串的第一个大写字母实例之前的所有字符: x 有什么想法吗? 谢谢. 解决方案您需要使用带有反向引用的捕获组: sub("^.*?([A-Z])", "\\1", x) 这里， ^ - 字符串的开始 .*? - 尽可能少的任意 0+ 个字符 ([A-Z]) - 捕获组 1 捕获将在替换模式中使用 \1 引用的大写 ASCII 字母 ..

发布时间：2021-07-06 20:31:25 regex r substring uppercase 其他开发

在两个可能的分隔符之一之前查找单词

字:12335别名:2323434完全不同的词/455字/32 我需要仅使用基本 R 函数来获取 : 或 / 之前的字符串.我可以使用 stringr 来做到这一点，但不想在我的包中添加另一个依赖项.单词可以有可变数量的字符，但总是以分隔符(之一)结尾.我不需要保留后面的内容. 解决方案也许试试: x gsub 有一些正则表达式解决方案也可以使用，但根据我遇到类似问题的经验，st ..

发布时间：2021-07-06 20:30:57 regex r 其他开发

处理由天、小时、分钟和秒定义的持续时间，例如“1d 3h 2m 28s"在 R

我有一个包含字符向量的数据框，格式为“1d 3h 2m 28s": >头(状态[5])期间1 0d 20h 46m 31s2 2d 0h 13m 54s3 2d 0h 13m 53s4 0d 9h 53m 38s5 5d 12h 17m 37s6 0d 10h 21m 19s 我可以用组件的正则表达式解析它，但无法想出一种将持续时间转换为秒的好方法.我可以将向量 gsub 转化为一个表达式，该 ..

发布时间：2021-07-06 20:30:23 regex r time 其他开发

排除某个字符串第二次出现后的所有内容

我有以下字符串 string 细绳[1] "a - b" "z - c" "y" "u - z" 我使用了 substr(x = string, 1, regexpr(string, pattern = ' ..

发布时间：2021-07-06 20:29:23 r regex 其他开发

R正则表达式 - 提取以@符号开头的单词

我正在尝试使用 R 的 stringr 包从推文中提取 twitter 句柄.例如，假设我想获取向量中以“A"开头的所有单词.我可以这样做库(stringr)# 获取所有以“A"开头的单词str_extract_all(c("hAi", "hi Ahello Ame"), "(? ..

发布时间：2021-07-06 20:28:59 r regex stringr 其他开发

计算字符串中模式匹配的数量

例如，我有一个字符串 “AAAAAAACGAAAAAACGAAADGCGEDCG" 我想统计"CG"重复了多少次.我该怎么做? 解决方案你可以使用gregexpr来查找vec中"CG"的位置代码>.我们必须检查是否没有匹配(-1).函数 sum 计算匹配的数量. >vec sum(gregexpr("CG", ve ..

发布时间：2021-07-06 20:28:44 regex string r 其他开发

如何删除 unicode <U+2032>从字符串?

我使用过这种方法，但它没有工作.我的代码包括如下值: clients 所以我尝试了: clients 但它不起作用. 解决方案 clients ..

发布时间：2021-07-06 20:27:24 r regex 其他开发

获取字符串中的第一个单词

我想从向量中提取第一个字符串.例如， y ..

发布时间：2021-07-06 20:26:56 r regex stringr 其他开发

火柴&替换字符串，在替换中使用原始字符串，在 R 中

我正在尝试掌握 R 中正则表达式的世界. 我想知道是否有任何简单的方法可以将“grep"和“gsub"的功能结合起来? 具体来说，我想向任何与特定模式匹配的内容附加一些附加信息. 举个通用的例子，假设我有一个字符向量: char_vec 然后假设我想在 char_vec 的任何元素中附加任何字母 append ..

发布时间：2021-07-06 20:25:59 r regex string 其他开发

gsub 在 R 中有例外

我正在从希伯来语文本中删除英文字符，但想保留我想要的英文单词的简短列表，例如words2keep .所以我当前的正则表达式是 text ..

发布时间：2021-07-06 20:24:22 regex r 其他开发

R在正则表达式中使用变量

好的 - 也许这是一个更好的例子.我正在寻找有关如何在正则表达式中引用变量的指南/参考资料 - 而不是如何为此数据构建正则表达式. 如何使用变量中的值来正则表达式下一个变量? 库(plyr)图书馆(tm)图书馆(字符串)图书馆(gsubfn) 速度数据集 d1$sub ..

发布时间：2021-07-06 20:24:18 regex r 其他开发

在 R 中使用正则表达式为变量赋值

所以我的工作区中有一堆变量.我想将它们的一个子集分配给一个新变量，这样我就可以轻松地在这个子集上运行函数: 工作区: ...第10组第40组位置40测试期望的分配: groupList 预期的正则表达式: ^group[0-9]+ 有什么想法吗? 解决方案 ls 接受一个 pattern 参数: group10 您可以使用 lapply 循环遍历变量名称列表并获 ..

发布时间：2021-07-06 20:24:13 regex r 其他开发

提取电话号码正则表达式

如何从文本文件中提取电话号码? x 解决方案这是我能做到的最好的 - 您有非常广泛的格式，包括一些带有空格的格式，因此正则表达式非常通用.它只是说“查找至少 5 个字符的字符串，完全由数字、句点、括号、连字符或空格组成": 库(stringr)str_extract_all(x, "(^| )[0-9.() -]{5,}( |$)") 输出: [[1]][1]“2-613-213- ..

发布时间：2021-07-06 20:23:25 regex r 其他开发

r相关内容