grepl相关内容
我有一个数据帧(Df),其中包含州和城市的2列数据。但是,有时两列中的数据会被调换或输入错误。数据帧将如下所示: location state Bangkok Bangkok Metropolitan Central Thai Bangkok 我想创建一个新列“City”,将这两个列中的“曼谷”提取到一个单独的列中。我可以
..
我有: > lst_A DT_result DT_result DT_result lst_B res
..
在R中有没有办法检查一列中的值是否包含另一列中的值?在下面的示例中,我试图查看col2中的值是否包含在col1中的值中(独立于每一行),但收到一条警告消息:“参数‘Pattern’的长度>1,将只使用第一个元素”。标志栏第一行/最后一行应显示“是”,第二行和第三行应显示“否”。如有任何关于如何解决的想法,我们将不胜感激。 col1
..
我有一个相对较大的数据集(1,750,000 行,5 列),其中包含具有唯一 ID 值的记录(第一列),由四个标准(其他 4 列)描述.一个小例子是: # 示例库(数据表)dt
..
有没有办法使用类似的东西 filter(df, grepl("A|B|C",location)) 对于 dplyr SQL 表?在 SQL 中,它可能是 LIKE.当然,我可以将 SQL 表转换为 R 数据表,但它非常大.(http://cran.r-project.org/web/packages/dplyr/vignettes/databases.html) 目前我得到 sqliteSe
..
我正在尝试研究如何使用 dplyr 和 grepl 从大型数据集中过滤一些观察结果.如果其他解决方案更佳,我不喜欢 grepl. 以这个示例df: df1 我想: 过滤掉那些以'x'开头的情况 过滤掉以“xx"结尾的情况 我已经设法摆脱所有包含“x"或“xx"但不以开头或结尾的内容.以下是如何摆脱内部包含 'xx' 的所有内容(不仅仅是结尾): df1 %>% filt
..
我有一个大数据框,其中每一行都代表入院.每次入院时在第 5 至 24 列中最多附有 20 个诊断代码. Col1 Col2 Col3 Col4 Diag_1 Diag_2 Diag_3 ... Diag_20数据数据数据数据J123 F456 H789 E468数据数据 数据数据 T452 NA NA NA 另外,我有一个长度为 136 的向量 (risk_codes),所有字符串.这些字符串
..
我是 R 的新手,一直在努力解决这个问题.我想创建一个新列,检查“text"列中是否存在一组单词(“foo"、“x"、“y"),然后将该值写入新列. 我有一个如下所示的数据框:a-> id 文本 时间 用户名1 “你好 x" 10 “我"2 “foo 和 y" 5 “你"3 “无" 15 “大家"4 "x,y,foo" 0 "知道" 正确的输出应该是: a2 -> id tex
..
我有一个看起来像这样的数据集,其中 ID 和电子邮件对应于一个唯一的人.其余列代表由该人/行命名的人.例如,ID 为 1 且电子邮件地址为 alex@gmail.com 的人在被问到问题时名为 Pete、Jane 和 Tim. id 电子邮件 john_b alex_a pete jane tim1 alex@gmail.com 不适用 不适用 1 1 12 pete@yahoo.com 不适用
..
我的数据框包含格式为 YYYY-MM-DD HH-MM-SS 的日期值,跨越 125000 多行,按分钟细分(每行代表一分钟).> 1 2018-01-01 00:04:002 2018-01-01 00:05:003 2018-01-01 00:06:004 2018-01-01 00:07:005 2018-01-01 00:08:006 2018-01-01 00:09:00...1249
..
我需要连接一个条件满足词的前后词.具体来说,那些匹配有逗号的条件. vector
..
我开始在我的工作中进行大量的字符串匹配,我很好奇这三个函数之间的区别是什么,以及在什么情况下有人会使用一个而不是另一个. 解决方案 stringr 是“一组一致、简单且易于使用的围绕奇妙的 'stringi' 包的包装器".(来自包描述).与基本的 R 相比,stringi 的主要优点是包速度惊人.函数的输出在 base 中与 stringr 中相同. 我使用 stringi 生成一
..
我有 words 如果我使用 sapply(words, grepl, text) 给你 TRUE 和 FALSE 的答案,相反,我如何获得匹配的确切单词所以答案是 “这是word1" 我是 R 新手,请原谅我提出这样愚蠢的问题.欢迎提出任何想法. 解决方案 一种选择是创建词边界,然后使用 grep 来避免任何字符串的部分匹配和 value =TRUE,它返回字符串而不是索引
..
我想使用正则表达式将数据框中文本中的所有 URL 提取到新列中.我有一些用于提取关键字的旧代码,因此我希望将代码调整为正则表达式.我想将正则表达式保存为字符串变量并在此处应用: data$ContentURL
..
假设我有一个字符串“Hello".我想看看这个字符串是否包含句点: text
..
考虑以下示例: >testLines grepl('is',testLines)>[1] 对 对 不过,我想要的是仅在“is"作为一个词单独存在时才匹配它.通过阅读一些 perl 文档,似乎这样做的方法是使用 \b,这是一个锚点,可用于识别模式前后的内容,即 \bword\b 匹配 'word' 但不匹配 'sword'.所以我尝试了以下
..
我在 R 中使用 grepl() 来搜索我的文本中是否存在以下任一流派.我现在就是这样做的: grepl("Action", my_text) |grepl(“冒险", my_text) |grepl(“动画", my_text) |grepl(“传记", my_text) |grepl(“喜剧", my_text) |grepl(“犯罪", my_text) |grepl(“纪录片", my_
..
我在将模式与 R 中的文本字符串匹配时遇到了一些问题. 当文本类似于 "lettersornumbersorspaces y lettersornumbersorspaces" 时,我试图用 grepl 获得 TRUE. 我正在使用以下 regex: ([:alnum:]|[:blank:])+[:blank:][yY][:blank:]([:alnum:]|[:blank:])+
..
数据集样本: diag01
..
我有一列5万行的推文,它们来自csv文件中的文本(推文由句子,短语等组成).我正在尝试计算该列中几个单词的出现频率.与下面的操作相比,有没有更简单的方法? #读取我的文件推文
..