stringdist相关内容

R模糊字符串匹配以根据匹配的字符串返回特定列

我有两个大型数据集,一个大约一百万条记录,另一个大约 70K.这些数据集有地址.如果较小数据集中的任何地址存在于较大数据集中,我想匹配.正如您想象的那样,地址可以以不同的方式和不同的情况/拼写等方式编写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的公寓有相同的地址.我做了一些研究,并找出了可以使用的包 stringdist. 我做了一些工作,并设法根据距离获得最接近的匹配.但 ..
发布时间:2022-01-13 18:52:22 其他开发

R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集,一个大约 50 万条记录,另一个大约 7 万条记录.这些数据集有地址.我想匹配较小数据集中的任何地址是否存在于大数据集中.正如您所想象的,地址可以以不同的方式和不同的情况/拼写等书写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的单位有相同的地址.我做了一些研究并找出了可以使用的包 stringdist. 我做了一些工作并设法根据距离获得最接近的匹配.但是我 ..
发布时间:2021-12-27 21:55:43 其他开发

R 函数来识别不匹配的行

我正在尝试比较 2 个 data.frames,“V1"代表我的 CRM,“V2"代表我想发送的潜在客户. 'V1 大约有 8k 个元素''V2 大约有 25k 个元素' 我需要将 V2 中的每一行与 V1 中的每一行进行比较,丢弃 V1 中存在 V2 元素的每个实例. 然后,我只想将在 V1 中没有完全或松散出现的元素返回到 Leads 列中. 目标是发送 CRM(V1) ..
发布时间:2021-09-07 19:35:16 其他开发

stringdist包中的Jaccard相似度匹配字符串中的单词

我想在 stringdist 函数中使用 Jaccard 相似度来确定词袋的相似度.据我所知,使用 Jaccard 只能匹配字符串中的字母. c 所以我们在这里看到它计算了“cat"和“cat"、“dog"和“dog"、“person"和“ufo"的相似度. 我还尝试将单词转换为 1 个长文本字符串.以下方法接近我所需要的,但它仍在计算 1 -(共享 2 克的数量/唯一 2 克的总数) ..
发布时间:2021-09-06 19:06:48 其他开发

计算 R 中两个向量/字符串之间的相似度

这可能是这个论坛中提出的类似问题,但我觉得我的要求很奇怪.我有一个数据框 df1,它由具有 40,000 个观察值的变量“WrittenTerms"组成,我还有另一个数据成名的 df2,其变量“SuggestedTerms"具有 17,000 个观察值 我需要计算“书面术语"和“建议术语"之间的相似度 df1$WrittenTerms 头疼 肺癌 腹痛 df2$ ..

R 在向量中查找相互匹配的元素

我有一个地址列表.这些地址是由不同的用户输入的,因此写入相同地址的方式存在很大差异.例如, "andheri at weh pump house", "andheri pump house","andheri pump house(mt)","weh andheri pump house","weh andheri pump house et","weh, nr. pump屋" 上面的向量有 ..
发布时间:2021-06-14 20:25:29 其他开发

R中的高效编程

我有类似 的数据 author_id paper_id已确认author_name1 author_affiliation1 author_name826 25733 1 Emanuele Buratti基因工程Emanuele Buratti826 25733 1 Emanuele Buratti国际中心Emanuele Buratti826 47276 1伊曼纽尔·布拉蒂(Emanuel ..
发布时间:2021-05-30 21:24:03 其他开发

在R中的数据框中显示相应的值

请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“ y123”计算出a2列与a1之间的相似度。变量“ y123”为我提供了总共16个值,其中每个a1值都与a2进行比较。我的需要是,当将特定的“ a1”值与特定的“ a2”值进行比较时,我希望在“ a2”旁边显示相应的“ a3”值。因此,结果应该是一个数据帧,该数据帧的列为y123,而第二列的对应“ a3”列出现了四次,即16个值。谢谢, ..
发布时间:2020-10-26 05:07:40 其他开发

在R中连接不精确的字符串

我要加入两个表..但是我要加入的数据不完全匹配..加入NFL球员的名字.. data > dput(att75a) 结构(列表(rusher_player_name = c(“ A.Ekeler”,“ A.Jones”, “ A.Kamara”,“ A.Mattison”,“ A.Peterson”, “ B.Hill”),mean_epa = c(-0.110459963350783 ..
发布时间:2020-10-16 20:13:33 其他开发

stringdist_join的结果为NA

我正在试验stringdist软件包以进行模糊连接,但遇到了一个我不理解且无法找到答案的问题. 我想用"dl"方法将这两个数据表连接起来,并产生一个NA,我完全不了解.也许你们中的一个对此有一个解释. 代码: library(fuzzyjoin) test1 ..
发布时间:2020-06-24 18:36:35 其他开发

R模糊字符串匹配以基于匹配的字符串返回特定的列

我有两个大型数据集,一个大约50万条记录,另一个大约70K.这些数据集具有地址.我想匹配较小数据集中的任何地址是否存在于较大的数据集中.就像您想象的那样,地址可以用不同的方式以及在不同的情况/拼写等方式中写入.除此地址外,如果仅在建筑物级别之前写入,则可以重复.因此,不同的单位具有相同的地址.我做了一些研究,弄清楚了可以使用的stringdist软件包. 我做了一些工作,并设法根据距离获得了 ..
发布时间:2020-05-09 00:16:23 其他开发

在R中找到匹配的字符串组

我有大约8000个字符串的向量.向量中的每个元素都是公司名称. 我的目标 我的目标是将这些公司名称分组为一组,以便每个群集包含一组彼此相似的公司名称(例如:ROYAL DUTCH SHELL,SHELL USA,BMCC SHELL等将属于相同的组/集群,因为它们都是基于Shell的公司,即名称中带有"Shell"一词. 在处理这种大小的向量时,似乎要花很多时间才能使用我采用的聚 ..
发布时间:2020-05-06 09:37:37 其他开发