stringdist相关内容
我在回答这些两个 questions 并得到了适当的解决方案,但我无法将使用 fuzzy_join 的参数传递到我从 fuzzyjoin::stringdist_join 提取的 match_fun 中.在这种情况下,我使用了多个 match_fun 的组合,包括这个自定义的 match_fun_stringdist 以及 == 和
..
我有两个大型数据集,一个大约一百万条记录,另一个大约 70K.这些数据集有地址.如果较小数据集中的任何地址存在于较大数据集中,我想匹配.正如您想象的那样,地址可以以不同的方式和不同的情况/拼写等方式编写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的公寓有相同的地址.我做了一些研究,并找出了可以使用的包 stringdist. 我做了一些工作,并设法根据距离获得最接近的匹配.但
..
是否有包含以 C 或 Fortran 代码实现的 Levenshtein 距离计数功能的包?我有很多字符串要比较,而 MiscPsycho 中的 stringMatch 太慢了. 解决方案 levenshteinDist(来自 RecordLinkage 包)调用已编译的 C 代码.试试看吧.
..
我有两个大型数据集,一个大约 50 万条记录,另一个大约 7 万条记录.这些数据集有地址.我想匹配较小数据集中的任何地址是否存在于大数据集中.正如您所想象的,地址可以以不同的方式和不同的情况/拼写等书写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的单位有相同的地址.我做了一些研究并找出了可以使用的包 stringdist. 我做了一些工作并设法根据距离获得最接近的匹配.但是我
..
我正在回答这些两个 问题 并得到了适当的解决方案,但是我无法使用 fuzzy_join 将参数传递到我从 fuzzyjoin::stringdist_join 中提取的 match_fun 中.在这种情况下,我使用了多个 match_fun 的混合,包括这个定制的 match_fun_stringdist 以及 == 和
..
我正在尝试比较 2 个 data.frames,“V1"代表我的 CRM,“V2"代表我想发送的潜在客户. 'V1 大约有 8k 个元素''V2 大约有 25k 个元素' 我需要将 V2 中的每一行与 V1 中的每一行进行比较,丢弃 V1 中存在 V2 元素的每个实例. 然后,我只想将在 V1 中没有完全或松散出现的元素返回到 Leads 列中. 目标是发送 CRM(V1)
..
我想在 stringdist 函数中使用 Jaccard 相似度来确定词袋的相似度.据我所知,使用 Jaccard 只能匹配字符串中的字母. c 所以我们在这里看到它计算了“cat"和“cat"、“dog"和“dog"、“person"和“ufo"的相似度. 我还尝试将单词转换为 1 个长文本字符串.以下方法接近我所需要的,但它仍在计算 1 -(共享 2 克的数量/唯一 2 克的总数)
..
这可能是这个论坛中提出的类似问题,但我觉得我的要求很奇怪.我有一个数据框 df1,它由具有 40,000 个观察值的变量“WrittenTerms"组成,我还有另一个数据成名的 df2,其变量“SuggestedTerms"具有 17,000 个观察值 我需要计算“书面术语"和“建议术语"之间的相似度 df1$WrittenTerms 头疼 肺癌 腹痛 df2$
..
我有一个地址列表.这些地址是由不同的用户输入的,因此写入相同地址的方式存在很大差异.例如, "andheri at weh pump house", "andheri pump house","andheri pump house(mt)","weh andheri pump house","weh andheri pump house et","weh, nr. pump屋" 上面的向量有
..
我有类似 的数据 author_id paper_id已确认author_name1 author_affiliation1 author_name826 25733 1 Emanuele Buratti基因工程Emanuele Buratti826 25733 1 Emanuele Buratti国际中心Emanuele Buratti826 47276 1伊曼纽尔·布拉蒂(Emanuel
..
我想用R中的适当Apply函数替换嵌套的for循环. 我声明一个具有以下尺寸的矩阵-ncol为412,nrow为2164 dist.name.enh
..
请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“ y123”计算出a2列与a1之间的相似度。变量“ y123”为我提供了总共16个值,其中每个a1值都与a2进行比较。我的需要是,当将特定的“ a1”值与特定的“ a2”值进行比较时,我希望在“ a2”旁边显示相应的“ a3”值。因此,结果应该是一个数据帧,该数据帧的列为y123,而第二列的对应“ a3”列出现了四次,即16个值。谢谢,
..
我要加入两个表..但是我要加入的数据不完全匹配..加入NFL球员的名字.. data > dput(att75a) 结构(列表(rusher_player_name = c(“ A.Ekeler”,“ A.Jones”, “ A.Kamara”,“ A.Mattison”,“ A.Peterson”, “ B.Hill”),mean_epa = c(-0.110459963350783
..
我有一个data.table dt,其中包含3列: id name为字符串 阈值为num 示例为: dt
..
我有一个超过80万行的数据集(示例): id fieldA fieldB codeA codeB 120 Similar one addrs example1 929292 0006 3490 Similar oh addrs example3 929292 0006 2012 CLOSE CAA
..
我正在回答这些两个 我收到的错误消息是: # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...): object 'ignore_case' not found # Data: library(data.table, quietly = TRUE) Address1
..
我正在试验stringdist软件包以进行模糊连接,但遇到了一个我不理解且无法找到答案的问题. 我想用"dl"方法将这两个数据表连接起来,并产生一个NA,我完全不了解.也许你们中的一个对此有一个解释. 代码: library(fuzzyjoin) test1
..
是否有一个包含Levenshtein距离计数功能的软件包,该软件包以C或Fortran代码实现?我有很多字符串要比较,而MiscPsycho中的stringMatch对此太慢了. 解决方案
..
我有两个大型数据集,一个大约50万条记录,另一个大约70K.这些数据集具有地址.我想匹配较小数据集中的任何地址是否存在于较大的数据集中.就像您想象的那样,地址可以用不同的方式以及在不同的情况/拼写等方式中写入.除此地址外,如果仅在建筑物级别之前写入,则可以重复.因此,不同的单位具有相同的地址.我做了一些研究,弄清楚了可以使用的stringdist软件包. 我做了一些工作,并设法根据距离获得了
..
我有大约8000个字符串的向量.向量中的每个元素都是公司名称. 我的目标 我的目标是将这些公司名称分组为一组,以便每个群集包含一组彼此相似的公司名称(例如:ROYAL DUTCH SHELL,SHELL USA,BMCC SHELL等将属于相同的组/集群,因为它们都是基于Shell的公司,即名称中带有"Shell"一词. 在处理这种大小的向量时,似乎要花很多时间才能使用我采用的聚
..