stringdist - IT屋-程序员软件开发技术分享社区

将参数传递给R中的多个match_fun函数fuzzyjoin::fuzzy_join

我在回答这些两个 questions 并得到了适当的解决方案，但我无法将使用 fuzzy_join 的参数传递到我从 fuzzyjoin::stringdist_join 提取的 match_fun 中.在这种情况下，我使用了多个 match_fun 的组合，包括这个自定义的 match_fun_stringdist 以及 == 和 ..

发布时间：2022-01-21 22:02:11 r arguments parameter-passing stringdist fuzzyjoin 其他开发

R模糊字符串匹配以根据匹配的字符串返回特定列

我有两个大型数据集，一个大约一百万条记录，另一个大约 70K.这些数据集有地址.如果较小数据集中的任何地址存在于较大数据集中，我想匹配.正如您想象的那样，地址可以以不同的方式和不同的情况/拼写等方式编写.除此之外，如果只写到建筑物级别，则可以复制此地址.所以不同的公寓有相同的地址.我做了一些研究，并找出了可以使用的包 stringdist. 我做了一些工作，并设法根据距离获得最接近的匹配.但 ..

发布时间：2022-01-13 18:52:22 r merge data.table string-matching stringdist 其他开发

R中的快速Levenshtein距离?

是否有包含以 C 或 Fortran 代码实现的 Levenshtein 距离计数功能的包?我有很多字符串要比较，而 MiscPsycho 中的 stringMatch 太慢了. 解决方案 levenshteinDist(来自 RecordLinkage 包)调用已编译的 C 代码.试试看吧. ..

发布时间：2022-01-13 16:37:34 r performance packages levenshtein-distance stringdist 其他开发

R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集，一个大约 50 万条记录，另一个大约 7 万条记录.这些数据集有地址.我想匹配较小数据集中的任何地址是否存在于大数据集中.正如您所想象的，地址可以以不同的方式和不同的情况/拼写等书写.除此之外，如果只写到建筑物级别，则可以复制此地址.所以不同的单位有相同的地址.我做了一些研究并找出了可以使用的包 stringdist. 我做了一些工作并设法根据距离获得最接近的匹配.但是我 ..

发布时间：2021-12-27 21:55:43 r merge data.table string-matching stringdist 其他开发

将参数传递给 R 中的多个 match_fun 函数:fuzzy_join

我正在回答这些两个问题并得到了适当的解决方案，但是我无法使用 fuzzy_join 将参数传递到我从 fuzzyjoin::stringdist_join 中提取的 match_fun 中.在这种情况下，我使用了多个 match_fun 的混合，包括这个定制的 match_fun_stringdist 以及 == 和 ..

发布时间：2021-11-17 05:11:42 r arguments parameter-passing stringdist fuzzyjoin 其他开发

R 函数来识别不匹配的行

我正在尝试比较 2 个 data.frames，“V1"代表我的 CRM，“V2"代表我想发送的潜在客户. 'V1 大约有 8k 个元素''V2 大约有 25k 个元素' 我需要将 V2 中的每一行与 V1 中的每一行进行比较，丢弃 V1 中存在 V2 元素的每个实例. 然后，我只想将在 V1 中没有完全或松散出现的元素返回到 Leads 列中. 目标是发送 CRM(V1) ..

发布时间：2021-09-07 19:35:16 r tidyverse stringdist 其他开发

stringdist包中的Jaccard相似度匹配字符串中的单词

我想在 stringdist 函数中使用 Jaccard 相似度来确定词袋的相似度.据我所知，使用 Jaccard 只能匹配字符串中的字母. c 所以我们在这里看到它计算了“cat"和“cat"、“dog"和“dog"、“person"和“ufo"的相似度. 我还尝试将单词转换为 1 个长文本字符串.以下方法接近我所需要的，但它仍在计算 1 -(共享 2 克的数量/唯一 2 克的总数) ..

发布时间：2021-09-06 19:06:48 r text stringdist 其他开发

计算 R 中两个向量/字符串之间的相似度

这可能是这个论坛中提出的类似问题，但我觉得我的要求很奇怪.我有一个数据框 df1，它由具有 40,000 个观察值的变量“WrittenTerms"组成，我还有另一个数据成名的 df2，其变量“SuggestedTerms"具有 17,000 个观察值我需要计算“书面术语"和“建议术语"之间的相似度 df1$WrittenTerms 头疼肺癌腹痛 df2$ ..

发布时间：2021-06-14 20:26:15 r pattern-matching similarity cosine-similarity stringdist 其他开发

R 在向量中查找相互匹配的元素

我有一个地址列表.这些地址是由不同的用户输入的，因此写入相同地址的方式存在很大差异.例如， "andheri at weh pump house", "andheri pump house","andheri pump house(mt)","weh andheri pump house","weh andheri pump house et","weh, nr. pump屋" 上面的向量有 ..

发布时间：2021-06-14 20:25:29 r pattern-matching stringdist agrep 其他开发

R中的高效编程

我有类似的数据 author_id paper_id已确认author_name1 author_affiliation1 author_name826 25733 1 Emanuele Buratti基因工程Emanuele Buratti826 25733 1 Emanuele Buratti国际中心Emanuele Buratti826 47276 1伊曼纽尔·布拉蒂(Emanuel ..

发布时间：2021-05-30 21:24:03 r loops stringdist 其他开发

使用应用功能替换循环

我想用R中的适当Apply函数替换嵌套的for循环. 我声明一个具有以下尺寸的矩阵-ncol为412，nrow为2164 dist.name.enh ..

发布时间：2021-05-09 18:43:05 r for-loop lapply sapply stringdist 其他开发

在R中的数据框中显示相应的值

请检查下面的代码，我使用下面的三个变量创建了一个数据框，变量“ y123”计算出a2列与a1之间的相似度。变量“ y123”为我提供了总共16个值，其中每个a1值都与a2进行比较。我的需要是，当将特定的“ a1”值与特定的“ a2”值进行比较时，我希望在“ a2”旁边显示相应的“ a3”值。因此，结果应该是一个数据帧，该数据帧的列为y123，而第二列的对应“ a3”列出现了四次，即16个值。谢谢， ..

发布时间：2020-10-26 05:07:40 r dplyr stringdist record-linkage 其他开发

在R中连接不精确的字符串

我要加入两个表..但是我要加入的数据不完全匹配..加入NFL球员的名字.. data > dput（att75a）结构（列表（rusher_player_name = c（“ A.Ekeler”，“ A.Jones”， “ A.Kamara”，“ A.Mattison”，“ A.Peterson”， “ B.Hill”），mean_epa = c（-0.110459963350783 ..

发布时间：2020-10-16 20:13:33 r string join data-cleaning stringdist 其他开发

使用参考表的每个值计算数据表中每个元素的Levenshtein比率，并以最大比率合并

我有一个data.table dt，其中包含3列： id name为字符串阈值为num 示例为： dt ..

发布时间：2020-10-15 19:46:35 r data.table dplyr stringdist 其他开发

在R中的数据框中查找相似的行(不重复)

我有一个超过80万行的数据集(示例): id fieldA fieldB codeA codeB 120 Similar one addrs example1 929292 0006 3490 Similar oh addrs example3 929292 0006 2012 CLOSE CAA ..

发布时间：2020-08-01 19:50:56 r duplicates stringdist 其他开发

将参数传递给R Fuzzyjoin :: fuzzy_join中的多个match_fun函数

我正在回答这些两个我收到的错误消息是: # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...): object 'ignore_case' not found # Data: library(data.table, quietly = TRUE) Address1 ..

发布时间：2020-07-23 01:26:00 r arguments parameter-passing stringdist fuzzyjoin 其他开发

stringdist_join的结果为NA

我正在试验stringdist软件包以进行模糊连接，但遇到了一个我不理解且无法找到答案的问题. 我想用"dl"方法将这两个数据表连接起来，并产生一个NA，我完全不了解.也许你们中的一个对此有一个解释. 代码: library(fuzzyjoin) test1 ..

发布时间：2020-06-24 18:36:35 r matching fuzzy stringdist fuzzyjoin 其他开发

R中Levenshtein的距离很快吗?

是否有一个包含Levenshtein距离计数功能的软件包，该软件包以C或Fortran代码实现?我有很多字符串要比较，而MiscPsycho中的stringMatch对此太慢了. 解决方案 ..

发布时间：2020-05-23 19:20:35 r performance packages levenshtein-distance stringdist 其他开发

R模糊字符串匹配以基于匹配的字符串返回特定的列

我有两个大型数据集，一个大约50万条记录，另一个大约70K.这些数据集具有地址.我想匹配较小数据集中的任何地址是否存在于较大的数据集中.就像您想象的那样，地址可以用不同的方式以及在不同的情况/拼写等方式中写入.除此地址外，如果仅在建筑物级别之前写入，则可以重复.因此，不同的单位具有相同的地址.我做了一些研究，弄清楚了可以使用的stringdist软件包. 我做了一些工作，并设法根据距离获得了 ..

发布时间：2020-05-09 00:16:23 r merge data.table string-matching stringdist 其他开发

在R中找到匹配的字符串组

我有大约8000个字符串的向量.向量中的每个元素都是公司名称. 我的目标我的目标是将这些公司名称分组为一组，以便每个群集包含一组彼此相似的公司名称(例如:ROYAL DUTCH SHELL，SHELL USA，BMCC SHELL等将属于相同的组/集群，因为它们都是基于Shell的公司，即名称中带有"Shell"一词. 在处理这种大小的向量时，似乎要花很多时间才能使用我采用的聚 ..

发布时间：2020-05-06 09:37:37 r string grouping matching stringdist 其他开发

stringdist相关内容