fuzzyjoin相关内容

做一个“模糊"并且不模糊,多对一与 data.table 合并

假设我有两个数据库 dfA 和 dfB.一个有个人观察,一个有国家级数据(适用于来自同一年份和国家的多个观察)对于这些数据库中的每一个,我都创建了一个名为 matchcode 的键.此匹配代码是国家代码和年份的组合. dfA 大多数情况下,当我合并这些数据集时,我只是这样做: dfA 问题是有时年份并不完全匹配.所以我尝试了: dfA ..
发布时间:2022-01-13 19:37:47 其他开发

使用 data.table 模糊连接两个数据帧

我一直在研究 fuzzyjoin 以将 2 个数据帧连接在一起,但是由于内存问题,连接导致 无法分配...的内存.所以我正在尝试使用 data.table 加入数据.数据示例如下. df1 看起来像: ID f_date ACCNUM flmNUM start_date end_date1 50341 2002-03-08 0001104659-02-000656 2571187 200 ..
发布时间:2022-01-13 19:26:54 其他开发

R - 将大数据帧拆分为几个较小的数据帧,对每个数据帧执行模糊连接并输出到单个数据帧

我有 2 个数据框,我需要使用 Fuzzyjoin 函数将它们连接起来.我尝试在整个数据帧上执行该功能,但没有足够的内存来执行此操作.其中一个数据帧 [UPRN] 作为源数据保存地址的唯一标识符,另一个 [地址] 保存需要与唯一标识符匹配的地址. 我知道有一些与以下内容相关的问题,但我发现似乎没有一个可以回答我的问题. 我希望将大约 45000 行的 [Address] 拆分为 500 ..
发布时间:2021-09-07 19:39:26 其他开发

R:Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串

df1 df2 df3 库(dplyr)图书馆(模糊连接)df1 我尝试使用 regex_join 和 fuzzyjoin 执行此操作,但是字符串的顺序似乎很重要,并且似乎无法找到解决方法. 解决方案 regex_left_join 有效,但它不只是寻找任何相似之处.正如描述中所说, 通过另一个表中的正则表达式列加入一个带有字符串列的表 所以,我们需要提供一个正则表达 ..
发布时间:2021-08-31 18:43:46 其他开发

两个数据库的模糊匹配和精确匹配

我有两个数据库.第一个有大约 70k 行和 3 列.第二个有 790k 行和 2 列.两个数据库都有一个公共变量grantee_name.我想根据此 grantee_name 将第一个数据库的每一行与第二个数据库的一行或多行进行匹配.请注意,merge 将不起作用,因为 grantee_name 不完全匹配.有不同的拼写等.所以,我正在使用 fuzzyjoin 包并尝试以下操作: library ..
发布时间:2021-06-23 19:07:12 其他开发

条件连接数据帧R

我有一个简单的问题,我无法正确把握. 我有两个数据框,第一个仅包含日期(一整年的每个月),第二个也包含日期和一些其他数据,但是第二个变量中的月份有所变化.像下面这样: df1 ..
发布时间:2021-05-02 20:46:03 其他开发

stringdist_join的结果为NA

我正在试验stringdist软件包以进行模糊连接,但遇到了一个我不理解且无法找到答案的问题. 我想用"dl"方法将这两个数据表连接起来,并产生一个NA,我完全不了解.也许你们中的一个对此有一个解释. 代码: library(fuzzyjoin) test1 ..
发布时间:2020-06-24 18:36:35 其他开发