fuzzyjoin相关内容
我在回答这些两个 questions 并得到了适当的解决方案,但我无法将使用 fuzzy_join 的参数传递到我从 fuzzyjoin::stringdist_join 提取的 match_fun 中.在这种情况下,我使用了多个 match_fun 的组合,包括这个自定义的 match_fun_stringdist 以及 == 和
..
假设我有两个数据库 dfA 和 dfB.一个有个人观察,一个有国家级数据(适用于来自同一年份和国家的多个观察)对于这些数据库中的每一个,我都创建了一个名为 matchcode 的键.此匹配代码是国家代码和年份的组合. dfA 大多数情况下,当我合并这些数据集时,我只是这样做: dfA 问题是有时年份并不完全匹配.所以我尝试了: dfA
..
我一直在研究 fuzzyjoin 以将 2 个数据帧连接在一起,但是由于内存问题,连接导致 无法分配...的内存.所以我正在尝试使用 data.table 加入数据.数据示例如下. df1 看起来像: ID f_date ACCNUM flmNUM start_date end_date1 50341 2002-03-08 0001104659-02-000656 2571187 200
..
我正在回答这些两个 问题 并得到了适当的解决方案,但是我无法使用 fuzzy_join 将参数传递到我从 fuzzyjoin::stringdist_join 中提取的 match_fun 中.在这种情况下,我使用了多个 match_fun 的混合,包括这个定制的 match_fun_stringdist 以及 == 和
..
我有 2 个数据框,我需要使用 Fuzzyjoin 函数将它们连接起来.我尝试在整个数据帧上执行该功能,但没有足够的内存来执行此操作.其中一个数据帧 [UPRN] 作为源数据保存地址的唯一标识符,另一个 [地址] 保存需要与唯一标识符匹配的地址. 我知道有一些与以下内容相关的问题,但我发现似乎没有一个可以回答我的问题. 我希望将大约 45000 行的 [Address] 拆分为 500
..
df1 df2 df3 库(dplyr)图书馆(模糊连接)df1 我尝试使用 regex_join 和 fuzzyjoin 执行此操作,但是字符串的顺序似乎很重要,并且似乎无法找到解决方法. 解决方案 regex_left_join 有效,但它不只是寻找任何相似之处.正如描述中所说, 通过另一个表中的正则表达式列加入一个带有字符串列的表 所以,我们需要提供一个正则表达
..
我有两个数据库.第一个有大约 70k 行和 3 列.第二个有 790k 行和 2 列.两个数据库都有一个公共变量grantee_name.我想根据此 grantee_name 将第一个数据库的每一行与第二个数据库的一行或多行进行匹配.请注意,merge 将不起作用,因为 grantee_name 不完全匹配.有不同的拼写等.所以,我正在使用 fuzzyjoin 包并尝试以下操作: library
..
我有一个简单的问题,我无法正确把握. 我有两个数据框,第一个仅包含日期(一整年的每个月),第二个也包含日期和一些其他数据,但是第二个变量中的月份有所变化.像下面这样: df1
..
我必须存储数据集,其中一个具有某个位置(纬度,经度),这就是测试数据,一个具有纽约市所有邮政编码的纬度/经度信息的数据集,即test2. test
..
我有2个数据帧. 首先 abc
..
# example a
..
我有2个数据集,想要进行模糊连接. 这是两个数据集. library(data.table) # data1 dt1
..
我有两个来自不同来源的数据框,它们指向同一个人,但是由于自我报告的数据有误,因此日期可能会略有不同. 示例数据: df1
..
我正在回答这些两个 我收到的错误消息是: # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...): object 'ignore_case' not found # Data: library(data.table, quietly = TRUE) Address1
..
我一直在研究fuzzyjoin将2个数据帧连接在一起,但是由于内存问题,连接导致cannot allocate memory of….因此,我尝试使用data.table联接数据.数据示例如下. df1看起来像: ID f_date ACCNUM flmNUM start_date end_date 1 50341 2
..
library(tidyverse) library(fuzzyjoin) df1 # A tibble: 3 x 3 #> col1
..
我正在试验stringdist软件包以进行模糊连接,但遇到了一个我不理解且无法找到答案的问题. 我想用"dl"方法将这两个数据表连接起来,并产生一个NA,我完全不了解.也许你们中的一个对此有一个解释. 代码: library(fuzzyjoin) test1
..
让我说我有这个数据集: df1 = data.frame(groupID = c(rep("a", 6), rep("b", 6), rep("c", 6)), testid = c(111, 222, 333, 444, 555, 666, 777, 888, 999, 1010, 1111, 1212, 1313, 1414, 1515, 1616,
..
我正在使用多个数据库.对于这些数据库中的每一个,我都创建了一个名为matchcode的密钥. matchcode是国家/地区代码和年份的组合.通常,当我合并这些数据集时,我只是这样做: dfA
..
假设我有两个数据库dfA和dfB.一个具有单独的观察值,一个具有国家/地区级别的数据(适用于来自同一年和国家/地区的多个观察值).对于这些数据库中的每一个,我都创建了一个名为matchcode的键.此匹配代码是国家/地区代码和年份的组合. dfA
..