record-linkage相关内容
我需要加入R中的两个data.frame,它们都有两个ID候选者,但有很多丢失的数据(所以我不能只选择一个并过滤掉其余的)。 编辑两个数据集的可重现示例和所需结果: messy1
..
我有一个大型数据库(可能有数百万条记录),其中包含相对较短的文本字符串(按街道地址、名称等顺序). 我正在寻找一种去除不精确重复的策略,模糊匹配似乎是首选方法.我的问题:许多文章和 SO 问题都涉及将单个字符串与数据库中的所有记录进行匹配.我希望立即对整个数据库进行重复数据删除. 前者将是一个线性时间问题(将一个值与一百万个其他值进行比较,每次都计算一些相似性度量).后者是指数时间问题
..
请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“ y123”计算出a2列与a1之间的相似度。变量“ y123”为我提供了总共16个值,其中每个a1值都与a2进行比较。我的需要是,当将特定的“ a1”值与特定的“ a2”值进行比较时,我希望在“ a2”旁边显示相应的“ a3”值。因此,结果应该是一个数据帧,该数据帧的列为y123,而第二列的对应“ a3”列出现了四次,即16个值。谢谢,
..
我必须将数据集A中的列a匹配到数据集B中的列b. 但是不同的变量不是在单独的字段(a,b,c列)中,而是在同一个字段中. 我一直在查看软件包 RecordLinkage & fastLink ,它们可以很好地将字段分隔开. 单独的字段: # make dataframe 1 fname
..
我的团队一直坚持在两个大型数据集上运行模糊逻辑算法. 第一个(子集)大约有18万行,其中包含我们需要在第二个(超集)中匹配的人员的姓名,地址和电子邮件.超集包含250万条记录.两者具有相同的结构,并且数据已经被清除,例如,解析的地址,名称已规范化等. ContactID int, 全名varchar(150), 地址varchar(100), 通过电子邮件发送varchar(100)
..
我正在使用Dedupe库将人员记录彼此匹配.我的数据包括姓名,出生日期,地址,电话号码和其他个人身份信息. 这是我的问题:例如,如果两条记录具有匹配的名称和电话号码,我总是希望100%置信度匹配它们. 这是我的一些代码的示例: fields = [ {'field' : 'LAST_NM', 'variable name' : 'last_nm', 'type': 'St
..
如何在熊猫中使用模糊匹配来有效地检测重复行 如何在没有将row_i转换为String()然后将其与所有其他列进行比较的巨大for循环的情况下,查找一列与其他列的重复项? 解决方案 不是特定于熊猫的,但在python生态系统中,重复数据删除python库似乎可以满足您的要求.特别是,它可以让您分别比较一行的每一列,然后将信息组合为一个匹配的单个概率分数.
..
出于两个原因,我经常需要通过多个匹配列来匹配两个数据集.首先,这些特征中的每一个都是“肮脏的",这意味着即使在应有的情况下,单个列也并不一致(对于真正匹配的行).其次,特征不是唯一的(例如,男性和女性).这样的匹配对于跨时间(测试前和测试后分数),不同的数据模式(观察到的特征和实验室值)或研究参与者的多个数据集进行匹配非常有用. 我需要选择最佳匹配的启发式方法. 然后,如上所述,我可以一起对
..
是否有Fellegi-Sunter的开源实现? 解决方案 这是您要找的? 维基百科:记录链接 检查“软件实施”可能的解决方案。
..
我正在尝试使用 Duke快速重复数据删除引擎来搜索一些重复的记录在我工作的公司的数据库中。 我从命令行运行它,如下所示: java -cp“C:\utils \ duke-0.6 \ duke-0.6.jar; C:\\\\\\\\\\\\\\\\\\\\\\\\\\ .jar“no.priv.garshol.duke.Duke --showmatches --verbose .\c
..
这是一个有趣的问题。 我有一个oracle数据库,名称为&地址信息需要保持当前状态。 我们从多个不同的政府来源获取数据源,需要找出匹配,以及是否使用数据更新数据库,或者需要创建新记录。 没有任何类型的唯一标识符可用于将记录绑定在一起,数据质量并不总是那么好 - 总会有打字错误,使用不同名称的人(即乔和约瑟夫)等。 我会有兴趣从任何在这种类型的问题上工作的人听到他们如何解决这
..
我有一个较大的数据库(可能在数百万条记录中),字符串相对较短(按街道地址,名称等)。 我正在寻找一个删除不精确重复的策略,而模糊匹配似乎是选择的方法。我的问题:许多文章和SO问题涉及将单个字符串与数据库中的所有记录进行匹配。我正在寻找一次重复数据删除整个数据库。前者将是线性时间问题(将值与百万其他值进行比较,每次计算一些相似性度量)。后者是一个指数时间问题(比较每个记录的价值与每个其他记录的
..