record-linkage相关内容

在不到指数的时间内进行模糊匹配重复数据删除?

我有一个大型数据库(可能有数百万条记录),其中包含相对较短的文本字符串(按街道地址、名称等顺序). 我正在寻找一种去除不精确重复的策略,模糊匹配似乎是首选方法.我的问题:许多文章和 SO 问题都涉及将单个字符串与数据库中的所有记录进行匹配.我希望立即对整个数据库进行重复数据删除. 前者将是一个线性时间问题(将一个值与一百万个其他值进行比较,每次都计算一些相似性度量).后者是指数时间问题 ..

在R中的数据框中显示相应的值

请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“ y123”计算出a2列与a1之间的相似度。变量“ y123”为我提供了总共16个值,其中每个a1值都与a2进行比较。我的需要是,当将特定的“ a1”值与特定的“ a2”值进行比较时,我希望在“ a2”旁边显示相应的“ a3”值。因此,结果应该是一个数据帧,该数据帧的列为y123,而第二列的对应“ a3”列出现了四次,即16个值。谢谢, ..
发布时间:2020-10-26 05:07:40 其他开发

使用Python处理大型数据集的模糊逻辑

我的团队一直坚持在两个大型数据集上运行模糊逻辑算法. 第一个(子集)大约有18万行,其中包含我们需要在第二个(超集)中匹配的人员的姓名,地址和电子邮件.超集包含250万条记录.两者具有相同的结构,并且数据已经被清除,例如,解析的地址,名称已规范化等. ContactID int, 全名varchar(150), 地址varchar(100), 通过电子邮件发送varchar(100) ..
发布时间:2020-06-15 19:29:14 Python

使用Python Dedupe库设置用于匹配记录的显式规则

我正在使用Dedupe库将人员记录彼此匹配.我的数据包括姓名,出生日期,地址,电话号码和其他个人身份信息. 这是我的问题:例如,如果两条记录具有匹配的名称和电话号码,我总是希望100%置信度匹配它们. 这是我的一些代码的示例: fields = [ {'field' : 'LAST_NM', 'variable name' : 'last_nm', 'type': 'St ..
发布时间:2020-06-12 19:41:34 Python

熊猫模糊检测重复项

如何在熊猫中使用模糊匹配来有效地检测重复行 如何在没有将row_i转换为String()然后将其与所有其他列进行比较的巨大for循环的情况下,查找一列与其他列的重复项? 解决方案 不是特定于熊猫的,但在python生态系统中,重复数据删除python库似乎可以满足您的要求.特别是,它可以让您分别比较一行的每一列,然后将信息组合为一个匹配的单个概率分数. ..

匹配R中多个“脏"列中的两个数据集

出于两个原因,我经常需要通过多个匹配列来匹配两个数据集.首先,这些特征中的每一个都是“肮脏的",这意味着即使在应有的情况下,单个列也并不一致(对于真正匹配的行).其次,特征不是唯一的(例如,男性和女性).这样的匹配对于跨时间(测试前和测试后分数),不同的数据模式(观察到的特征和实验室值)或研究参与者的多个数据集进行匹配非常有用. 我需要选择最佳匹配的启发式方法. 然后,如上所述,我可以一起对 ..
发布时间:2020-05-09 00:58:17 其他开发

用于匹配名称/地址数据的工具

这是一个有趣的问题。 我有一个oracle数据库,名称为&地址信息需要保持当前状态。 我们从多个不同的政府来源获取数据源,需要找出匹配,以及是否使用数据更新数据库,或者需要创建新记录。 没有任何类型的唯一标识符可用于将记录绑定在一起,数据质量并不总是那么好 - 总会有打字错误,使用不同名称的人(即乔和约瑟夫)等。 我会有兴趣从任何在这种类型的问题上工作的人听到他们如何解决这 ..
发布时间:2017-07-20 23:13:36 其他开发

模糊匹配重复数据删除小于指数时间?

我有一个较大的数据库(可能在数百万条记录中),字符串相对较短(按街道地址,名称等)。 我正在寻找一个删除不精确重复的策略,而模糊匹配似乎是选择的方法。我的问题:许多文章和SO问题涉及将单个字符串与数据库中的所有记录进行匹配。我正在寻找一次重复数据删除整个数据库。前者将是线性时间问题(将值与百万其他值进行比较,每次计算一些相似性度量)。后者是一个指数时间问题(比较每个记录的价值与每个其他记录的 ..