fuzzy-comparison相关内容

比较小数的最佳方法是什么?

比较小数的最佳方式是什么? 假设我有两个值,如3.45和3.44,什么是可靠比较它们的最佳方式? 我在考虑将所有数字存储为345和344,以便我只比较整数,并且只向用户显示带有小数点的格式化数字。 另一种解决方案是使用自定义函数来测试差异,当差异小于0.01时,数字应该相等。 其他可能的解决方案(更好的解决方案)有哪些? 推荐答案 最常见的技术是使用epsilo ..
发布时间:2022-06-26 15:54:45 C#/.NET

查找接近重复记录的技术

我正在尝试清理一个数据库,该数据库多年来获得了许多重复记录,名称略有不同.例如,在公司表中,有“Some Company Limited"和“SOME COMPANY LTD!"之类的名称. 我的计划是将有问题的表导出到 R 中,将名称转换为小写,替换常见的同义词(如“limited"->“ltd"),去掉非字母字符,然后使用 agrep 看看有什么相似之处. 我的第一个问题是 agr ..
发布时间:2022-01-10 13:10:25 其他开发

用于模糊字符串比较的好的 Python 模块?

我正在寻找一个可以进行简单的模糊字符串比较的 Python 模块.具体来说,我想要字符串相似程度的百分比.我知道这可能是主观的,所以我希望找到一个可以进行位置比较以及最长相似字符串匹配等的库. 基本上,我希望找到足够简单的东西来产生单个百分比,同时仍然足够可配置,以便我可以指定要进行的比较类型. 解决方案 Levenshtein Python 扩展和 C 库. https:// ..
发布时间:2021-08-30 20:34:13 Python

基于条件的2个大型数据集的模糊模糊字符串匹配-Python

我有 2 个已读入 Pandas DataFrames 的大型数据集(分别为 ~ 20K 行和 ~40K 行).当我尝试在地址字段上使用pandas.merge完全合并这两个DF时,与行数相比,我得到的匹配数很少.所以我想我会尝试对字符串匹配进行模糊处理,以查看它是否可以改善输出匹配的数量. 我通过尝试在DF1中创建新列(20K行)来解决这个问题,这是在DF1 [addressline]到D ..
发布时间:2021-05-29 19:30:25 Python

SQL查询查找完全相同和近似重复

我有一个包含名字,姓氏,Add1和其他字段的SQL表.我正在努力清理此数据.有一些可能存在欺骗的情况- 所有3列对于1条以上的记录都是完全相同的 第一个和最后一个相同,只有一个具有地址,另一个为空 第一个和最后一个相似(John | Doe vs John C. | Doe),地址相同或一个为空 我想生成一个查询,可以提供给用户,以便他们可以检出这些记录,比较他们的相关记录,然后删 ..
发布时间:2021-05-03 18:56:47 数据库

如何模糊匹配仅相邻的单元格?

我在对应的两列中有10,000个名称行,每列10,000个. A列中的每个单元格都对应于B列中的相邻单元格.我想进行模糊匹配,并获得所有这些单元格与相邻单元格的兼容性得分.我不希望它搜索整个列还是整个列,仅搜索相邻的单元格,而我似乎无法使用Fuzzy Match Excel插件来实现这一点? 示例: Column A: Column B: Value: App ..
发布时间:2020-11-01 19:47:52 其他开发

使用Jaro-Winkler,A和B之间的距离是否等于B和A?

我正在使用以下类来计算之间的 Jaro-Winkler距离两个字符串.我注意到的是,字符串A和B之间计算出的距离并不总是与字符串B和A相同.这是可以预期的吗? RAMADI ~ TRADING 0.73492063492063 TRADING ~ RAMADI 0.71825396825397 演示 解决方案 结果发现,PHP版本的Jaro-Winkler字符串比较方法中存在一 ..
发布时间:2020-06-15 19:29:31 PHP

ApacheSpark中用于模糊连接的RDD.cartesian的替代方案

我是Spark和Scala的新手,但可以使用以下UseCase. 我在RDD中有n条推文和m家公司,n >> m.我想加入他们的行列,以检查推文中存在哪些公司. 在迭代编程中,我会做一些类似于嵌套循环联接和自定义匹配函数的事情. 在Scala和Spark中,我在RDD上使用笛卡尔函数,但这给了我内存不足的异常.我已经将spark.executor.memory设置为12g ..
发布时间:2020-06-15 19:29:27 其他开发

一列中的模糊匹配行与下一列中的同一行

我想在另一列的基础上找到信息.因此,我在一列中有一些单词,而在另一列中有完整的句子.我想知道它是否在那些句子中找到了单词.但是有时单词是不一样的,所以我不能使用SQL like函数.因此,我认为模糊匹配+某种“喜欢"功能会有所帮助,因为数据看起来像这样: Names Sentences Airplanes Sarl Airplanes ..
发布时间:2020-06-15 19:29:15 其他开发

使用Python处理大型数据集的模糊逻辑

我的团队一直坚持在两个大型数据集上运行模糊逻辑算法. 第一个(子集)大约有18万行,其中包含我们需要在第二个(超集)中匹配的人员的姓名,地址和电子邮件.超集包含250万条记录.两者具有相同的结构,并且数据已经被清除,例如,解析的地址,名称已规范化等. ContactID int, 全名varchar(150), 地址varchar(100), 通过电子邮件发送varchar(100) ..
发布时间:2020-06-15 19:29:14 Python

SQL模糊联接-MSSQL

我有两组数据.现有客户和潜在客户. 我的主要目标是弄清楚是否有任何潜在客户已经是现有客户.但是,跨数据集的客户命名约定不一致. 现有客户 Customer / ID Ed's Barbershop / 1002 GroceryTown / 1003 Candy Place / 1004 Handy Man / 1005 潜在客户 Customer Eds ..
发布时间:2020-06-15 19:29:12 其他开发

q-gram近似匹配优化

我有一个表,其中包含300万个人记录,我希望使用q-gram(例如,在姓氏上)执行模糊匹配.我创建了一个2克表链接到此表,但是此数据量(约5分钟)的搜索性能并不理想. 我基本上有两个问题: (1)您能否提出任何提高性能的方法以避免表扫描(即必须对搜索字符串和300万个姓氏之间的常见q-gram进行计数) (2)对于q-gram,如果A与B相似,而C与B相似,是否暗示C与A相似? 亲切的 ..
发布时间:2020-06-15 19:29:09 数据库

如何在python中对数组的列中的项目进行模糊匹配?

我有一系列来自NCAA的球队名称,以及与他们相关的统计信息.学校名称经常被缩短或完全省略,但是在名称的所有变体中通常都有一个共同的元素(例如阿拉巴马州的绯红色浪潮与绯红色浪潮).这些名称均以不特定的顺序包含在数组中.我希望能够通过模糊匹配团队名称来获取团队名称的所有变体,并将所有变体重命名为一个名称.我正在python 2.7中工作,我有一个包含所有数据的numpy数组.任何帮助将不胜感激,因为我 ..
发布时间:2020-06-15 19:29:07 其他开发

Python“正则表达式"模块:模糊度值

我正在使用 Regex 模块的“模糊匹配"功能. 我如何获得“匹配"的“模糊性值",该值表明该模式与字符串有何不同,就像Levenshtein中的“编辑距离"一样? 我以为我可以在Match对象中获取值,但是它不存在.官方文档对此一无所获. 例如: regex.match('(?:foo){e}','for') a.captures()告诉我单词"for"是匹配的,但我 ..
发布时间:2020-06-15 19:29:03 Python

如何分组/比较类似的新闻文章

在我正在创建的应用中,我想添加将新闻故事分组在一起的功能.我想将来自不同来源的有关同一主题的新闻报道归为一组.例如,来自CNN和MSNBC的关于XYZ的文章将在同一组中.我猜想它是某种模糊逻辑比较.从技术角度来看,我将如何去做呢?我有什么选择?我们甚至还没有启动该应用程序,因此我们对可以使用的技术没有任何限制. 谢谢,提前获得帮助! 解决方案 从机器学习的角度来看,此问题分为几个子问 ..
发布时间:2020-06-15 19:28:59 其他开发