levenshtein-distance相关内容

PostgreSQL Levenshtein和预组合字符与组合字符

我有包含两个相似外观字符的字符串。两者都显示为带有小齿的小字母“ a”: ± ą (注意:根据渲染器的不同,有时它们的渲染方式相似,有时略有不同) 但是,它们是不同的: 第一个字符的特征: 在PostgreSQL中: select ascii('ą'); ascii ------- 261 十六进制中的UTF-8编码为: \ ..
发布时间:2020-05-30 01:01:37 其他开发

模糊匹配SQL中的字符串

我有一个 User 表,该表具有 id , first_name ,姓氏,街道地址,城市,状态,邮政编码,公司, user_identifier , created_at , update_at 。 此表有很多重复项,例如同一用户已作为新用户多次输入,因此示例 id first_name last_name街道地址user_identifier --------------- ..
发布时间:2020-05-30 00:03:27 其他开发

在tsvector中的每个元素上使用Levenshtein函数?

我正在尝试使用Postgres创建模糊搜索,并且一直在使用django-watson作为基础搜索引擎来工作。 我有一个字段叫做search_tsv,它是一个tsvector,其中包含我要搜索的模型的所有字段值。 我想使用Levenshtein函数,它确实可以完成我的工作想要在文本字段上。但是,我真的不知道如何在tsvector的每个元素上运行它。 有没有办法做到这一点? 解 ..

无法在Windows Python 3.5上安装Levenshtein距离软件包

我需要安装 Python Levenshtein距离软件包才能使用此库. 不幸的是,我无法成功安装它.我通常使用pip安装库.但是,这次我得到的error: [WinError 2] The system cannot find the file specified从来没有发生过(安装库时).我尝试使用python setup.py install安装它,但出现了完全相同的错误.这是我从控制台获得 ..
发布时间:2020-05-27 22:47:38 其他开发

优化Levenshtein距离算法

我有一个存储过程,该过程使用Levenshtein距离来确定最接近用户键入内容的结果.唯一真正影响速度的是在选择距离最小的记录之前计算所有记录的Levenshtein距离的函数(我已经通过将0代替对Levenshtein函数的调用来验证了这一点).该表有150万条记录,因此即使稍作调整也可以节省几秒钟的时间.现在,整个过程耗时超过10分钟.这是我使用的方法: ALTER function d ..
发布时间:2020-05-21 20:36:43 其他开发

Damerau-Levenshtein距离实现

我正在尝试在JS中创建damerau-levenshtein距离函数. 我在WIkipedia上找到了关于该算法的描述,但没有实现.它说: 设计适当的算法来计算无限制 Damerau–Levenshtein距离请注意,始终存在最优 编辑操作的顺序,从不一次转换的字母 之后修改.因此,我们只需要考虑两种对称方式 多次修改子字符串的方法:(1)转置字母和 在它们之间插入任意数量的字符,或者 ..
发布时间:2020-05-19 19:26:38 前端开发

如何使用Levenshtein距离为类似的字符串创建阈值并解决拼写错误?

我们最近在工作中遇到了一个有趣的问题,我们在数据库中发现了重复的用户提交的数据.我们意识到,大多数数据之间的Levenshtein距离仅仅是所讨论的两个字符串之间的差异.这表明,如果我们仅将一个字符串中的字符添加到另一个字符串中,那么我们最终得到相同的字符串,对于大多数情况,这似乎是我们考虑重复项的最佳方法. 我们也要考虑拼写错误.因此,我们开始思考人们平均每个单词在网上打错字的频率,并尝试 ..
发布时间:2020-05-15 05:04:17 PHP

MySQL-将拉丁(英语)表单输入匹配到utf8(非英语)数据

我在mySQL中维护音乐数据库,如何返回存储在例如人们搜索"Tiesto"时会显示“Tiësto"吗? 所有数据都存储在全文索引下,如果有区别的话. 我已经在PHP中使用Levenshtein和在SQL中使用REGEXP了-并不是要解决这个问题,而只是为了提高可搜索性. PHP: function Levenshtein($word) { $words = array() ..
发布时间:2020-05-15 02:06:08 PHP

Levenshtein:MySQL + PHP

$word = strtolower($_GET['term']); $lev = 0; $q = mysql_query("SELECT `term` FROM `words`"); while($r = mysql_fetch_assoc($q)) { $r['term'] = strtolower($r['term']); $lev = levenshtein ..
发布时间:2020-05-14 19:26:18 PHP

OCR:加权Levenshtein距离

我正在尝试用字典创建一个光学字符识别系统. 实际上我还没有实现的字典=) 我听说有一些基于Levenstein距离的简单度量标准,其中考虑了不同符号之间的不同距离.例如. 'N'和'H'彼此非常接近,并且d("THEATRE","TNEATRE")应当小于d("THEATRE","TOEATRE"),使用基本的Levenstein距离是不可能的. 请帮我找到这样的指标. 解 ..
发布时间:2020-05-09 19:12:42 其他开发