levenshtein-distance相关内容

在php中查找最相似字符串的最佳方式?

见鬼, PHP有许多字符串函数,如levenshtein、similar_text和Soundex,它们可以比较字符串的相似性。 http://www.php.net/manual/en/function.levenshtein.php 哪个精确度和性能最好? 推荐答案 相似文本的复杂度为O(max(n,m)**3),而levenshtein的复杂度为O(m*n),其中n和 ..
发布时间:2022-08-29 10:03:33 PHP

如何计算给定2个字符串的距离相似性度量?

我需要计算 2 个字符串之间的相似度.那我到底是什么意思?让我用一个例子来解释: 真正的词:医院 错字:haspita 现在我的目标是确定我需要多少个字符来修改错误的单词以获得真实的单词.在这个例子中,我需要修改 2 个字母.那么百分比是多少呢?我总是取真实单词的长度.所以它变成 2/8 = 25% 所以这 2 个给定的字符串 DSM 是 75%. 如何在性能成为关键考虑因素的 ..
发布时间:2022-01-31 16:28:12 C#/.NET

确定两个名称是否彼此接近

我正在为我的学校制作一个系统,我们可以在其中检查学生是否在聚会和其他活动中被列入黑名单.我可以很容易地检查学生是否被列入黑名单,因为我可以在我的数据库中查找该学生并查看他/她是否被列入黑名单. 这就是困难的地方. 在我们的聚会上,每个学生可以邀请一个人.理论上,一个被列入黑名单的学生可以被另一个学生邀请并绕过系统.我无法检查列入黑名单的学生的来宾表,因为当您邀请您的客人时,只提供了一个 ..
发布时间:2022-01-25 09:47:20 PHP

测量两个字符串之间相似性的有效方法是什么?(Levenshtein 距离使堆栈太深)

所以,我从这个开始:http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Ruby 这对于非常小的字符串非常有用.但是,我的字符串长度可能超过 10,000 个字符 - 由于 Levenshtein 距离是递归的,这会在我的 Ruby on Rails 应用程序中导致堆栈过深错误. ..

python中的字符串比较但不是Levenshtein距离(我认为)

我在我正在阅读的一篇论文中发现了一个粗略的字符串比较,如下所示: 他们使用的方程式如下(摘自论文,稍作改动以使其更通用和可读)由于作者的描述不是很清楚(使用作者的例子),我试图用我自己的话解释更多 例如对于 2 个序列 ABCDE 和 BCEFA,有两个可能的图 图 1) 连接 B 与 B C 与 C 和 E 与 E 图 2) 连接 A 和 A 当我连接其他三个(图 ..
发布时间:2022-01-25 09:37:21 Python

PHP - 将多维子数组相互比较并在相似度阈值上合并

简介 - 此问题已于 2018 年 5 月 27 日更新: 我有 1 个 PHP 多维数组,包含 6 个子数组,每个子数组包含 20 个子子数组,每个子数组又包含 2 个子子数组,一个是字符串(标题),另一个是未指定数量的关键字(关键字). 我希望将 120 个子子数组中的每一个与其余 5 个子数组中包含的 100 个其他子子数组进行比较.因此 sub-sub-array1 中的 su ..
发布时间:2022-01-25 09:33:48 PHP

如何配置 Solr 以使用 Levenshtein 近似字符串匹配?

Apaches Solr 搜索引擎是否提供近似字符串匹配,例如通过 Levenshtein 算法? 我正在寻找一种按姓氏查找客户的方法.但我不能保证名称的正确性.如何配置 Solr 以便它可以找到该人“Levenshtein",即使我搜索“Levenstein"? 解决方案 通常使用 SpellCheckComponent,内部默认使用 Lucene SpellChecker,它实现 ..
发布时间:2022-01-15 12:32:59 其他开发

如何配置 Solr 使用 Levenshtein 近似字符串匹配?

Apaches Solr 搜索引擎是否提供近似的字符串匹配,例如通过 Levenshtein 算法? 我正在寻找一种按姓氏查找客户的方法.但我不能保证名称的正确性.我如何配置 Solr 以便它找到这个人“Levenshtein"即使我搜索“Levenstein"? 解决方案 通常这是通过 SpellCheckComponent,它在内部默认使用 Lucene SpellChecker ..
发布时间:2021-12-30 08:15:52 其他开发

计算 Levenshtein 距离的最有效方法

我刚刚实现了一个最佳匹配文件搜索算法,以在字典中找到与字符串最接近的匹配项.在分析我的代码后,我发现绝大多数时间都花在计算查询和可能结果之间的距离上.我目前正在使用二维数组实现算法来计算 Levenshtein 距离,这使得实现成为 O(n^2) 操作.我希望有人可以提出一种更快的方法来做同样的事情. 这是我的实现: public int calculate(String root, St ..
发布时间:2021-12-20 16:02:44 其他开发

使用优化的 Levenshtein 算法寻找最近的邻居

我最近发布了一个问题关于优化算法以计算Levenshtein 距离,这些回复将我引向关于 Levenshtein Distance 的维基百科文章. 文章提到,如果在最大距离上有一个限制 k 一个可能的结果可以来自给定的查询,那么运行时间可以从 O(mn) 到 O(kn),m 和 n 是字符串的长度.我查了算法,但我真的不知道如何实现它.我希望在这里得到一些线索. 优化在“可能的改进" ..
发布时间:2021-12-20 15:54:12 其他开发

你如何在 Delphi 中实现 Levenshtein 距离?

我本着回答您自己的问题的精神发布此信息. 我的问题是:如何实现 Levenshtein 算法来计算两个字符串之间的编辑距离,如 在此处描述,在 Delphi 中? 关于性能的说明:这东西非常快.在我的桌面(2.33 Ghz 双核,2GB 内存,WinXP)上,我可以在不到一秒的时间内运行 100K 字符串的数组. 解决方案 function EditDistance(s, t: ..
发布时间:2021-12-13 23:58:22 其他开发

T-SQL 中的 Levenshtein 距离

我对 T-SQL 计算 Levenshtein 距离的算法感兴趣. 解决方案 Arnold Fribble 在 sqlteam.com 上有两个提案/论坛 来自 2005 年 6 月 和 2006 年 5 月 这是 2006 年最年轻的: SET QUOTED_IDENTIFIER ON去设置 ANSI_NULLS ON去创建函数 edit_distance_within( ..
发布时间:2021-12-10 12:16:32 其他开发

按“Levenshtein 距离"对数组进行排序在 Javascript 中具有最佳性能

所以我有一个随机的 javascript 名称数组... [@larry,@nicholas,@notch] 等 它们都以@ 符号开头.我想按 Levenshtein 距离对它们进行排序,以便列表顶部的那些最接近搜索词.目前,我有一些 javascript 使用 jQuery 的 .grep() 在它上面使用 javascript .match() 方法围绕按键输入的搜索词: ( ..
发布时间:2021-12-10 10:23:19 前端开发

具有 Levenshtein 距离的文本聚类

我有一组 (2k - 4k) 的小字符串(3-6 个字符),我想对它们进行聚类.由于我使用字符串,集群(尤其是字符串集群)如何工作?a>,告诉我 Levenshtein distance 很适合用作字符串的距离函数.另外,由于我事先不知道集群的数量,层次聚类是要走的路而不是 k 均值. 虽然我以抽象的形式理解了这个问题,但我不知道实际解决问题的简单方法是什么.例如,MATLAB 或 R 是使 ..

Python 中的字符串相似度度量

我想找到两个字符串之间的字符串相似度.本页面提供了其中一些示例.Python 实现了 Levenshtein 算法.在这些限制下,是否有更好的算法(希望有一个 Python 库). 我想在字符串之间进行模糊匹配.例如matches('Hello, All you people', 'hello, all You peopl') 应该返回True 假阴性是可以接受的,假阳性是可以接受的,除非 ..
发布时间:2021-12-06 20:14:53 Python

什么算法在拼写检查器中给出建议?

在实现带有单词建议的拼写检查器时通常使用什么算法? 起初我认为检查每个输入的新词(如果没有在字典中找到)与Levenshtein distance 与字典中的所有其他单词的距离并返回最高结果.然而,这似乎效率极低,必须反复评估整个字典. 这通常是如何完成的? 解决方案 Peter Norvig 的好文章 如何实现拼写校正器.它基本上是一种尝试具有给定编辑距离的候选字符串的蛮力方 ..

VBA 中的编辑距离

我有一个包含数据的 excel 表,我想在它们之间获得 Levenshtein 距离.我已经尝试导出为文本,从脚本 (php) 中读取,运行 Levenshtein(计算 Levenshtein 距离),再次将其保存到 excel. 但我正在寻找一种在 VBA 中以编程方式计算 Levenshtein 距离的方法.我该怎么做? 解决方案 翻译自维基百科: 选项显式公共函数 Leve ..
发布时间:2021-12-02 22:04:17 其他开发

如何计算给定2个字符串的距离相似度?

我需要计算两个字符串之间的相似度.那么我到底是什么意思呢?让我用一个例子来解释: 真正的词:hospital 错误词:haspita 现在我的目标是确定我需要修改多少个字符才能得到真词.在这个例子中,我需要修改 2 个字母.那么百分比是多少呢?我总是取真实单词的长度.所以它变成 2/8 = 25% 所以这两个给定的字符串 DSM 是 75%. 我怎样才能在将性能作为关键考虑因素 ..
发布时间:2021-12-02 14:03:25 C#/.NET

编辑:MySQL + PHP

$word = strtolower($_GET['term']);$lev = 0;$q = mysql_query("SELECT `term` FROM `words`");while($r = mysql_fetch_assoc($q)){$r['term'] = strtolower($r['term']);$lev = levenshtein($word, $r['term']);if ..
发布时间:2021-11-20 21:31:15 PHP