levenshtein-distance相关内容

确定两个名字是否彼此接近

我正在为我的学校建立一个系统,可以在聚会和其他活动中检查学生是否被列入黑名单.对我来说,检查学生是否被列入黑名单很容易,因为我可以在数据库中查找该学生,看看他/她是否被列入黑名单. 这是困难所在. 在我们的聚会上,每个学生可以邀请一个人.从理论上讲,被列入黑名单的学生可以被另一名学生邀请并绕过系统.我无法检查访客表中是否有列入黑名单的学生,因为邀请您的访客时仅提供了姓名. 因此, ..
发布时间:2021-04-23 19:49:38 PHP

为什么我的levenshtein距离计算器无法处理PDF文件?

我正在尝试创建一个程序,该程序计算两个文件之间的编辑距离.我以函数fread进行读取,并使用代码读取二进制("rb").我输入了两个PDF文件,并在调试过程中发现,当我尝试填充Levenshtein距离算法的矩阵时,会收到一个"SIGSEGV(分段错误)".在第一个文件的字符编号1354处,程序退出: 进程结束,退出代码为-1073741819(0xC0000005) 我控制并且135 ..
发布时间:2021-04-15 19:33:44 其他开发

比特并行加权Levenshtein距离

我正在使用加权的Levenshtein距离,其成本如下: 插入:1 删除:1 替换:2 正如wildwasser在评论中指出的,这意味着将替换视为插入和删除.因此该算法可以避免替换. 对于每个操作成本为1的常规实现,有多种位并行实现,例如Myers/Hyyrö: 静态const uint64_t masks [64] = {0x0000000000000001、0x0000 ..
发布时间:2021-04-02 20:52:28 其他开发

归一化编辑距离公式的说明

基于本文:IEEE关于事务分析的事务:归一化编辑距离的计算及其应用如下: 在有限的字母上给出两个字符串X和Y,进行归一化编辑X和Y之间的距离d(X,Y)定义为W(P)/L(P)w,这里P是X和Y之间的编辑路径,W(P)是P的基本编辑操作的权重之和,以及L(P)是这些操作的数量(P的长度). ..
发布时间:2021-04-02 20:37:49 其他开发

使用Levenshtein距离匹配的百分比匹配排名

我正在尝试使用Levenshtein距离算法将单个搜索词与可能匹配的字典进行匹配。该算法返回的距离表示为将搜索字符串转换为匹配字符串所需的操作数。 我想将结果显示在排名靠前的“ N”(例如10)匹配项的百分比列表中。 由于搜索字符串可以长于或短于单个字典字符串,因此以百分比表示距离的合适逻辑将定性地表明距离有多近“%”是查询字符串的每个结果,其中100%表示完全匹配。 我考虑了以下选 ..
发布时间:2020-10-22 06:21:33 其他开发

用PHP Levenshtein比较5000个字符串

我在数组中有5000个,有时甚至更多的街道地址字符串。我想将它们与levenshtein进行比较,以找到相似的匹配项。如何做到这一点而又不循环遍历所有5000个数据并将它们与其他4999个数据直接进行比较? 编辑:我对替代方法也很感兴趣如果有人有建议。总体目标是根据用户提交的街道地址查找相似的条目(并消除重复项)。 解决方案 我认为更好分组相似地址的方法是: 创建一个包含两个表 ..
发布时间:2020-10-15 23:14:27 PHP

测量两个字符串之间相似度的有效方法是什么? (Levenshtein距离使堆栈太深)

因此,我从以下内容开始: http://en.wikibooks.org / wiki / Algorithm_Implementation / Strings / Levenshtein_distance#Ruby 对于非常小的字符串,这非常有用。但是,我的字符串长度可能超过10,000个字符-并且由于Levenshtein距离是递归的,因此在Ruby on Rails应用程序中会导致堆栈 ..

Levenshtein距离与界限/界限

我发现Python 实现=“ nofollow noreferrer”> Levenshtein距离。 我想知道如何有效地修改这些算法,以便在Levenshtein距离大于 n (例如3)而不是一直运行到最后? 所以本质上我不想让算法如果我只是想知道距离是否大于阈值,则运行太长的时间来计算最终距离。 我在这里找到了一些相关的文章: Levenstein距离限制 计算Lev ..
发布时间:2020-09-23 19:50:45 Python

在audibook中为字幕创建时间戳

我想在句子中添加时间戳,以适合相关的有声读物. 最好使用各种语言. 以下是一个示例: 傲慢与偏见 来自gutenberg项目的文本 来自Librivox的音频 我的想法是找到一种语音识别工具,将时间戳记加在句子上(步骤1),然后使用levenshtein距离将杂乱的转录映射到原始文本(步骤2). 网站 https://speechlogger.appspot.com/提供了 ..
发布时间:2020-09-13 21:34:45 其他开发

PHP-相互比较多维子数组,并在相似性阈值上合并

简介-该问题已于2018年5月27日更新: 我有1个 PHP 多维数组,包含6个子数组,每个子数组包含20个子子数组,每个子数组又包含2个子子数组,其中一个是字符串(标题),另一个是未指定数量的关键字(keywords). 我正在将120个子子数组中的每个子数组与其余5个子数组中包含的100个其他子子数组进行比较.以便将子数组 1 中的子子数组 1 与子数组进行比较 1 并包含在子数组 2 ..
发布时间:2020-09-07 06:31:46 PHP

levenshtein距离与Python列表中的项目

下面有两个列表,并且我想比较相似的levenshtein距离小于2的单词.我有一个函数来查找levenshtein距离,但是作为参数,它需要两个单词.我可以找到其他列表中没有的单词,但这没有帮助.我可以逐个索引,但是就像下面的情况一样,当我到达索引7(但除外)时,所有内容都被抛出了,因为不忠将是索​​引9和8,wcop88是9和10,因此将无法进行比较.有什么方法可以说如果不忠的一部分出现在另一个 ..
发布时间:2020-08-22 20:21:15 Python

Ruby中的字符串字典中的快速模糊/近似搜索

我有一个50K到100K字符串的字典(最多可以包含50个以上的字符),我试图查找字典中给定的字符串是否具有一定的“编辑"距离公差. (例如,Levenshtein).在进行搜索之前,我可以很好地预先计​​算任何类型的数据结构. 我的目标是尽可能快地对该字典运行数千个字符串,并返回最接近的邻居.我会得到一个布尔值,说一个给定是否在字典中,如果有一个更快的算法可以这样做 为此,我首先尝试计 ..

Levenshtein替代品

我有很多查询,并使用levenshtein计算错别字,现在levenshtein导致mysql占用完整的cpu时间. 我的查询是UNION语句中的全文搜索+ levenshtein. sql1是我当前的查询,sql2只是全文搜索,这是快速的,并且不会占用太多的cpu时间,最后一个是leventhein,它将达到峰值! 你们中有人有错别字吗? 我已经想到了,请不要回答规范化数据,但是不适用于我 ..
发布时间:2020-08-11 01:31:15 数据库