edit-distance相关内容

你如何在 Delphi 中实现 Levenshtein 距离?

我本着回答您自己的问题的精神发布此信息. 我的问题是:如何实现 Levenshtein 算法来计算两个字符串之间的编辑距离,如 在此处描述,在 Delphi 中? 关于性能的说明:这东西非常快.在我的桌面(2.33 Ghz 双核,2GB 内存,WinXP)上,我可以在不到一秒的时间内运行 100K 字符串的数组. 解决方案 function EditDistance(s, t: ..
发布时间:2021-12-13 23:58:22 其他开发

T-SQL 中的 Levenshtein 距离

我对 T-SQL 计算 Levenshtein 距离的算法感兴趣. 解决方案 Arnold Fribble 在 sqlteam.com 上有两个提案/论坛 来自 2005 年 6 月 和 2006 年 5 月 这是 2006 年最年轻的: SET QUOTED_IDENTIFIER ON去设置 ANSI_NULLS ON去创建函数 edit_distance_within( ..
发布时间:2021-12-10 12:16:32 其他开发

为什么我的levenshtein距离计算器无法处理PDF文件?

我正在尝试创建一个程序,该程序计算两个文件之间的编辑距离.我以函数fread进行读取,并使用代码读取二进制("rb").我输入了两个PDF文件,并在调试过程中发现,当我尝试填充Levenshtein距离算法的矩阵时,会收到一个"SIGSEGV(分段错误)".在第一个文件的字符编号1354处,程序退出: 进程结束,退出代码为-1073741819(0xC0000005) 我控制并且135 ..
发布时间:2021-04-15 19:33:44 其他开发

归一化编辑距离公式的说明

基于本文:IEEE关于事务分析的事务:归一化编辑距离的计算及其应用如下: 在有限的字母上给出两个字符串X和Y,进行归一化编辑X和Y之间的距离d(X,Y)定义为W(P)/L(P)w,这里P是X和Y之间的编辑路径,W(P)是P的基本编辑操作的权重之和,以及L(P)是这些操作的数量(P的长度). ..
发布时间:2021-04-02 20:37:49 其他开发

用ELKI聚类字符串数据

我需要基于“编辑距离"/"Levenshtein距离",使用ELKI对大量字符串进行聚类.由于数据集太大,我想避免使用基于文件的预先计算的距离矩阵.我该怎么办 (a)从文件中将字符串数据加载到ELKI中(仅“标签")? (b)实现访问标签的距离函数(扩展AbstractDBIDDistanceFunction,但如何获取标签?) 某些代码段或示例输入文件会有所帮助. 解决方 ..
发布时间:2020-06-13 19:00:05 其他开发

如何更正此Damerau-Levenshtein实现中的错误?

我又提出了另一个冗长的问题.实验过许多基于Python的Damerau-Levenshtein 编辑距离实现,我终于找到了下面列出的那个作为editdistance_reference().它 似乎可以提供正确的结果,并且似乎可以有效实施. 因此,我决定将代码转换为Cython.在我的测试数据上,参考方法设法提供了结果 进行11,000个比较(对于长约12个字母的单词对),而Cythoniz ..
发布时间:2020-06-13 18:59:54 Python

基于R(编辑距离)中字符串比较的相似度评分

我正在尝试根据2个字符串之间的比较来分配相似性得分. R中是否有相同的功能.我知道SAS中有这样的功能,即SPEDIS的名称.请让我知道R中是否有这样的功能. 解决方案 函数 RecordLinkage 包中的levenshteinSim函数也可以直接执行此操作,并且可能比adist快. library(RecordLinkage) > levenshteinSim("apple", ..
发布时间:2020-06-13 18:59:51 其他开发

T-SQL中的Levenshtein距离

我对T-SQL中计算Levenshtein距离的算法感兴趣. 解决方案 Arnold Fribble在 sqlteam.com上有两个建议/forums 来自 2005年6月和 的一个 另一个从 2006年5月 更新的版本 这是2006年的更年轻版本: SET QUOTED_IDENTIFIER ON GO SET ANSI_NULLS ON GO CREATE ..
发布时间:2020-06-13 18:59:49 其他开发

编辑距离算法说明

根据维基百科,计算两个字符串a和b之间的Levenshtein距离的递归公式的定义如下: 我不明白为什么我们不考虑删除 a [j] ,或者我们插入 b [i] 。另外,如果我错了,请纠正我,插入的情况与删除的情况不一样吗?我的意思是,我们可以从第二个字符串中插入相同的字符,而不是从一个字符串中删除字符。那么,为什么不将插入/删除操作合并到一个成本等于 min {cost_insert,cos ..
发布时间:2020-06-03 21:23:14 其他开发

编辑距离矩阵

我正在尝试构建一个程序,该程序使用两个字符串并为其填充编辑距离矩阵。让我烦恼的是,对于第二个字符串输入,它跳过了第二个输入。我曾尝试使用getch()清除缓冲区,但没有成功。我也尝试过切换到scanf(),但这也导致了某些崩溃。 代码: #include #include int min(int a,int b,int c){ ..
发布时间:2020-06-03 21:22:59 其他开发

如何查找与给定字符串在给定编辑距离处的所有字符串

我们都已经在Google中看到,如果我们键入查询并输入错误,Google会建议使用更精明的查询版本(通常更正确)。现在他们怎么做?我可以想到的一种可能方法是,找出所有与给定字符串的编辑距离为1的其他字符串,如果其中任何一个返回的字符串具有更高的'searched'属性值(可能来自后端数据库,其中每个索引查询词的权重取决于该词在查询中出现的频率比给定的字符串多,因此建议使用该字符串。如果未找到,则搜 ..
发布时间:2020-06-03 21:01:53 其他开发

优化Levenshtein距离算法

我有一个存储过程,该过程使用Levenshtein距离来确定最接近用户键入内容的结果.唯一真正影响速度的是在选择距离最小的记录之前计算所有记录的Levenshtein距离的函数(我已经通过将0代替对Levenshtein函数的调用来验证了这一点).该表有150万条记录,因此即使稍作调整也可以节省几秒钟的时间.现在,整个过程耗时超过10分钟.这是我使用的方法: ALTER function d ..
发布时间:2020-05-21 20:36:43 其他开发