c - 计算两个字符串相似度的算法(Java 实现)

查看:232
本文介绍了c - 计算两个字符串相似度的算法(Java 实现)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

  1. 公司的业务逻辑是:通过 OCR 扫描出来的 Word 文档,可能出现文字错误,乱码,或者缺少的情况。
  2. 由于这种 word 文档都是财务报表之类的,里面的专业用词都是固定的(做成 wordmodle 的形式),所以想用 word 文档中的文本和 wordmodle 进行比较,相似度较高的直接替换。

可能大家对 OCR 扫描出来的文档比较陌生,我贴张图给大家看看:

解决方案

没啥特殊要求的话,我用的是levenshtein distance:

莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

这里也有样例代码
https://en.wikibooks.org/wiki...

这篇关于c - 计算两个字符串相似度的算法(Java 实现)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆