如何识别类似的话,在拼写上的差别 [英] how to recognize similar words with difference in spelling

查看:204
本文介绍了如何识别类似的话,在拼写上的差别的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想从database.A单一客户过滤掉重复的客户名称可能有更多的一个条目添加到系统名称相同但拼写差异不大。所以这里有一个例子:一个名为布鲁克一位顾客可能有三种条目系统
这种变化:

I want to filter out duplicate customer names from a database.A single customer may have more that one entry to the system with the same name but with little difference in spelling. So here is an example: A customer named Brook may have three entries to the system with this variations:


  1. 布鲁克贝尔塔

  2. 布鲁克贝尔塔

  3. Biruk贝尔塔

假设我们是在一个数据库列把这个名字。
我想知道不同的机制识别这些重复形成讲100,000条记录。我们可以使用正前pressions在C#中通过的所有记录或其他一些模式匹配技术进行迭代,或者我们可以这样记录导出到此类查询什么都最适合(与普通防爆pression能力SQL))。

let's assume we are putting this name in one database column. I would like to know the different mechanisms to identify such duplications form say a 100,000 records. We may use regular expressions in C# to iterate through all records or some other pattern matching technique or we may export this records to what ever best fits for such queries (SQL with Regular Expression capabilities)).

这就是我认为作为一个解决方案

this is what i thought as a solution


  • 写C#code到每个记录
  • 来迭代
  • 获取,以便只有辅音字母(在上述情况下:BrKBrt)

  • 搜索从其他记录相同的辅音格局考虑

  • 发音相似的字母一样(C,K)(C,S),(F,PH)

所以请转发任何想法

推荐答案

音位算法,于2000年出版,那是在1918年获得专利Soundex算法的一个新的和改进的版本。

The Double Metaphone algorithm, published in 2000, is a new and improved version of the Soundex algorithm that was patented in 1918.

这篇文章有许多语言链接双音位实现。

The article has links to Double Metaphone implementations in many languages.

这篇关于如何识别类似的话,在拼写上的差别的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆