fuzzy-search相关内容

有意义的Javascript模糊搜索

我正在寻找一个模糊搜索JavaScript库来过滤数组。我尝试过使用 fuzzyset.js 和 fuse.js ,但结果很糟糕(你可以尝试在链接页面上进行演示)。 在做了一些阅读之后Levenshtein距离,它让我感觉不像用户在打字时所寻找的东西。对于那些不知道的人,系统会计算需要多少次插入,删除和替换才能使两个字符串匹配。 在Levenshtein-Demerau模型中修复的一个 ..

Java中的模糊字符串搜索库

我正在寻找一个用于模糊字符串搜索的高性能Java库。 有许多算法可以找到相似的字符串,Levenshtein距离,Daitch-Mokotoff Soundex, n-gram等。 存在哪些Java实现?他们的利弊?我知道Lucene,任何其他解决方案或Lucene最好吗? 我发现这些,有没有人有过这方面的经验? SimMetrics NGramJ 解决方案 Co ..
发布时间:2018-11-26 20:38:43 Java开发

用lucene模糊搜索

我用lucene 4.3.1实现了模糊搜索,但是我对结果并不满意。我想指定一些它应该返回的结果。例如,如果我想要10个结果,它应该返回10个最好的匹配,不管它们有多糟糕。大多数情况下,如果我搜索的单词与索引中的任何单词都非常不同,它将不会返回任何内容。如何获得更多/更模糊的结果? 这里的代码我有: public String [] luceneQuery(String query,i ..
发布时间:2018-04-16 16:23:38 其他数据库

在Python中模糊文本搜索

我想知道是否有任何Python库可以进行模糊文本搜索。例如: 我有三个关键字“字母”,“戳记” ,和“邮件”。 我想要一个函数来检查这三个单词是否在 的同一段落内(或某些距离,一页)。 另外,这些单词必须保持相同的顺序。在这三个词之间出现其他词很好。 我试过 fuzzywuzzy Whoosh 看起来很强大,但我没有找到正确的功能...... 解决方案 {1} 您可 ..
发布时间:2018-04-16 16:20:30 Python

SQL模糊匹配

希望我不会重复这个问题。我在这里做了一些搜索和谷歌之前发布在这里。 我运行SQL Server 2008R2 eStore启用全文。 我的要求 有一个产品表,其中包含产品名称,OEM代码, 。全部都是文字。 我创建了一个名为TextSearch的新列。这将产品名称,OEM代码和型号的值链接起来,这些产品适用于这些值。这些值以逗号分隔。 当客户输入关键字时,我们在TextSea ..

在弹性搜索中使用模糊查询时查找实际匹配词

我是弹性搜索的新手,正在查看模糊查询搜索。 我已经创建了一个新的索引产品,具有这样的对象/记录值。 { “_index”:“products”, “_type”:“product”, “_id”:“10”, “_score”:1, “_source”:{ “value”:[ “Ipad”, “Apple”, “Air” “32 GB” ] } } 现在当我在弹 ..
发布时间:2017-08-07 01:38:57 分布式计算/Hadoop

弹性模糊匹配max_expansions& min_similarity

我在项目中使用模糊匹配,主要是找到同名的拼写错误和拼写错误。我需要准确地了解弹性搜索的模糊匹配是如何工作的,以及它如何使用标题中提到的2个参数。 据了解, min_similarity 是查询字符串与数据库中的字符串匹配的百分比。我找不到如何计算这个值的确切描述。 根据我所理解的 max_expansions 是Levenshtein距离应该执行如果这实际上是Levenshtein距离 ..

弹性搜索模糊匹配与精确匹配显示第一

我想在查询中使用模糊匹配,但精确匹配显示在结果的顶部。 我尝试过以下操作。 > $ return = $ this-> _client-> search( array( 'index'=> ; self :: INDEX, 'type'=> self :: TYPE, 'body'=>数组( 'query'=>数组( ' bool'=>数组( 'must'=>数组( 'mult ..
发布时间:2017-08-07 00:48:51 PHP

python模糊文本搜索

我想知道是否有任何Python库可以进行模糊文本搜索。例如: 我有三个关键词“letter”,“stamp”和“mail” code>。 我想有一个功能来检查这三个字是否在同一段落的 内(或一定距离,一页)。 此外,这些单词必须保持相同的顺序。没有其他单词出现在这三个单词之间。 我尝试过 fuzzywuzzy 这没有解决我的问题。另一个库 Whoosh 看起来很强大,但我没有找到 ..
发布时间:2017-08-07 00:46:12 Python

弹性搜索的模糊查询

我是全新的ElasticSearch ,目前正在探索其功能。其中一个我感兴趣的是我正在测试并且有麻烦使用的模糊查询。这可能是一个虚拟的问题,所以我猜想已经使用这个功能的人会很快找到答案,至少我希望。 :) BTW我有这种感觉,它可能不仅仅与ElasticSearch 相关,而是直接与Lucene 我们从一个名为“第一索引”的新索引开始,其中我存储一个值为“美式橄榄球”的对象“标签”。这是我使 ..
发布时间:2017-08-07 00:25:35 分布式计算/Hadoop

如何做模糊字符串搜索没有一个沉重的数据库?

我有一个目录号码与产品名称的映射: 35舒适安慰者 35暖毯子 67枕头 和需要搜索会发现拼写错误, cmfrter“。 我们有使用edit-distance(difflib)的代码,但它可能不会扩展到18000个名称。 我实现了与Lucene类似的东西,但因为 PyLucene 只包裹 SQLite通常不会编写全文或评分。 ..
发布时间:2017-03-17 20:43:17 Python

如何在大数据中进行模糊搜索

我是新来的,我想知道最先进的是什么,我可以读到它。 我们假设我只有一个键/值存储,我有一些距离(key1,key2)以某种方式定义(不确定如果它必须是一个度量,即如果三角不等式必须保持总是)。 我想要的大多是一个搜索(键)函数,它返回所有项目的键到一定距离的搜索键。也许这个距离限制是可配置的。也许这也只是一个惰性迭代器。也许还可以存在计数限制,并且项目(关键字,值)在返回集合中具有一定 ..
发布时间:2017-03-17 17:12:28 其他数据库

在字符串模糊匹配多个单词

我想聘请 Levenshtein距离的帮助找模糊关键字(静态文本)一个OCR页面上。结果 。要做到这一点,我想给被允许误差的百分比(如15%)。 字符串关键字=“逾期电服务”; 由于关键字是25个字符长,我想允许4错误(25 * 0.15圆角高达)结果 我需要能够比较它... 字符串Entire_OCR_Page =“以前在13年12月26日感谢$ b $收到的 ..
发布时间:2016-10-03 21:33:32 C#/.NET