fuzzy-search相关内容
在Lucene查询语法中,我想在有效的查询中将*和〜组合在一起,类似于: bla〜*//无效的查询 含义:请匹配以"bla"开头的单词或类似于"bla"的单词. 更新: 我现在要做的是在输入很少的情况下使用以下代码(SOLR模式的代码段):
..
我正在我的Web应用程序中实现搜索建议功能,并一直在寻找使用中的现有实现技术. 似乎大多数主要网站(亚马逊,必应等)都通过以下方式实现模糊搜索: Tokenize search string in to terms processingSearchStringSet = {} For each term if exact term is NOT in index
..
我正在处理这个过滤的事情,我有大约50-100个列表项。每个项目都有这样的标记: 纽约餐厅
..
我正在寻找一个模糊搜索JavaScript库来过滤数组。我尝试过使用 fuzzyset.js 和 fuse.js ,但结果很糟糕(你可以尝试在链接页面上进行演示)。 在做了一些阅读之后Levenshtein距离,它让我感觉不像用户在打字时所寻找的东西。对于那些不知道的人,系统会计算需要多少次插入,删除和替换才能使两个字符串匹配。 在Levenshtein-Demerau模型中修复的一个
..
使用Lucene模糊搜索时如何获得匹配的模糊项及其偏移量? IndexSearcher mem = ... 。(某些标准代码) QueryParser解析器=新的QueryParser(Version.LUCENE_30,CONTENT_FIELD,analyzer); TopDocs topDocs = mem.search(parser.parse(“wuzzy~”),1
..
我正在寻找一个用于模糊字符串搜索的高性能Java库。 有许多算法可以找到相似的字符串,Levenshtein距离,Daitch-Mokotoff Soundex, n-gram等。 存在哪些Java实现?他们的利弊?我知道Lucene,任何其他解决方案或Lucene最好吗? 我发现这些,有没有人有过这方面的经验? SimMetrics NGramJ 解决方案 Co
..
我用lucene 4.3.1实现了模糊搜索,但是我对结果并不满意。我想指定一些它应该返回的结果。例如,如果我想要10个结果,它应该返回10个最好的匹配,不管它们有多糟糕。大多数情况下,如果我搜索的单词与索引中的任何单词都非常不同,它将不会返回任何内容。如何获得更多/更模糊的结果? 这里的代码我有: public String [] luceneQuery(String query,i
..
我想知道是否有任何Python库可以进行模糊文本搜索。例如: 我有三个关键字“字母”,“戳记” ,和“邮件”。 我想要一个函数来检查这三个单词是否在 的同一段落内(或某些距离,一页)。 另外,这些单词必须保持相同的顺序。在这三个词之间出现其他词很好。 我试过 fuzzywuzzy Whoosh 看起来很强大,但我没有找到正确的功能...... 解决方案 {1} 您可
..
希望我不会重复这个问题。我在这里做了一些搜索和谷歌之前发布在这里。 我运行SQL Server 2008R2 eStore启用全文。 我的要求 有一个产品表,其中包含产品名称,OEM代码, 。全部都是文字。 我创建了一个名为TextSearch的新列。这将产品名称,OEM代码和型号的值链接起来,这些产品适用于这些值。这些值以逗号分隔。 当客户输入关键字时,我们在TextSea
..
这个功能可以让您从一个范围内找到相似的字符串,而无需进行精确的搜索。 公式如下:= FuzzyFind(A1,B $ 1:B $ 20) 假设您正在搜索的字符串是A1 和你的引用或选项表是B1:B20 代码在这里: Function FuzzyFind(lookup_value As String,tbl_array As Range)As String Dim i A
..
我刚刚开始探索Elasticsearch。我创建了如下文件: curl -XPUT“http:// localhost:9200 / cities / city / 1” d' { “name”:“圣路易斯” }' 我现在尝试在Levenshtein距离为5的名称字段上进行模糊搜索,如下所示: curl -XGET“http:// localhost:920
..
我是弹性搜索的新手,正在查看模糊查询搜索。 我已经创建了一个新的索引产品,具有这样的对象/记录值。 { “_index”:“products”, “_type”:“product”, “_id”:“10”, “_score”:1, “_source”:{ “value”:[ “Ipad”, “Apple”, “Air” “32 GB” ] } } 现在当我在弹
..
我在项目中使用模糊匹配,主要是找到同名的拼写错误和拼写错误。我需要准确地了解弹性搜索的模糊匹配是如何工作的,以及它如何使用标题中提到的2个参数。 据了解, min_similarity 是查询字符串与数据库中的字符串匹配的百分比。我找不到如何计算这个值的确切描述。 根据我所理解的 max_expansions 是Levenshtein距离应该执行如果这实际上是Levenshtein距离
..
我想在查询中使用模糊匹配,但精确匹配显示在结果的顶部。 我尝试过以下操作。 > $ return = $ this-> _client-> search( array( 'index'=> ; self :: INDEX, 'type'=> self :: TYPE, 'body'=>数组( 'query'=>数组( ' bool'=>数组( 'must'=>数组( 'mult
..
我想知道是否有任何Python库可以进行模糊文本搜索。例如: 我有三个关键词“letter”,“stamp”和“mail” code>。 我想有一个功能来检查这三个字是否在同一段落的 内(或一定距离,一页)。 此外,这些单词必须保持相同的顺序。没有其他单词出现在这三个单词之间。 我尝试过 fuzzywuzzy 这没有解决我的问题。另一个库 Whoosh 看起来很强大,但我没有找到
..
我是全新的ElasticSearch ,目前正在探索其功能。其中一个我感兴趣的是我正在测试并且有麻烦使用的模糊查询。这可能是一个虚拟的问题,所以我猜想已经使用这个功能的人会很快找到答案,至少我希望。 :) BTW我有这种感觉,它可能不仅仅与ElasticSearch 相关,而是直接与Lucene 我们从一个名为“第一索引”的新索引开始,其中我存储一个值为“美式橄榄球”的对象“标签”。这是我使
..
我有一个目录号码与产品名称的映射: 35舒适安慰者 35暖毯子 67枕头 和需要搜索会发现拼写错误, cmfrter“。 我们有使用edit-distance(difflib)的代码,但它可能不会扩展到18000个名称。 我实现了与Lucene类似的东西,但因为 PyLucene 只包裹 SQLite通常不会编写全文或评分。
..
我是新来的,我想知道最先进的是什么,我可以读到它。 我们假设我只有一个键/值存储,我有一些距离(key1,key2)以某种方式定义(不确定如果它必须是一个度量,即如果三角不等式必须保持总是)。 我想要的大多是一个搜索(键)函数,它返回所有项目的键到一定距离的搜索键。也许这个距离限制是可配置的。也许这也只是一个惰性迭代器。也许还可以存在计数限制,并且项目(关键字,值)在返回集合中具有一定
..
我想聘请 Levenshtein距离的帮助找模糊关键字(静态文本)一个OCR页面上。结果 。要做到这一点,我想给被允许误差的百分比(如15%)。 字符串关键字=“逾期电服务”; 由于关键字是25个字符长,我想允许4错误(25 * 0.15圆角高达)结果 我需要能够比较它... 字符串Entire_OCR_Page =“以前在13年12月26日感谢$ b $收到的
..
我想下面的SQL转换成NHibernate的: SELECT * FROM dbo.Customer ,其中姓+''+姓氏LIKE'%'+'鲍勃·史密斯'+'%' 我试着做这样的事情,但它不工作: NAME =“%”+姓名+“%”; VAR的客户= _session.QueryOver<客户>() 。凡(NHibernate.Criterio
..