fuzzy-search相关内容

模糊搜索算法(近似字符串匹配算法)

我希望创建一个模糊搜索算法。 但是,经过数小时的研究,我真的很努力。 我想创建一种算法,对学校名称列表进行模糊搜索。 / p> 这是我到目前为止所看到的: 我的大部分研究继续指向Google和Stackoverflow上的“ 字符串指标”,例如: Levenshtein距离 Damerau-Levenshtein距离 Needleman–Wunsch算法 但是, ..

在tsvector中的每个元素上使用Levenshtein函数?

我正在尝试使用Postgres创建模糊搜索,并且一直在使用django-watson作为基础搜索引擎来工作。 我有一个字段叫做search_tsv,它是一个tsvector,其中包含我要搜索的模型的所有字段值。 我想使用Levenshtein函数,它确实可以完成我的工作想要在文本字段上。但是,我真的不知道如何在tsvector的每个元素上运行它。 有没有办法做到这一点? 解 ..

Postgres中与pg_trgm的相似函数

我试图在Postgres中使用相似性函数进行一些模糊的文本匹配,但是每当我尝试使用它时,都会出现错误: 函数相似性(字符不同,未知)不存在 如果我添加显式强制转换为文本我得到错误: 函数相似性(文本,文本)不存在 我的查询是: SELECT(similarity(“ table”。“ field” :: text,%s :: text))AS ..
发布时间:2020-05-29 20:06:34 其他开发

如何仅使用Postgresql创建简单的模糊搜索?

我在基于RoR的网站上的搜索功能有点问题。我有许多带有某些代码的产品。此代码可以是任何字符串,例如“ AB-123-lHdfj”。现在,我使用ILIKE运算符查找产品: Product.where(“ code ILIKE?,,”%“ + params [:搜索] +“%”) 它可以正常工作,但是找不到带有以下代码的产品 我应该怎么做?可能是postgresql具 ..
发布时间:2020-05-29 19:57:43 其他开发

熊猫模糊检测重复项

如何在熊猫中使用模糊匹配来有效地检测重复行 如何在没有将row_i转换为String()然后将其与所有其他列进行比较的巨大for循环的情况下,查找一列与其他列的重复项? 解决方案 不是特定于熊猫的,但在python生态系统中,重复数据删除python库似乎可以满足您的要求.特别是,它可以让您分别比较一行的每一列,然后将信息组合为一个匹配的单个概率分数. ..

使用索引搜索相似的单词

我需要使用某种模糊搜索(例如来自oracle的模糊搜索)并使用索引来搜索数据库表,因为我不希望进行表扫描(数据很多). 我想忽略大小写,语言特殊内容(ñ,ß,...)和特殊字符,例如_,(),-等... 搜索"maria(cool)"时,应将"maria-COOL"和“María_Cool"作为匹配项. 在Oracle中有可能吗? 关于这种情况,我认为可以解决的问题是直接以小写 ..
发布时间:2020-05-22 01:45:04 数据库

模糊文本搜索:正则表达式通配符搜索生成器?

我想知道是否有某种方法可以在PHP中进行模糊字符串匹配.寻找长字符串中的单词,即使拼写错误,也要找到可能的匹配项;如果由于OCR错误而被一个字符关闭,就会找到它. 我当时想正则表达式生成器可能能够做到这一点.因此,如果输入"crazy",它将生成此正则表达式: .*((crazy)|(.+razy)|(c.+azy)|cr.+zy)|(cra.+y)|(craz.+)).* 然后它 ..
发布时间:2020-05-19 19:30:13 PHP

Python模糊搜索和替换

我需要对字符串中的子字符串进行模糊搜索并替换该部分.例如: str_a = "Alabama" str_b = "REPLACED" orig_str = "Flabama is a state located in the southeastern region of the United States." print(fuzzy_replace(str_a, str_b, orig_st ..
发布时间:2020-05-18 01:06:48 Python

模糊句子搜索算法

假设我有一组短语-大约10 000个平均长度-7-20个单词,我想在其中找到一些给定的短语.我要查找的词组可能会有一些错误-例如遗漏一个或两个单词,某些单词放错了位置,或一些随机单词-例如我的数据库包含“当我骑着我的红色自行车时,我看到了克里斯汀",而我希望“在我骑蓝色自行车时,看到克里斯汀",或“我骑自行车时,我看到克里斯汀和马里恩".有什么好的方法可以解决这个问题?我知道Levenhstein ..
发布时间:2020-05-18 00:53:58 其他开发

什么是最容易实现的支持模糊搜索的站点搜索应用程序?

我有一个网站,需要搜索大约20-30k记录,这些记录主要是电影和电视节目的名称.该站点运行带有memcache的php/mysql. 我正在寻找将FULLTEXT替换为我目前拥有的soundex()搜索,这种方法虽然有效,但在很多情况下效果不是很好. 有没有易于实施的体面搜索脚本,并且可以提供体面的搜索功能(表中3列). 解决方案 ewemli的答案是正确的,但是您应该结合使用 ..
发布时间:2020-05-15 04:04:40 PHP

PHP/MySQL小型模糊搜索

我正在寻找对小型PHP/MySQL应用程序实施模糊搜索的方法.具体来说,我有一个大约有2400条记录的数据库(每年以大约600条记录的速度添加记录,因此它是一个 small 数据库).感兴趣的三个字段是街道地址,姓氏和日期.我希望能够通过这些字段之一进行搜索,并且本质上具有对拼写/字符错误的容忍度.即,"123 Main Street"的地址也应与"123 Main St","123 Main S ..
发布时间:2020-05-14 23:11:20 PHP

如何自动将MYSQL中的公司名称与PHP进行模糊匹配以实现自动完成?

我的用户将通过剪切导入并粘贴一个包含公司名称的大字符串. 我有一个公司名称的现有且不断发展的MYSQL数据库,每个数据库都有唯一的company_id. 我希望能够解析该字符串并将模糊匹配分配给每个用户输入的公司名称. 现在,仅进行直线字符串匹配也很慢. ** Soundex索引编制会更快吗?我如何在用户输入时给他们一些选择? ** 例如,某人写道: Microsof ..
发布时间:2020-05-06 09:34:51 数据库

Neo4j:全文Lucene旧式索引(node_auto_index)在迁移后不起作用

使用官方常见问题解答成功地从Neo4j 2.2.8迁移到3.0.4后,无法按预期进行全文搜索.模糊性并不像以前那样模糊. 示例: START n=node:node_auto_index('name:(+Target~0.85)') MATCH (n) RETURN n; 应返回字段为name的节点,其中包含的工作类似于“目标"的85%. 在匹配以下内容之前: 目标 ..
发布时间:2020-05-04 07:55:22 其他开发

如何在Lucene-3x中通过模糊(近似)搜索找到被分析的术语?

查询' laser〜'找不到' laser '. 我正在使用Lucene的GermanAnalyzer将文档存储在索引中.我保存两个文档,其“标题"字段分别为“激光"和“人工".之后,我执行模糊查询laser~. Lucene仅找到包含“人工"的​​文档. Lucene-3x实施此类搜索的方式是什么? 通过查看Lucene源代码,我想模糊搜索并不是设计用于处理“已分析"的内容,但是我不 ..
发布时间:2020-05-04 07:48:52 Java开发

Solr中的DoubleMetaphoneFilterFactory

我的目的是集成solr,以便从我的应用程序返回的结果准确,快速.我正在使用doublemetaphonic对名称字段执行搜索,以便听起来也相似的名称也被捕获,然后使用模糊搜索(使用levenshtein距离算法)获取超过一定百分比的结果.问题是当我将doublemetaphonic放在字段上时类型名称,那么我将无法对该字段执行模糊搜索. 我的schema.xml中的示例配置如下: ..
发布时间:2020-05-04 07:47:14 Java开发

Lucene.net模糊词组搜索

我已经尝试了很长时间,并在网上无处不在-但是找不到通过Lucene.NET 2.9.2进行模糊短语搜索的任何示例. (C#) 是否可以建议如何详细执行此操作和/或提供一些示例代码-由于我完全陷入困境,我将非常感谢您提供的任何帮助? 解决方案 我假设您正在运行Lucene并创建了一个包含一些字段的搜索索引.因此,让我们进一步假设: var fields = ... // a st ..
发布时间:2020-05-04 07:41:17 其他开发

Lucene Fuzzy搜索客户名称和部分地址

我将浏览所有现有的问题帖子,但没有任何相关性. 我的档案中有数百万条记录,记录了人的名字,姓氏,地址1,地址2,国家/地区代码,出生日期-我想每天查看具有上述文件的客户列表(我的客户列表也会每天更新,文件也每天更新). 对于名字和姓氏,我想进行模糊匹配(可能是lucene Fuzzyquery/levenshtein距离为90%匹配),对于其余字段,国家和出生日期,我希望完全匹配. ..
发布时间:2020-05-04 07:37:07 其他开发

使用Apache Solr搜索名称

我刚刚涉足看似简单但极其复杂的搜索世界.对于一个应用程序,我需要构建一种搜索机制来按用户名搜索用户. 阅读了许多帖子和文章后,包括: 我如何使用Lucene进行个人名称(名字,姓氏)搜索? http://dublincore.org/documents/1998/02/03/name -representation/ 什么是最好的方法通过优先考虑用户关系来搜索社交网络? http ..
发布时间:2020-05-04 07:24:36 其他开发