fuzzy-search相关内容

ApacheSpark中的高效字符串匹配

我使用OCR工具从截图中提取文本(每个截图大约1-5句)。但是,在手动验证提取的文本时,我注意到不时会出现几个错误。 考虑到文字“你好星火!我真的很喜欢😊❤️!”,我注意到: 1)字母“i”、“!”和“l”被替换为“|”。 2)表情符号未正确提取并被其他字符替换或被省略。 3)不时删除空格。 结果,我可能会得到这样的字符串:“Hello here 7l|Real|y ..
发布时间:2022-06-21 13:23:33 Python

如何使用 Spring-data-elastic 查询 Elastic

我是 Elastic 和 spring-data-elastic 的新手.我一直在搜索这里和网络的其他区域,但到目前为止一直无法找到我的问题的答案.我希望 SO 能提供帮助. 我正在索引我的 Users 表(名字、姓氏)中的一些记录,并且我希望能够允许高级搜索.例如,如果我的名字是“Frances",然后输入“Frank",那么系统就足够智能,可以返回记录.'Robinson' 和 'Rob ..

使用 lucene 进行模糊搜索

我使用 lucene 4.3.1 实现了模糊搜索,但我对结果不满意.我想指定它应该返回的一些结果.因此,例如,如果我想要 10 个结果,它应该返回 10 个最佳匹配项,无论它们有多糟糕.大多数情况下,如果我搜索的单词与索引中的任何内容都非常不同,它不会返回任何内容.我怎样才能获得更多/更模糊的结果? 这是我的代码: public String[] luceneQuery(String q ..
发布时间:2022-01-15 12:52:34 其他开发

Lucene查询:bla~*(匹配以模糊开头的单词),怎么做?

在 Lucene 查询语法中,我想将 * 和 ~ 组合在一个有效的查询中,类似于:bla~*//无效查询 含义:请匹配以“bla"或类似“bla"开头的单词. 更新:我现在所做的,适用于少量输入,使用以下(SOLR 模式的片段): 如果您不使用 SOLR,则执行以下操作. Indextime:通过创建一个包含我的(短)输入的所有前缀的字段来索引数据. 搜索时间:仅使用 ..
发布时间:2022-01-15 12:24:49 其他开发

列表性能中的Python模糊匹配字符串

我正在检查 4 个相同的数据框列中是否有类似的结果(模糊匹配),并且我有以下代码作为示例.当我将它应用到真正的 40.000 行 x 4 列数据集时,它会一直在 eternum 中运行.问题是代码太慢了.例如,如果我将数据集限制为 10 个用户,计算需要 8 分钟,而计算需要 20、19 分钟.有什么我想念的吗?我不知道为什么要花那么长时间.我希望在 2 小时或更短的时间内获得所有结果.任何提示或 ..
发布时间:2022-01-10 13:56:23 Python

Solr 模糊搜索相似词

我正在尝试对“jahngir"~0.2 进行模糊搜索,但不会返回任何结果.我的索引有数据“JAHANGIR RAHMAN MD"的记录.如果我尝试使用确切的单词“jahangir"~0.2 进行搜索,它会起作用.有人可以帮忙吗,我做错了什么.我花了很多时间试图弄清楚 Solr Fuzzy 搜索是如何工作的.任何解释 Solr 模糊搜索的链接都会有所帮助.下面是我用于索引的文本字段.提前致谢. ..
发布时间:2021-12-30 08:55:18 其他开发

如何使用 pymongo 创建索引

我想在我的 Mongo 数据库中的特定字段中启用文本搜索.我想在 python (-> pymongo) 中实现这个搜索.当我按照互联网上的说明进行操作时: db.foo.ensure_index(('field_i_want_to_index', 'text'), name="search_index") 我收到以下错误消息: 回溯(最近一次调用最后一次):文件“CVE_search.p ..
发布时间:2021-12-21 23:47:29 其他开发

PHP/MySQL 小规模模糊搜索

我希望为一个小型 PHP/MySQL 应用程序实现模糊搜索.具体来说,我有一个包含大约 2400 条记录的数据库(记录以每年大约 600 条的速度添加,因此它是一个小型数据库).三个感兴趣的字段是街道地址、姓氏和日期.我希望能够通过这些字段之一进行搜索,并且基本上可以容忍拼写/字符错误.即,“123 Main Street"的地址还应与“123 Main St"、“123 Main St."、“1 ..
发布时间:2021-12-20 14:26:47 PHP

使用 Apache Solr 搜索名称

我刚刚涉足了看似简单但极其复杂的搜索世界.对于一个应用程序,我需要建立一个搜索机制来按用户的名字搜索用户. 阅读大量帖子和文章后,包括: 我该怎么做使用 Lucene 进行个人姓名(名字、姓氏)搜索? http://dublincore.org/documents/1998/02/03/name-表示/ 最好的方法是什么通过优先考虑用户关系来搜索社交网络? http://www. ..
发布时间:2021-12-20 14:22:11 其他开发

“模糊匹配"算法字符串

通过模糊匹配,我不是指 Levenshtein distance 或类似的类似字符串,而是指它在 TextMate/Ido/Icicles 中的使用方式:给定一个字符串列表,找到那些包含搜索字符串中所有字符的字符串,但是可能与其他字符之间,更喜欢最合适的. 解决方案 我终于明白你在找什么了.这个问题很有趣,但是查看您发现的 2 种算法似乎人们对规范有很大不同的看法 ;) 我认为更清楚 ..
发布时间:2021-12-20 14:08:49 其他开发

ElasticSearch 的模糊查询

我是 ElasticSearch 的新手,目前正在探索其功能.我感兴趣的其中之一是模糊查询,我正在测试它并且在使用时遇到了麻烦.这可能是一个愚蠢的问题,所以我猜已经使用过这个功能的人会很快找到答案,至少我希望如此.:) 顺便说一句,我觉得它可能不仅与 ElasticSearch 有关,而且可能与 Lucene 直接相关. 让我们从一个名为“first index"的新索引开始,我在其中 ..
发布时间:2021-12-13 12:34:44 其他开发

SQL 模糊匹配

希望我不要重复这个问题.在这里发帖之前,我在这里和谷歌做了一些搜索. 我正在使用启用全文的 SQL Server 2008R2 运行电子商店. 我的要求, 有一个产品表,其中包含产品名称、OEM 代码、该产品适合的型号.都是文字. 我创建了一个名为 TextSearch 的新列.这已将产品名称、OEM 代码和该产品适用的型号的值串联在一起.这些值以逗号分隔. 当客户输入关键字 ..

Java 中的模糊字符串搜索库

我正在寻找用于模糊字符串搜索的高性能 Java 库. 有很多算法可以找到相似的字符串,Levenshtein distance、Daitch-Mokotoff Soundex、n-grams 等. 存在哪些 Java 实现?他们的利弊?我知道 Lucene,任何其他解决方案或 Lucene 是最好的? 我找到了这些,有人用过吗? SimMetrics NGramJ ..
发布时间:2021-11-25 18:10:09 Java开发

如何使用 PHP 对 MYSQL 中的公司名称进行模糊匹配以进行自动完成?

我的用户将通过剪切和粘贴导入包含公司名称的大字符串. 我有一个现有且不断增长的公司名称 MYSQL 数据库,每个数据库都有一个唯一的 company_id. 我希望能够解析字符串并为每个用户输入的公司名称分配一个模糊匹配. 现在,只是进行直接的字符串匹配也很慢.** Soundex 索引会更快吗?我怎样才能在用户打字时给他们一些选择?** 例如,有人写道: 微软 -> 微 ..
发布时间:2021-11-20 21:34:16 数据库

Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本(每个大约 1-5 个句子).但是,在手动验证提取的文本时,我注意到不时出现几个错误. 鉴于文字“你好 😊!我真的很喜欢 Spark ❤️!",我注意到: 1) 像“I"、“!"和“l"这样的字母被“|"代替. 2) 表情符号未正确提取并被其他字符替换或被遗漏. 3) 不时删除空格. 因此,我可能会得到这样的字符串:“Hell ..

段落中多词组的模糊匹配算法

首先,我不是在寻找实际的模糊匹配算法.我们同时使用 Dice 的系数和 Levenshtein 距离.我正在寻找最聪明的方法来利用这些算法. 目标: 我正在尝试按照城市名称出现的顺序检测文本段落中的城市名称.我们有一个包含约 100 万个位置名称的列表.我想搜索一段文本,并检测何时出现这些位置之一,然后存储该城市.地名可以是单个或多个词. 示例段落: 妈妈你好!山姆和我正在 ..
发布时间:2021-10-26 18:42:24 其他开发

使用 TRE 的模糊正则表达式匹配

我正在尝试在我的 C 程序中使用 TRE 库来执行模糊正则表达式搜索.我设法通过阅读文档拼凑了这段代码: regex_t rx;regcomp(&rx, "(一月|二月)", REG_EXTENDED);int result = regexec(&rx, "一月", 0, 0, 0); 然而,这只会匹配一个精确的正则表达式(即不允许拼写错误).我没有看到任何允许在这些函数中设置模糊性的参数: ..
发布时间:2021-09-25 20:53:06 其他开发

r 中的模糊字符串匹配

我有 2 个数据集,每个数据集超过 10 万行.我想基于匹配一列('电影标题')的模糊字符串以及使用发布日期来合并它们.我提供了来自以下两个数据集的样本. 数据集-1 itemid userid 评分时间 title release_date99991 1673 835 3 1998-03-27 海市蜃楼 199599992 1674 840 4 1998-03-29 罗马妈妈 19629 ..
发布时间:2021-08-31 18:44:25 其他开发

产品名称的模糊匹配

我需要自动将来自不同来源的产品名称(相机、笔记本电脑、电视等)与数据库中的规范名称进行匹配. 例如“Canon PowerShot a20IS"、“来自佳能的NEW powershot A20 IS"和“数码相机Canon PS A20IS"应该都匹配“Canon PowerShot A20 IS".我已经使用了 levenshtein distance 并添加了一些启发式方法(删除明显的常 ..
发布时间:2021-08-31 18:42:53 其他开发