fuzzy-search相关内容
SSIS 2005/2008 进行模糊查找和分组.T-SQL 中是否有相同的功能? 解决方案 模糊查找使用 q-gram 方法,通过将字符串分解为微小的子字符串并对其进行索引.然后,您可以通过将其分解为相同大小的字符串来搜索输入.您可以检查其索引的格式并编写一个 CLR 函数以使用相同样式的索引,但您可能会讨论大量工作. 他们是如何做到的,这实际上非常有趣,非常简单,但提供了非常强大
..
我编写了一个 SSIS 包来创建模糊分组.我可以从针对我的任何服务器的 Visual Studio 运行它,并且它可以毫无问题地运行.如果我尝试通过远程连接到这些服务器中的任何一个来运行 dtsx,则在执行模糊分组组件时,我会收到 PRODUCTLEVELTOLOW 错误. 我在所有服务器上运行 SQL Server 2005 Standard.我读到 SQL Server 2005 Ent
..
我想在大型数据库中查找可能的候选重复记录,匹配 COMPANYNAME 和 ADDRESSLINE1 等字段 示例: 对于具有以下 COMPANYNAME 的记录: “Acme, Inc." 我希望我的查询以这些 COMPANYNAME 值作为可能的重复输出其他记录: “Acme 公司" "Acme, Incorporated" “极致" 我知道如何进行
..
我使用的是 SQL Server 2008 R2 SP1. 我有一个包含大约 36034 条客户记录的表.我正在尝试对客户名称字段实施模糊搜索. 这里是模糊搜索函数 ALTER FUNCTION [Party].[FuzySearch](@Reference VARCHAR(200) ,@目标 VARCHAR(200))返回十进制(5, 2)使用架构绑定作为开始声明 @score D
..
我有一个表人员,其中包含个人数据等.有很多列,但这里感兴趣的是:addressindex、lastname 和 firstname 其中 addressindex 是深入到公寓门口的唯一地址.因此,如果我有“像下面这样"两个 lastname 和一个 firstnames 的人,他们很可能是重复的. 我需要一种方法来列出这些重复项. 表数据:人物 1名字“卡尔"姓氏“安德森"地址索引 1人
..
我有一个包含 4 个条目的表格. CREATE TABLE tab(名称 文字);插入“标签"值('Intertek');插入“标签"值('Pntertek');插入“标签"值('Ontertek');插入“标签"值('ZTPay'); Pntterek &Ontertek 是拼写正确的 Intertek 的模糊复制品.我希望创建一个由模糊重复项和正确拼写的名称组成的列表.但是,如果 LIK
..
我发现了很多关于模糊匹配的链接,将一个字符串与另一个字符串进行比较并查看哪个获得最高的相似度分数. 我有一个很长的字符串,它是一个文档,还有一个子字符串.子字符串来自原始文档,但经过多次转换,因此可能引入了奇怪的工件,例如这里的空格,那里的破折号.子字符串将匹配原始文档中的一段文本 99% 或更多.我不匹配以查看此字符串来自哪个文档,我试图在该字符串开始的文档中找到索引. 如果字符串是
..
我正在寻找一种字符串相似性算法,该算法在可变长度字符串上产生比通常建议的算法(levenshtein distance、soundex 等)更好的结果. 例如 给定字符串 A:“Robert", 然后是字符串 B:“Amy Robertson" 会比 更好 字符串 C:“理查德" 此外,该算法最好是语言不可知的(也适用于英语以外的语言). 解决方案 Cat
..
我在我的 rails 应用程序中有一个模糊搜索,我想要的 sql 是这样的: select * from `user` where name like '%abc%' 我试过这样做: name = 'abc'User.where("name like '%?%'", name) 失败,在控制台中记录: select * from `user` where name like '%'abc
..
描述 我有两个包含需要合并的信息的数据集.我拥有的唯一常见字段是不完全匹配的字符串和可能有很大不同的数字字段 解释问题的唯一方法是向您展示数据.这是 a.csv 和 b.csv.我正在尝试将 B 合并到 A. B 中有三个字段,A 中有四个字段.公司名称(仅限文件 A)、基金名称、资产类别和资产.到目前为止,我的重点一直是尝试通过替换单词或部分字符串来创建精确匹配,然后使用:
..
使用像 leveinstein(leveinstein 或 difflib)这样的算法,很容易找到近似匹配.例如 >>>导入差异库>>>difflib.SequenceMatcher(None,"amazing","amaging").ratio()0.8571428571428571 可以通过根据需要决定阈值来检测模糊匹配. 当前需求:在更大的字符串中根据阈值找到模糊子字符串.
..
我想在 Oracle 中进行模糊搜索,但查询无法使用空格. 例如.假设我们有一个表 po_test_tmp 有很多记录 如果我们执行这个查询它工作正常 select score(1), ae.po_number来自 po_test_tmp ae其中 CONTAINS(po_number, 'fuzzy(po, 50,5000, weight)', 1)>0按分数排序(1) 降序;
..
我已经实现了一个模糊匹配算法,我想使用一些带有测试数据的示例查询来评估它的召回率. 假设我有一个包含文本的文档: {"text": "敏捷的棕色狐狸跳过懒狗"} 我想看看是否可以通过测试诸如“sox"或“hazy drog"而不是“fox"和“lazy dog"之类的查询来检索它. 换句话说,我想向字符串添加噪音以生成拼写错误的单词(错别字). 自动生成拼写错误的单词的方法是
..
我有一个非常有趣的问题: 我有一个 MySQL 表 'Venue',其字段为:'name'、'addressLine1'、'addressLine2'、'addressLine3'、'city'、'country'、'description';所有字段都是 VARCHAR.“描述"是一个更大的文本字段. 我想做的是对桌子 Venue 进行模糊搜索.到目前为止,我正在使用: SELEC
..
我想弄清楚是否有一种方法可以根据 difflib SequenceMatcher 比率在 Pandas 中对字符串进行模糊合并.基本上,我有两个如下所示的数据框: df_a公司地址合并苹果邮政信箱 3435 1df_b公司地址苹果公司邮政信箱 343 我想像这样合并: df_c = pd.merge(df_a, df_b, how = 'left', on = (difflib.Sequen
..
具有字符串向量列表: xx
..
Pandas有一个非常快速和不错的字符串方法,extract().此方法可与此类正则表达式完美配合: strict_pattern = r"^(?P {9,13})(?P TGGAGTCT)" test_dfR121 ACGAGTTTTCGTATTTTTGGAGTCTTGTGG22 ACGAGTAGGGAGGGGG
..
我有代表用户的文件.它们具有字段 name 和 surname . 比方说,我有两个用户编入索引-迈克尔·杰克逊(Michael Jackson)和迈克尔·斯塔尔(Michael Starr).我希望这些示例搜索有效: Michael => { Michael Jackson , Michael Starr } Jack Mich => { Michael Jackson }(不完整
..
我是Elastic和spring-data-elastic的新手.我一直在这里和网络的其他区域进行搜索,但到目前为止,仍找不到我的问题的答案.我希望SO能够提供帮助. 我正在索引 Users 表中的某些记录(firstName,lastName),并且希望能够进行高级搜索.因此,例如,如果我的名字是"Frances",并且输入"Frank",那么系统足够聪明,可以返回记录.'Robinson
..
我有一个要在过滤时搜索的人员列表.每次用户输入搜索字符串,都会应用过滤. 要考虑两个挑战: 用户可以输入部分姓名 用户可能会犯错 只需搜索子字符串即可解决第一个问题,例如String.Contains().可以通过使用模糊实现来解决第二个问题(例如 https://fuzzystring.codeplex.com ) 但是我不知道如何同时应对这两个挑战. 例如:输入以下
..