string-matching相关内容

PHP中的字符串相似性:类似于levenshtein的长字符串函数

PHP中的函数levenshtein适用于最大长度为255的字符串.在PHP中计算句子的相似性分数的最佳选择是什么. 基本上,我有一个句子数据库,我想找到近似的重复项. similar_text函数没有给我预期的结果.对我来说,检测如下类似句子的最简单方法是什么: $ss="Jack is a very nice boy, isn't he?"; $pp="jack is a very ..
发布时间:2020-05-27 01:43:32 PHP

检查字符串是否包含子字符串

如何使用Perl检查给定的字符串是否包含某个子字符串? 更具体地说,我想查看给定的字符串变量中是否存在s1.domain.com. 解决方案 要了解字符串是否包含子字符串,可以使用 index 函数: if (index($str, $substr) != -1) { print "$str contains $substr\n"; } 它将返回$str中第一次出 ..
发布时间:2020-05-25 18:42:23 其他开发

如何使用Perl从一组字母中生成单词列表?

我正在寻找模块,正则表达式或其他可能适用于此问题的东西. 如何以编程方式解析字符串并创建已知的英语& |假设我有一个字典表,可以用西班牙语表检查匹配的算法随机化的每个排列吗? 给出一组字符:EBLAIDL KDIOIDSI ADHFWB 程序应返回:BLADE AID KID KIDS FIDDLE HOLA等.... 我还希望能够定义最小&最大字长以及音节数 输入长 ..
发布时间:2020-05-25 01:14:18 其他开发

像SQL一样的大熊猫文本匹配?

有没有办法做类似于在熊猫文本DataFrame列上使用SQL的LIKE语法,以便它返回索引列表或可用于为数据帧建立索引的布尔值列表?例如,我希望能够匹配该列以'prefix_'开头的所有行,类似于SQL中的WHERE LIKE prefix_%. 解决方案 您可以使用Series方法In [11]: s = pd.Series(['aa', 'ab', 'ca', np.nan ..
发布时间:2020-05-24 01:45:26 Python

类似UTL_MATCH的函数可与CLOB一起使用

我的问题是:是否有 UTL_MATCH 之类的函数,它与CLOB而不是VARCHAR2一起使用? 我的具体问题是:我在Oracle数据库上.我有一堆与Domo CenterView 交互的预先编写的查询.查询中的变量由${variableName}定义.我需要重写这些查询.我没有写原始文档,因此不是想弄清楚变量的好值是什么,而是要使用应用程序运行查询并从 所以我的解决方案是:对其中包含变量东 ..
发布时间:2020-05-22 01:45:42 数据库

优化近乎重复的价值搜索

我正在尝试在一组字段中查找几乎重复的值,以允许管理员清理它们. 我要匹配两个条件 一个字符串完全包含在另一个字符串中,并且至少是其长度的1/4 这些字符串的编辑距离小于两个字符串总长度的5% 伪PHP代码: foreach($values as $value){ $matches = array(); foreach($values as $match){ if( ..
发布时间:2020-05-21 21:26:05 PHP

如何匹配时态或形式的单词?

我当前正在处理一个贯穿文档的脚本,提取所有关键字,然后尝试将这些关键字与其他文档中找到的关键字进行匹配.有一些细节使这一点变得复杂,但是它们与我的问题不是很相关.基本上,我希望能够匹配单词,而不考虑它们出现的时态. 例如:如果给定字符串"swim","swam"和"swimming",我希望有一个程序可以识别这些都是相同的单词,尽管它是否会将单词存储为swim,swim或游泳对我来说并不重要 ..
发布时间:2020-05-18 00:42:56 Python

两个sql查询的性能之间的区别?

我的表格中有一个文本数据类型的字段. 以下两个sql查询的性能是否有所不同: select * from tablename where fieldname="xyz%"; select * from tablename where fieldname="%zyx"; 如果我们要实现这些查询的执行,这是我认为我们需要做的: 我们必须匹配两个正则表达式(xyz *和* zy ..
发布时间:2020-05-15 05:13:50 数据库

R-基于不一致的全名格式的部分匹配来合并两个数据文件

这是我以前的问题,以R格式重新发布. 我正在寻找一种基于参与者全名的部分匹配来合并两个数据文件的方法,这些参与者的全名有时以不同的格式输入并且有时会拼写错误.我知道部分匹配(例如agrep和pmatch)和合并数据文件有一些不同的功能选项,但我需要a)结合两者的帮助; b)做可以忽略中间名的部分匹配; c)在合并数据文件中存储原始名称格式和d)即使它们不匹配,也保留唯一的值. 例如,我 ..
发布时间:2020-05-09 00:42:10 其他开发

R模糊字符串匹配以基于匹配的字符串返回特定的列

我有两个大型数据集,一个大约50万条记录,另一个大约70K.这些数据集具有地址.我想匹配较小数据集中的任何地址是否存在于较大的数据集中.就像您想象的那样,地址可以用不同的方式以及在不同的情况/拼写等方式中写入.除此地址外,如果仅在建筑物级别之前写入,则可以重复.因此,不同的单位具有相同的地址.我做了一些研究,弄清楚了可以使用的stringdist软件包. 我做了一些工作,并设法根据距离获得了 ..
发布时间:2020-05-09 00:16:23 其他开发

逐行比较文件以查看它们是否相同,如果是,则输出它们

我将如何处理这个问题,我已经将信息排序在其中的文件中,我想将该文件中的某个索引与另一个文件中的索引进行比较,一个问题是文件非常大,行数百万.我想逐行比较我拥有的文件,如果它们匹配,我想使用索引方法将这些值与其他值一起输入. ====================== 让我澄清一下,我想说line [x] x将保持与统一格式相同,我想在另一个文件中对line [y]运行line [x] ..
发布时间:2020-05-06 09:26:21 Python

如何在python中生成一组相似的字符串

我想知道如何基于Levenshtein distance(字符串编辑距离)生成一组相似的字符串.理想情况下,我喜欢传递源字符串(即用于生成与其相似的其他字符串的字符串),需要生成的字符串数和阈值作为参数,即,生成的集合应大于阈值.我想知道应该使用什么Python软件包?或任何想法如何实现这一目标? 解决方案 我认为您可以用另一种方式来思考问题(反向). 给出一个字符串,说它是 sit ..

近似字符串匹配-机器学习

我有一个要求,其中我的源数据位于HDFS中,并且有一个包含用户技能的字段.现在,源文件具有属于用户的所有技能,例如-管理,JAVA,HADOOP,PIG,SQL,性能调整,C,业务咨询,销售等.... 现在我的查询是我需要建立一种机器学习算法来检测所谓的技能中是否存在一些拼写错误.例如,如果不是销售,而是列中有薪水,或者像hadoop一样被误认为是hadup.所以我想标准化这些东西. ..
发布时间:2020-05-04 09:22:22 AI人工智能