string-matching相关内容
Wikipedia 定义了许多人们可以使用的表情符号.我想将此列表与字符串中的单词匹配.我现在有这个: $string = "Lorem ipsum :-) dolor :-| samet"; $emoticons = array( '[HAPPY]' => array(' :-) ', ' :) ', ' :o) '), //etc... '[SAD]' => array('
..
PHP中的函数levenshtein适用于最大长度为255的字符串.在PHP中计算句子的相似性分数的最佳选择是什么. 基本上,我有一个句子数据库,我想找到近似的重复项. similar_text函数没有给我预期的结果.对我来说,检测如下类似句子的最简单方法是什么: $ss="Jack is a very nice boy, isn't he?"; $pp="jack is a very
..
考虑: $a = 'How are you?'; if ($a contains 'are') echo 'true'; 假设我有上面的代码,写语句if ($a contains 'are')的正确方法是什么? 解决方案 您可以使用 strpos() 函数,用于查找另一个字符串中另一个字符串的出现: $a = 'How are you?'; if (strpos
..
如何使用Perl检查给定的字符串是否包含某个子字符串? 更具体地说,我想查看给定的字符串变量中是否存在s1.domain.com. 解决方案 要了解字符串是否包含子字符串,可以使用 index 函数: if (index($str, $substr) != -1) { print "$str contains $substr\n"; } 它将返回$str中第一次出
..
我正在寻找模块,正则表达式或其他可能适用于此问题的东西. 如何以编程方式解析字符串并创建已知的英语& |假设我有一个字典表,可以用西班牙语表检查匹配的算法随机化的每个排列吗? 给出一组字符:EBLAIDL KDIOIDSI ADHFWB 程序应返回:BLADE AID KID KIDS FIDDLE HOLA等.... 我还希望能够定义最小&最大字长以及音节数 输入长
..
有没有办法做类似于在熊猫文本DataFrame列上使用SQL的LIKE语法,以便它返回索引列表或可用于为数据帧建立索引的布尔值列表?例如,我希望能够匹配该列以'prefix_'开头的所有行,类似于SQL中的WHERE LIKE prefix_%. 解决方案 您可以使用Series方法In [11]: s = pd.Series(['aa', 'ab', 'ca', np.nan
..
我有以下具有50,000个唯一行和20列(包括相关列的摘录)的pandas数据框: df1 : PRODUCT_ID PRODUCT_DESCRIPTION 0 165985858958 "Fish Burger with Lettuce" 1 185965653252
..
这个问题是基于我问的另一个问题,我没有完全解决这个问题:这是问题的修改版本. 我有两个数据框: df1 = pd.DataFrame({'consumption':['squirrel ate apple', 'monkey likes apple', 'monkey banana gets', 'badger ge
..
我的问题是:是否有 UTL_MATCH 之类的函数,它与CLOB而不是VARCHAR2一起使用? 我的具体问题是:我在Oracle数据库上.我有一堆与Domo CenterView 交互的预先编写的查询.查询中的变量由${variableName}定义.我需要重写这些查询.我没有写原始文档,因此不是想弄清楚变量的好值是什么,而是要使用应用程序运行查询并从 所以我的解决方案是:对其中包含变量东
..
我正在尝试在一组字段中查找几乎重复的值,以允许管理员清理它们. 我要匹配两个条件 一个字符串完全包含在另一个字符串中,并且至少是其长度的1/4 这些字符串的编辑距离小于两个字符串总长度的5% 伪PHP代码: foreach($values as $value){ $matches = array(); foreach($values as $match){ if(
..
我当前正在处理一个贯穿文档的脚本,提取所有关键字,然后尝试将这些关键字与其他文档中找到的关键字进行匹配.有一些细节使这一点变得复杂,但是它们与我的问题不是很相关.基本上,我希望能够匹配单词,而不考虑它们出现的时态. 例如:如果给定字符串"swim","swam"和"swimming",我希望有一个程序可以识别这些都是相同的单词,尽管它是否会将单词存储为swim,swim或游泳对我来说并不重要
..
我正在尝试查找名为"values"的字符串是否包含来自两个不同列表的子字符串.这是我当前的代码: for (i in 1:length(value)){ for (j in 1:length(city)){ if (str_detect(value[i],(city[j]))) == TRUE){ for (k in 1:length(school)){
..
我的表格中有一个文本数据类型的字段. 以下两个sql查询的性能是否有所不同: select * from tablename where fieldname="xyz%"; select * from tablename where fieldname="%zyx"; 如果我们要实现这些查询的执行,这是我认为我们需要做的: 我们必须匹配两个正则表达式(xyz *和* zy
..
这是我以前的问题,以R格式重新发布. 我正在寻找一种基于参与者全名的部分匹配来合并两个数据文件的方法,这些参与者的全名有时以不同的格式输入并且有时会拼写错误.我知道部分匹配(例如agrep和pmatch)和合并数据文件有一些不同的功能选项,但我需要a)结合两者的帮助; b)做可以忽略中间名的部分匹配; c)在合并数据文件中存储原始名称格式和d)即使它们不匹配,也保留唯一的值. 例如,我
..
我有两个大型数据集,一个大约50万条记录,另一个大约70K.这些数据集具有地址.我想匹配较小数据集中的任何地址是否存在于较大的数据集中.就像您想象的那样,地址可以用不同的方式以及在不同的情况/拼写等方式中写入.除此地址外,如果仅在建筑物级别之前写入,则可以重复.因此,不同的单位具有相同的地址.我做了一些研究,弄清楚了可以使用的stringdist软件包. 我做了一些工作,并设法根据距离获得了
..
我该如何在matlab中执行此操作; ismember(file_names,['*.mp4']) 解决方案 我会使用regexp来做到这一点,就像这样: result = ~cellfun(@isempty,(regexp(file_names,'\.mp4$'))); 例如, file_names = {'aaa.mp4','bbb.mp3'}; 给予 r
..
我将如何处理这个问题,我已经将信息排序在其中的文件中,我想将该文件中的某个索引与另一个文件中的索引进行比较,一个问题是文件非常大,行数百万.我想逐行比较我拥有的文件,如果它们匹配,我想使用索引方法将这些值与其他值一起输入. ====================== 让我澄清一下,我想说line [x] x将保持与统一格式相同,我想在另一个文件中对line [y]运行line [x]
..
如果我的格式已关闭,那么第一次发布会提前道歉. 这是我的问题: 我创建了一个Pandas数据框,其中包含多行文本: d = {'keywords' :['cheap shoes', 'luxury shoes', 'cheap hiking shoes']} keywords = pd.DataFrame(d,columns=['keywords']) In [7]: keywo
..
我想知道如何基于Levenshtein distance(字符串编辑距离)生成一组相似的字符串.理想情况下,我喜欢传递源字符串(即用于生成与其相似的其他字符串的字符串),需要生成的字符串数和阈值作为参数,即,生成的集合应大于阈值.我想知道应该使用什么Python软件包?或任何想法如何实现这一目标? 解决方案 我认为您可以用另一种方式来思考问题(反向). 给出一个字符串,说它是 sit
..
我有一个要求,其中我的源数据位于HDFS中,并且有一个包含用户技能的字段.现在,源文件具有属于用户的所有技能,例如-管理,JAVA,HADOOP,PIG,SQL,性能调整,C,业务咨询,销售等.... 现在我的查询是我需要建立一种机器学习算法来检测所谓的技能中是否存在一些拼写错误.例如,如果不是销售,而是列中有薪水,或者像hadoop一样被误认为是hadup.所以我想标准化这些东西.
..