string-matching相关内容
我有此数据帧: df
..
我使用OCR工具从截图中提取文本(每个截图大约1-5句)。但是,在手动验证提取的文本时,我注意到不时会出现几个错误。 考虑到文字“你好星火!我真的很喜欢😊❤️!”,我注意到: 1)字母“i”、“!”和“l”被替换为“|”。 2)表情符号未正确提取并被其他字符替换或被省略。 3)不时删除空格。 结果,我可能会得到这样的字符串:“Hello here 7l|Real|y
..
我该怎么做,我有文件,我已经在其中对信息进行了排序,我想将该文件中的某个索引与另一个文件中的索引进行比较,一个问题是文件非常大,数百万行.我想逐行比较我拥有的文件,如果它们匹配,我想使用索引方法输入这两个值以及其他值. ========================= 让我澄清一下,我想说 line[x] x 将保持不变,因为它是统一格式的,我想在另一个文件中针对 line[y] 运
..
..
我正在比较歌曲标题,使用拉丁脚本(尽管并非总是如此),我的目标是一种算法,如果两首歌曲标题似乎是相同的标题,则给出高分,如果它们什么都没有,则给出非常低的分数共同点. 现在我已经不得不使用 Lucene 和 RAMDirectory 编写代码 (Java) 来编写这个 - 但是仅使用 Lucene 来比较两个字符串太重,因此太慢了.我现在开始使用 https://github.com/nic
..
DT whole 列,这似乎很浪费 DT[grep(y,num)] # 使用模式>1 警告 我可以 apply() 我的方式,但也许有 data.table 方式? 谢谢 解决方案 如果您对使用 stringi 包感到满意,这是一种利用 stringi 函数向量化模式和字符串: DT[stri_detect_fixed(num, y), x := num]) 根据数据,它可能比
..
我有一个带有字符列的 data.table,并且只想选择那些包含子字符串的行.等效于 SQL WHERE x LIKE '%substring%' 例如 >Months = data.table(Name = month.name, Number = 1:12)>月["mb" %in% 名称]2列的空data.table(0行):名称,编号 如何只选择 Name 包含“mb"的行?
..
我有两个大型数据集,一个大约一百万条记录,另一个大约 70K.这些数据集有地址.如果较小数据集中的任何地址存在于较大数据集中,我想匹配.正如您想象的那样,地址可以以不同的方式和不同的情况/拼写等方式编写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的公寓有相同的地址.我做了一些研究,并找出了可以使用的包 stringdist. 我做了一些工作,并设法根据距离获得最接近的匹配.但
..
我正在检查 4 个相同的数据框列中是否有类似的结果(模糊匹配),并且我有以下代码作为示例.当我将它应用到真正的 40.000 行 x 4 列数据集时,它会一直在 eternum 中运行.问题是代码太慢了.例如,如果我将数据集限制为 10 个用户,计算需要 8 分钟,而计算需要 20、19 分钟.有什么我想念的吗?我不知道为什么要花那么长时间.我希望在 2 小时或更短的时间内获得所有结果.任何提示或
..
所以我有一个包含名称列表的 file1.txt 和一个包含另一个名称列表的 file2.txt,我需要一个包含两个文件中名称的列表. 我试过 grep -f file1.txt file2.txt >newlist.txt 但由于某种原因它不起作用,并且 newlist.txt 的名称不在 file1 中. 有谁知道为什么会发生这种情况以及我可以做些什么来只获取两个列表中的名称?
..
如果在文本字符串中至少找到一次特定匹配文本,我需要创建一个条件为真,例如: str = "这是一些包含老虎这个词的文本."如果 string.match(str, "tiger") 然后打印(“老虎这个词被发现了.")别的打印(“没有找到老虎这个词.") 如何检查是否在字符串中的某处找到文本? 解决方案 有 2 个选项可以找到匹配的文本;string.match 或 string.fi
..
不确定如何检查一个单词是否在字符串中作为整个单词出现,而不是单词的一部分,区分大小写.例如: Play 在字符串中 信息播放列表播放暂停 但不在字符串中 信息播放列表暂停信息 立即播放暂停 解决方案 由于 Lua 中没有通常的 \b 词边界,你可以利用一个 前沿模式 %f.%f[%a] 匹配一个字母的转换,%f[%A] 匹配相反的转换. %f[set],一种前沿模式;这样的项
..
我的架构:
..
我有两个大型数据集,一个大约 50 万条记录,另一个大约 7 万条记录.这些数据集有地址.我想匹配较小数据集中的任何地址是否存在于大数据集中.正如您所想象的,地址可以以不同的方式和不同的情况/拼写等书写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的单位有相同的地址.我做了一些研究并找出了可以使用的包 stringdist. 我做了一些工作并设法根据距离获得最接近的匹配.但是我
..
我在 R 中使用了 'agrep' 函数,它返回一个匹配向量.我想要一个类似于 agrep 的函数,它只返回最佳匹配,或者如果有关系则返回最佳匹配.目前,我在结果向量的每个元素上使用包 'cba' 中的 'sdist()' 函数执行此操作,但这似乎非常多余. /edit: 这是我目前使用的功能.我想加快速度,因为两次计算距离似乎是多余的. 图书馆(cba)单词
..
考虑以下片段: “12-18"- 包含“-" 您会认为这会被评估为 true,但事实并非如此.这将评估为 false 代替.我不确定为什么会发生这种情况,但确实如此. 为了避免这种情况,您可以改用它: "12-18".Contains("-") 现在表达式的计算结果为真. 为什么第一个代码片段会这样?- 有什么特别之处不能很好地与 -Contains 配合使用吗?文档没有提及任
..
是否可以在每个表的每一列中搜索 PostgreSQL 中的特定值? 在这里有一个类似的问题 用于 Oracle. 解决方案 转储数据库内容,然后使用grep怎么样? $ pg_dump --data-only --inserts -U postgres your-db-name >a.tmp$ grep United a.tmpINSERT INTO countries VALUE
..
我有一个 data.frame 在其中一列中包含字符数据.我想从同一列中过滤 data.frame 中的多个选项.有没有一种简单的方法可以做到这一点,但我缺少这种方法? 示例:data.frame name = dat 天名称88 林恩11 汤姆2 克里斯5 丽莎22 凯拉1 汤姆222 林恩2 林恩 例如,我想过滤掉 Tom 和 Lynn. 当我这样做时: target
..
通常我希望有一个 String.contains() 方法,但似乎没有. 什么是合理的检查方法? 解决方案 ECMAScript 6 引入 String.prototype.includes: const string = "foo";const substring = "oo";console.log(string.includes(substring));//真 incl
..
我正在使用 PySpark 处理一个庞大的数据集,我想根据另一个数据框中的字符串过滤数据框.例如, dd = spark.createDataFrame(["something.google.com","something.google.com.somethingelse.ac.uk","something.good.com.cy", "something.good.com.cy.mal.org
..