string-matching相关内容

ApacheSpark中的高效字符串匹配

我使用OCR工具从截图中提取文本(每个截图大约1-5句)。但是,在手动验证提取的文本时,我注意到不时会出现几个错误。 考虑到文字“你好星火!我真的很喜欢😊❤️!”,我注意到: 1)字母“i”、“!”和“l”被替换为“|”。 2)表情符号未正确提取并被其他字符替换或被省略。 3)不时删除空格。 结果,我可能会得到这样的字符串:“Hello here 7l|Real|y ..
发布时间:2022-06-21 13:23:33 Python

逐行比较文件是否相同,如果相同则输出它们

我该怎么做,我有文件,我已经在其中对信息进行了排序,我想将该文件中的某个索引与另一个文件中的索引进行比较,一个问题是文件非常大,数百万行.我想逐行比较我拥有的文件,如果它们匹配,我想使用索引方法输入这两个值以及其他值. ========================= 让我澄清一下,我想说 line[x] x 将保持不变,因为它是统一格式的,我想在另一个文件中针对 line[y] 运 ..
发布时间:2022-01-24 17:40:10 Python

什么是匹配两个包含少于 10 个拉丁文单词的字符串的最佳算法

我正在比较歌曲标题,使用拉丁脚本(尽管并非总是如此),我的目标是一种算法,如果两首歌曲标题似乎是相同的标题,则给出高分,如果它们什么都没有,则给出非常低的分数共同点. 现在我已经不得不使用 Lucene 和 RAMDirectory 编写代码 (Java) 来编写这个 - 但是仅使用 Lucene 来比较两个字符串太重,因此太慢了.我现在开始使用 https://github.com/nic ..
发布时间:2022-01-15 13:13:05 Java开发

R模糊字符串匹配以根据匹配的字符串返回特定列

我有两个大型数据集,一个大约一百万条记录,另一个大约 70K.这些数据集有地址.如果较小数据集中的任何地址存在于较大数据集中,我想匹配.正如您想象的那样,地址可以以不同的方式和不同的情况/拼写等方式编写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的公寓有相同的地址.我做了一些研究,并找出了可以使用的包 stringdist. 我做了一些工作,并设法根据距离获得最接近的匹配.但 ..
发布时间:2022-01-13 18:52:22 其他开发

列表性能中的Python模糊匹配字符串

我正在检查 4 个相同的数据框列中是否有类似的结果(模糊匹配),并且我有以下代码作为示例.当我将它应用到真正的 40.000 行 x 4 列数据集时,它会一直在 eternum 中运行.问题是代码太慢了.例如,如果我将数据集限制为 10 个用户,计算需要 8 分钟,而计算需要 20、19 分钟.有什么我想念的吗?我不知道为什么要花那么长时间.我希望在 2 小时或更短的时间内获得所有结果.任何提示或 ..
发布时间:2022-01-10 13:56:23 Python

在另一个文件中查找行

所以我有一个包含名称列表的 file1.txt 和一个包含另一个名称列表的 file2.txt,我需要一个包含两个文件中名称的列表. 我试过 grep -f file1.txt file2.txt >newlist.txt 但由于某种原因它不起作用,并且 newlist.txt 的名称不在 file1 中. 有谁知道为什么会发生这种情况以及我可以做些什么来只获取两个列表中的名称? ..
发布时间:2022-01-06 14:09:46 服务器开发

如何检查是否在 Lua 的字符串中找到匹配的文本?

如果在文本字符串中至少找到一次特定匹配文本,我需要创建一个条件为真,例如: str = "这是一些包含老虎这个词的文本."如果 string.match(str, "tiger") 然后打印(“老虎这个词被发现了.")别的打印(“没有找到老虎这个词.") 如何检查是否在字符串中的某处找到文本? 解决方案 有 2 个选项可以找到匹配的文本;string.match 或 string.fi ..
发布时间:2021-12-30 20:18:06 其他开发

如何检查一个单词是否在 Lua 中的字符串中作为一个完整的单词出现

不确定如何检查一个单词是否在字符串中作为整个单词出现,而不是单词的一部分,区分大小写.例如: Play 在字符串中 信息播放列表播放暂停 但不在字符串中 信息播放列表暂停信息 立即播放暂停 解决方案 由于 Lua 中没有通常的 \b 词边界,你可以利用一个 前沿模式 %f.%f[%a] 匹配一个字母的转换,%f[%A] 匹配相反的转换. %f[set],一种前沿模式;这样的项 ..
发布时间:2021-12-30 20:12:42 其他开发

R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集,一个大约 50 万条记录,另一个大约 7 万条记录.这些数据集有地址.我想匹配较小数据集中的任何地址是否存在于大数据集中.正如您所想象的,地址可以以不同的方式和不同的情况/拼写等书写.除此之外,如果只写到建筑物级别,则可以复制此地址.所以不同的单位有相同的地址.我做了一些研究并找出了可以使用的包 stringdist. 我做了一些工作并设法根据距离获得最接近的匹配.但是我 ..
发布时间:2021-12-27 21:55:43 其他开发

agrep:只返回最佳匹配

我在 R 中使用了 'agrep' 函数,它返回一个匹配向量.我想要一个类似于 agrep 的函数,它只返回最佳匹配,或者如果有关系则返回最佳匹配.目前,我在结果向量的每个元素上使用包 'cba' 中的 'sdist()' 函数执行此操作,但这似乎非常多余. /edit: 这是我目前使用的功能.我想加快速度,因为两次计算距离似乎是多余的. 图书馆(cba)单词 ..
发布时间:2021-12-22 19:44:26 其他开发

PowerShell 和 -contains 运算符

考虑以下片段: “12-18"- 包含“-" 您会认为这会被评估为 true,但事实并非如此.这将评估为 false 代替.我不确定为什么会发生这种情况,但确实如此. 为了避免这种情况,您可以改用它: "12-18".Contains("-") 现在表达式的计算结果为真. 为什么第一个代码片段会这样?- 有什么特别之处不能很好地与 -Contains 配合使用吗?文档没有提及任 ..
发布时间:2021-12-07 23:56:28 其他开发

在 dplyr 中的字符串列上过滤多个值

我有一个 data.frame 在其中一列中包含字符数据.我想从同一列中过滤 data.frame 中的多个选项.有没有一种简单的方法可以做到这一点,但我缺少这种方法? 示例:data.frame name = dat 天名称88 林恩11 汤姆2 克里斯5 丽莎22 凯拉1 汤姆222 林恩2 林恩 例如,我想过滤掉 Tom 和 Lynn. 当我这样做时: target ..
发布时间:2021-12-01 21:08:04 其他开发