string-matching - IT屋-程序员软件开发技术分享社区

根据列名中的字符串变异新列并从现有列粘贴值

我有此数据帧： df ..

发布时间：2022-08-03 20:36:36 r tidyverse string-matching dplyr 其他开发

ApacheSpark中的高效字符串匹配

我使用OCR工具从截图中提取文本(每个截图大约1-5句)。但是，在手动验证提取的文本时，我注意到不时会出现几个错误。考虑到文字“你好星火！我真的很喜欢😊❤️！”，我注意到： 1)字母“i”、“！”和“l”被替换为“|”。 2)表情符号未正确提取并被其他字符替换或被省略。 3)不时删除空格。结果，我可能会得到这样的字符串：“Hello here 7l|Real|y ..

发布时间：2022-06-21 13:23:33 python apache-spark pyspark string-matching fuzzy-search Python

逐行比较文件是否相同，如果相同则输出它们

我该怎么做，我有文件，我已经在其中对信息进行了排序，我想将该文件中的某个索引与另一个文件中的索引进行比较，一个问题是文件非常大，数百万行.我想逐行比较我拥有的文件，如果它们匹配，我想使用索引方法输入这两个值以及其他值. ========================= 让我澄清一下，我想说 line[x] x 将保持不变，因为它是统一格式的，我想在另一个文件中针对 line[y] 运 ..

发布时间：2022-01-24 17:40:10 python slider analytics match string-matching Python

如何检查是否在Lua的字符串中找到匹配的文本?

..

发布时间：2022-01-20 23:43:39 string lua conditional string-matching 其他开发

什么是匹配两个包含少于 10 个拉丁文单词的字符串的最佳算法

我正在比较歌曲标题，使用拉丁脚本(尽管并非总是如此)，我的目标是一种算法，如果两首歌曲标题似乎是相同的标题，则给出高分，如果它们什么都没有，则给出非常低的分数共同点. 现在我已经不得不使用 Lucene 和 RAMDirectory 编写代码 (Java) 来编写这个 - 但是仅使用 Lucene 来比较两个字符串太重，因此太慢了.我现在开始使用 https://github.com/nic ..

发布时间：2022-01-15 13:13:05 java lucene string-matching similarity Java开发

使用 grep 对 data.table 中的行进行子集化，比较行内容

DT whole 列，这似乎很浪费 DT[grep(y,num)] # 使用模式>1 警告我可以 apply() 我的方式，但也许有 data.table 方式? 谢谢解决方案如果您对使用 stringi 包感到满意，这是一种利用 stringi 函数向量化模式和字符串: DT[stri_detect_fixed(num, y), x := num]) 根据数据，它可能比 ..

发布时间：2022-01-13 19:07:08 r data.table string-matching 其他开发

如何根据子字符串匹配选择 R data.table 行(类似于 SQL)

我有一个带有字符列的 data.table，并且只想选择那些包含子字符串的行.等效于 SQL WHERE x LIKE '%substring%' 例如 >Months = data.table(Name = month.name, Number = 1:12)>月["mb" %in% 名称]2列的空data.table(0行):名称，编号如何只选择 Name 包含“mb"的行? ..

发布时间：2022-01-13 18:57:21 r data.table string-matching 其他开发

R模糊字符串匹配以根据匹配的字符串返回特定列

我有两个大型数据集，一个大约一百万条记录，另一个大约 70K.这些数据集有地址.如果较小数据集中的任何地址存在于较大数据集中，我想匹配.正如您想象的那样，地址可以以不同的方式和不同的情况/拼写等方式编写.除此之外，如果只写到建筑物级别，则可以复制此地址.所以不同的公寓有相同的地址.我做了一些研究，并找出了可以使用的包 stringdist. 我做了一些工作，并设法根据距离获得最接近的匹配.但 ..

发布时间：2022-01-13 18:52:22 r merge data.table string-matching stringdist 其他开发

列表性能中的Python模糊匹配字符串

我正在检查 4 个相同的数据框列中是否有类似的结果(模糊匹配)，并且我有以下代码作为示例.当我将它应用到真正的 40.000 行 x 4 列数据集时，它会一直在 eternum 中运行.问题是代码太慢了.例如，如果我将数据集限制为 10 个用户，计算需要 8 分钟，而计算需要 20、19 分钟.有什么我想念的吗?我不知道为什么要花那么长时间.我希望在 2 小时或更短的时间内获得所有结果.任何提示或 ..

发布时间：2022-01-10 13:56:23 python duplicates string-matching fuzzy-search Python

在另一个文件中查找行

所以我有一个包含名称列表的 file1.txt 和一个包含另一个名称列表的 file2.txt，我需要一个包含两个文件中名称的列表. 我试过 grep -f file1.txt file2.txt >newlist.txt 但由于某种原因它不起作用，并且 newlist.txt 的名称不在 file1 中. 有谁知道为什么会发生这种情况以及我可以做些什么来只获取两个列表中的名称? ..

发布时间：2022-01-06 14:09:46 unix grep string-matching lines 服务器开发

如何检查是否在 Lua 的字符串中找到匹配的文本?

如果在文本字符串中至少找到一次特定匹配文本，我需要创建一个条件为真，例如: str = "这是一些包含老虎这个词的文本."如果 string.match(str, "tiger") 然后打印(“老虎这个词被发现了.")别的打印(“没有找到老虎这个词.") 如何检查是否在字符串中的某处找到文本? 解决方案有 2 个选项可以找到匹配的文本；string.match 或 string.fi ..

发布时间：2021-12-30 20:18:06 string lua conditional string-matching 其他开发

如何检查一个单词是否在 Lua 中的字符串中作为一个完整的单词出现

不确定如何检查一个单词是否在字符串中作为整个单词出现，而不是单词的一部分，区分大小写.例如: Play 在字符串中信息播放列表播放暂停但不在字符串中信息播放列表暂停信息立即播放暂停解决方案由于 Lua 中没有通常的 \b 词边界，你可以利用一个前沿模式 %f.%f[%a] 匹配一个字母的转换，%f[%A] 匹配相反的转换. %f[set]，一种前沿模式；这样的项 ..

发布时间：2021-12-30 20:12:42 string lua string-matching lua-patterns 其他开发

使用空格、连字符、大小写和标点符号的各种组合进行搜索

我的架构: ..

发布时间：2021-12-30 08:33:12 solr lucene string-matching solrj textmatching 其他开发

R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集，一个大约 50 万条记录，另一个大约 7 万条记录.这些数据集有地址.我想匹配较小数据集中的任何地址是否存在于大数据集中.正如您所想象的，地址可以以不同的方式和不同的情况/拼写等书写.除此之外，如果只写到建筑物级别，则可以复制此地址.所以不同的单位有相同的地址.我做了一些研究并找出了可以使用的包 stringdist. 我做了一些工作并设法根据距离获得最接近的匹配.但是我 ..

发布时间：2021-12-27 21:55:43 r merge data.table string-matching stringdist 其他开发

agrep:只返回最佳匹配

我在 R 中使用了 'agrep' 函数，它返回一个匹配向量.我想要一个类似于 agrep 的函数，它只返回最佳匹配，或者如果有关系则返回最佳匹配.目前，我在结果向量的每个元素上使用包 'cba' 中的 'sdist()' 函数执行此操作，但这似乎非常多余. /edit: 这是我目前使用的功能.我想加快速度，因为两次计算距离似乎是多余的. 图书馆(cba)单词 ..

发布时间：2021-12-22 19:44:26 r text character string-matching agrep 其他开发

PowerShell 和 -contains 运算符

考虑以下片段: “12-18"- 包含“-" 您会认为这会被评估为 true，但事实并非如此.这将评估为 false 代替.我不确定为什么会发生这种情况，但确实如此. 为了避免这种情况，您可以改用它: "12-18".Contains("-") 现在表达式的计算结果为真. 为什么第一个代码片段会这样?- 有什么特别之处不能很好地与 -Contains 配合使用吗?文档没有提及任 ..

发布时间：2021-12-07 23:56:28 powershell operators string-matching 其他开发

如何在所有表 (PostgreSQL) 中搜索特定值?

是否可以在每个表的每一列中搜索 PostgreSQL 中的特定值? 在这里有一个类似的问题用于 Oracle. 解决方案转储数据库内容，然后使用grep怎么样? $ pg_dump --data-only --inserts -U postgres your-db-name >a.tmp$ grep United a.tmpINSERT INTO countries VALUE ..

发布时间：2021-12-05 21:07:26 postgresql grep string-matching 其他开发

在 dplyr 中的字符串列上过滤多个值

我有一个 data.frame 在其中一列中包含字符数据.我想从同一列中过滤 data.frame 中的多个选项.有没有一种简单的方法可以做到这一点，但我缺少这种方法? 示例:data.frame name = dat 天名称88 林恩11 汤姆2 克里斯5 丽莎22 凯拉1 汤姆222 林恩2 林恩例如，我想过滤掉 Tom 和 Lynn. 当我这样做时: target ..

发布时间：2021-12-01 21:08:04 r dplyr string-matching multiple-conditions 其他开发

JavaScript 中如何检查字符串是否包含子字符串?

通常我希望有一个 String.contains() 方法，但似乎没有. 什么是合理的检查方法? 解决方案 ECMAScript 6 引入 String.prototype.includes: const string = "foo";const substring = "oo";console.log(string.includes(substring));//真 incl ..

发布时间：2021-11-30 21:59:23 javascript string substring string-matching 前端开发

高效的字符串后缀检测

我正在使用 PySpark 处理一个庞大的数据集，我想根据另一个数据框中的字符串过滤数据框.例如， dd = spark.createDataFrame(["something.google.com","something.google.com.somethingelse.ac.uk","something.good.com.cy", "something.good.com.cy.mal.org ..

发布时间：2021-11-14 21:45:33 python apache-spark pyspark apache-spark-sql string-matching Python

string-matching相关内容