string-matching相关内容

R中的近似字符串匹配

为了我的研究,我必须匹配两个包含基金信息的数据集.不幸的是,没有通用标识符.好消息是我在两个文件中都有一个文件编号的标识符,但可以包含多个资金.如果文档中有多个基金(例如 20 个),我只能通过基金名称进行匹配,有时可能会略有不同.请注意,每个文档的资金数量在任何数据集中都是相同的.稍微搜索后,我尝试使用此功能(在这里找到:agrep:只返回最佳匹配(es)): ClosestMatch2 = ..
发布时间:2021-08-31 18:43:19 其他开发

基于复杂规则识别子串

假设我有如下所示的文本字符串: A-B-C-I1-I2-D-E-F-I1-I3-D-D-D-D-I1-I1-I2-I1-I1-I3-I3 这里我想识别导致A是一个标记,I3是一个标记等)> 到由 only 个 IX 标记(即 I1、I2 或 I3) 包含一个 I3.这个子序列的长度可以是 1(即是单个 I3 标记),也可以是无限长度,但始终需要包含至少 1 个 I3 标记,并且只能包含 IX ..
发布时间:2021-08-31 18:43:17 其他开发

在 Python 中一次遍历字符串单词

我有一个巨大文本文件的字符串缓冲区.我必须在字符串缓冲区中搜索给定的单词/短语.什么是有效的方法? 我尝试使用 re 模块匹配.但由于我有一个庞大的文本语料库,我必须搜索.这需要大量时间. 给定一个单词和短语词典. 我遍历每个文件,将其读入 string ,搜索字典中的所有单词和短语,如果找到键,则增加字典中的计数. 我们认为的一个小优化是将词组/词的字典排序,词数最多到最 ..
发布时间:2021-08-31 18:43:08 Python

检查单词列表中单词的子串匹配

我想检查一个词是否在词列表中. word = "with"word_list = [“没有",“bla",“foo",“bar"] 我尝试了 if word in set(list),但由于 in 匹配字符串而不是项目,因此没有产生想要的结果.也就是说,"with"在word_list中的任何一个词都匹配,但仍然是if "with" in set(list) 会说 True. 有什么比手 ..
发布时间:2021-08-31 18:43:05 Python

在python中反转字符串的最快方法

我想出了两种不同的方法来反转 Python 中的字符串. 常识表明,代码行数越多,运行速度就越慢. 我做了以下几行代码: 代码1 "".join(reversed(map(lambda x:x,st))) 代码 2 st[::-1] 这些提供了类似的性能.对于一个 20000 长的字符串,我什至看不到性能上的差异. 我认为第一个应该是一种较慢的方法,因为它执行的操作 ..
发布时间:2021-08-31 18:43:02 Python

已知属性的 XPath 部分

我知道文档中某个属性的部分值,但不知道全部.有没有我可以用来表示任何值的字符?例如,输入的标签值为“A. Choice 1".我知道它说“选择 1",但不知道它是否会在“选择 1"之前说“A."或“B.".下面是相关的 HTML.input和label还有其他的属性,但是每次页面渲染的时候都不一样,所以不能作为参考: A.选择 ..
发布时间:2021-08-31 18:42:59 其他开发

检查一个字符串的所有字符是否存在于 r 中的另一个字符串中

我正在尝试比较 PRABHAKAR SHARMA 和 SHARMA KUMAR PRABHAKAR 之类的字符串.目的是检查较短字符串的所有字符是否存在于另一个字符串中.如果是这种情况,我应该得到 100% 匹配,否则会得到一个表示匹配字符百分比的百分比. 我尝试在 RecordLinkage 包中使用 levenshteinSim,但它给出了一个数字,对应于将一个字符串更改为另一个字符串所 ..
发布时间:2021-08-31 18:42:56 其他开发

产品名称的模糊匹配

我需要自动将来自不同来源的产品名称(相机、笔记本电脑、电视等)与数据库中的规范名称进行匹配. 例如“Canon PowerShot a20IS"、“来自佳能的NEW powershot A20 IS"和“数码相机Canon PS A20IS"应该都匹配“Canon PowerShot A20 IS".我已经使用了 levenshtein distance 并添加了一些启发式方法(删除明显的常 ..
发布时间:2021-08-31 18:42:53 其他开发

R:替换字符串中的外来字符

我正在处理大量数据,主要是带有非英文字符的名称.我的目标是将这些姓名与在美国收集的有关他们的一些信息进行匹配. 即,我可能想将名称“Sølvsten"(来自某些名称列表)与“Soelvsten"(存储在某个美国数据库中的名称)相匹配.这是我写的一个函数来做到这一点.这显然很笨拙而且有些随意,但我想知道是否有一个简单的 R 函数可以将这些外来字符转换为它们最近的英语邻居.我知道可能没有任何标准 ..
发布时间:2021-08-31 18:42:50 其他开发

Python:在字符串列表中优化搜索子字符串

我有一个特殊的问题,我想在许多字符串的列表中搜索许多子字符串.以下是我想要做的事情的要点: listStrings = [ACDE, CDDE, BPLL, ... ]listSubstrings = [ACD, BPI, KLJ, ...] 以上条目只是示例.len(listStrings) 约为 60,000,len(listSubstrings) 约为 50,000-300,000,le ..
发布时间:2021-08-31 18:42:47 Python

如何在java中搜索所有可能组合的字符串?

如何像Android studio一样在Java中实现与给定键的所有可能组合的字符串匹配. 可以吗?任何可用的正则表达式模式. 解决方案 您不需要为此使用正则表达式,因为 贪心算法可以. 您可以在 O(n+p) 中将字符串与模式匹配,其中 n 是字符串的长度,p 是模式的长度,遵循一个非常简单的策略:对于模式的每个字符,查找字符串中从当前索引开始的匹配字符.如果找到匹配项,将索引向前 ..
发布时间:2021-07-17 20:04:28 Java开发

String replaceAll 中的 Java 正则表达式:负面展望未按预期工作

我正在尝试处理文本并替换所有以“www"开头的出现.用某个词(在这种情况下为“香蕉"),但我想排除在“www"之前有“http://"的所有情况. 当我使用正向前瞻时它可以工作(只有 http://www 案例更改),但是当我使用负面展望 - 两个词都发生了变化. 你能帮我解决这个问题吗? String baseString = "替换这个:www.q.com 而不是这个:http: ..
发布时间:2021-07-06 20:39:50 Java开发

最短重复子串

我正在寻找一种有效的方法来提取最短的重复子字符串.例如: input1 = 'dabcdbcdbcdd'输出 1 = 'bcd'input2 = 'cbabababac'输出 2 = 'ba' 如果您有任何与问题相关的答案或信息,我将不胜感激. 另外,在这篇文章中,人们建议我们可以使用像 re=^(.*?)\1+$ 找到字符串中最小的重复模式.但是这样的表达式在 Python 中不起 ..
发布时间:2021-07-06 20:30:17 Python

正则表达式允许字符串只包含数字 0 - 9 并将长度限制为 45

我正在尝试创建一个正则表达式,让字符串只包含 0-9 作为字符,并且长度必须至少为 1 个字符且不超过 45.因此,例如 00303039 将是匹配项,而 039330a29 则不会. 到目前为止,这是我所拥有的,但我不确定它是否正确 [0-9]{1,45} 我也试过 ^[0-9]{45}*$ 但这似乎也不起作用.我对正则表达式不是很熟悉,所以任何帮助都会很棒.谢谢! 解决方案 ..
发布时间:2021-07-06 19:23:01 其他开发

python - 正则表达式搜索和 findall

我需要在给定的正则表达式的字符串中找到所有匹配项.我一直在使用 findall() 来做到这一点,直到我遇到了一个没有按我预期做的情况.例如: regex = re.compile('(\d+,?)+')s = '北京有 9,000,000 辆自行车.打印 re.search(regex, s).group(0)>9,000,000打印 re.findall(regex, s)>['000'] ..
发布时间:2021-07-06 19:15:17 Python