text-parsing相关内容

ColdFusion 从文本文件中提取值

技术细节 我想从包含参数名称和值的文本文件中提取值.对于以“request.config"开头的每一行.(有空行、带有注释的行等,我不想从中提取任何内容)我想提取这些值(粗体): request.config.my_param_1 = "一些随机字符串"; 我认为最好的方法可能是使用 REGEX,但我该怎么做呢? 我认为会有类似正则表达式的东西,可以提取 2 个值 requ ..
发布时间:2022-01-09 15:14:01 其他开发

提取“((Adj|Noun)+|((Adj|Noun)(Noun-Prep)?)(Adj|Noun))Noun"来自文本 (Justeson & Katz, 1995)

我想问一下是否可以提取((Adj|Noun)+|((Adj|Noun)(Noun-Prep)?)(Adj|Noun))Noun提出由 Justeson 和 Katz (1995) 在 R 包 openNLP 中? 也就是说,我想使用这种语言过滤来提取候选名词短语. 我不太明白它的意思. 能否帮我解释一下或将这种表示形式转换为 R 语言. 非常感谢. 也许我们可以从以下 ..
发布时间:2022-01-02 17:34:46 其他开发

什么是 CoNLL 数据格式?

我是文本挖掘的新手.我正在使用一个开源 jar (Mate Parser),它在依赖解析后以 CoNLL 2009 格式为我提供输出.我想将依赖解析结果用于信息提取.但我能够理解一些输出但无法理解 CoNLL 数据格式.任何人都可以帮助我让我了解 CoNLL 数据格式吗?任何类型的指针将不胜感激. 解决方案 有很多不同的CoNLL 格式,因为 CoNLL 是每年不同的共享任务.此处描述了 ..
发布时间:2022-01-02 17:23:16 其他开发

将 nltk 绘制的解析树保存到图像文件

有没有办法以编程方式将 tree.draw() 中的绘图图像保存到图像文件中?我尝试查看文档,但找不到任何内容. 解决方案 我有完全相同的需求,在查看 nltk.draw.tree 的源代码后我找到了一个解决方案: from nltk import Tree从 nltk.draw.util 导入 CanvasFrame从 nltk.draw 导入 TreeWidgetcf = Canva ..
发布时间:2022-01-02 17:17:29 Python

Outlook“运行脚本"规则不会触发传入消息的 VBA 脚本

我正在根据另一位成员的建议创建这个新主题.有关事情如何到达这一点的其他历史记录,请参阅this问题. 我有这个 VBA 脚本,我知道它可以如果被触发.如果我将 TestLaunch 子例程与已在我的收件箱中符合规则标准的消息一起使用(但是,当然,没有被规则启动),它会激活我希望它完美激活的链接.如果我在创建规则时说要将其应用于收件箱中的所有现有邮件,则它可以完美运行.然而,在需要的地方,新消 ..
发布时间:2021-12-30 10:11:09 其他开发

r 和 rb 模式下解析文本文件的区别

是什么让在 'r' 模式下解析文本文件比在 'rb' 模式下解析它更方便?特别是当有问题的文本文件可能包含非 ASCII 字符时. 解决方案 这在一定程度上取决于您使用的 Python 版本.在 Python 2 中,Chris Drappier 的回答适用. 在 Python 3 中,它是一个不同(并且更加一致)的故事:在文本模式 ('r') 中,Python 将根据您提供的文本编 ..
发布时间:2021-12-29 12:04:04 Python

使用 Stanford-Parser 从文本中提取阿拉伯语专有名词

我正在尝试使用斯坦福解析器从文本中提取阿拉伯语专有名词. 例如,如果我有一个输入语句: تكريم سعد الدين الشاذلى 使用阿拉伯语斯坦福解析器,树状图将是: (ROOT (NP (NN تكريم) (NP (NNP سعد) (DTNNP الدين) (NNP الشاذلى))))) 我想提取正确的名称: سعد الدين الشاذلى 有子树: ( ..
发布时间:2021-11-17 01:28:11 其他开发

如何在Excel VBA中解析完整字符串并拆分为多个字符串?

我需要 Excel VBA 方面的帮助.我有一种情况,我需要从一个字符串中拆分成几个数据.现在有特定的分隔符,条件只是一个关键字. 我得到的完整字符串数据的例子是这样的: /*订单表格*/姓名:兰迪完整地址:未知街 123 ABC电话:0246854612订单:1x G 可动人偶1x Y 动作人偶2x Z 动作人偶/*填写银行和转账金额*/银行:ABC总计:2000/*如果您是经销商,请在 ..
发布时间:2021-09-06 19:45:10 其他开发

从python列表中删除值

我在一行中用空格分隔了一个包含名称和值的大文件: name1 name2 name3.... 在长长的名称列表之后是​​与名称对应的值列表.值可以是 0-4 或 na.我想要做的是合并数据文件并在值为 na 时删除所有名称和值. 例如,这个文件中的最后一行名称是这样的: namenexttolast nameonemore namethelast 0 na 2 我想要 ..
发布时间:2021-09-06 19:45:07 Python

C# - 将完全大写的字符串拆分为单独的单词(无空格)

我目前正在从事一个项目,我需要将单个单词与字符串分开.问题是字符串中的所有单词都大写并且没有空格.以下是程序正在接收的输入类型的示例: “计算机五色" 这应该分成以下结果: “电脑"“五"“代码"“颜色" 到目前为止,我一直在使用以下方法来拆分我的字符串(它适用于除此边缘情况外的所有场景): 私有静态列表NormalizeSections(List wordList){v ..
发布时间:2021-09-06 19:45:04 C#/.NET

用 MaltParser engmalt 解析

我正在尝试使用预训练的解析模型 engmalt.我下载了,解压到我下载MaltParser的目录下,在提示里写 java -Xmx1024m -jar malt.jar -c engmalt.poly -i infile.conll -o outfile.conll -m 解析 按照 MalParser 站点的建议.问题是它给了我这个错误: 找不到 mco 文件“../malt-1.4. ..
发布时间:2021-09-06 19:45:01 Java开发

C# - 从第一个空终止符开始修剪字符串

我有一个 C# 字符串 "RIP-1234-STOP\0\0\0\b\0\0\0???|B?Mp?\0\0\0" 从调用本地返回司机. 如何修剪从第一个空终止符 '\0\ 开始的所有字符.在这种情况下,我只想要“RIP-1234-STOP". 谢谢. 解决方案 这里有一个方法可以解决问题 string TrimFromZero(string input){int index= ..
发布时间:2021-09-06 19:44:57 C#/.NET

解析文本文件的行,其中值由不同数量的空白字符分隔

我需要在不同的数组中获取公司名称及其股票代码.这是我存储在 txt 文件中的数据: 3M 公司 MMM仅 99 美分商店 NDNAO 史密斯公司 AOSAaron's, Inc. AAN 等等 我将如何使用正则表达式或其他一些技术来做到这一点? 解决方案 遍历每一行,用正则表达式收集数据: ^(.+?)\s+([A-Z]+)$ 反向引用 $1 将包含公司名称,$2 将包含股票 ..
发布时间:2021-09-06 19:44:54 PHP

Convertfrom-string 删除前导零

我在使用 Convertfrom-String cmdlet 时遇到问题 $value = 'something:009'$值 |ConvertFrom-String -Delimiter ':' 输出: P1 P2-- --东西 9 我想要的输出是 P1 P2-- --东西 009 有人有什么想法吗? 提前致谢. 解决方案 我建议避免使用 ConvertFrom-Str ..
发布时间:2021-09-06 19:44:52 其他开发

在 C# 中简单获取字符串(忽略末尾的数字)

我认为正则表达式有点矫枉过正,而且我需要一些时间来编写一些代码(我想我现在应该学习一些正则表达式). 在字母数字字符串中分隔字符串的最简单方法是什么?它将始终是 LLLLDDDDD.我只想要字母(l's),通常只有 1 或 2 个字母. 解决方案 修剪结束: string result = input.TrimEnd(new char[]{'0','1','2','3','4',' ..
发布时间:2021-09-06 19:44:49 C#/.NET

如何在特定位置之前/之后从文本文件中读取输入 [C++]?

在我的项目中,我需要从文本文件中获取有关电路的数据,然后我需要解析它并生成输出数据.这是文本文件的示例数据 AND1 Adder1-3 Adder1-4//表示 AND1 门从Adder1 的第 3 个输出和 Adder1 的第 4 个输出的第二个输入 AND2 Adder1-4 Adder1-2 OR1 AND1-1 AND2-1//OR1的两个输入来自AND1的第一个输出和A ..
发布时间:2021-09-06 19:44:46 C/C++开发

如何解析多语言的句子?

当我使用斯坦福解析器解析如下句子时:“Jirí Hubac 的剧本是一颗宝石."“安德烈·特平的引人入胜的性格研究." 它引发内部错误. 如何处理句子是多语种的情况? 解决方案 使用此处提供的完整斯坦福 CoreNLP 工具包: http://stanfordnlp.github.io/CoreNLP/ 我运行了这个命令: java -Xmx6g -cp "sta ..
发布时间:2021-09-06 19:44:40 其他开发

计算 R 中每行文本数据的 ngrams

我有一个以下格式的数据列: 文字 Hello world你好你今天过得怎么样我爱计算器溢出废话废话 我想通过使用 tau 包的 textcnt() 函数来计算这个数据集中每一行的 3-gram.但是,当我尝试它时,它给了我一个数字向量,其中包含整个列的 ngram.如何分别将此函数应用于数据中的每个观察? 解决方案 这就是你想要的吗? library("RWeka")图书馆(“ ..
发布时间:2021-09-06 19:44:37 其他开发