text-processing - IT屋-程序员软件开发技术分享社区

使用 sed 或 awk 重复提取两个字符串之间的文本?

我有一个名为“plainlinks"的文件，如下所示: 13080.ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/999999-94092-2012.gz13081.ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/999999-94094-2012.gz13082.ftp://ftp3.ncdc.noaa.gov/pub/data/n ..

发布时间：2022-01-06 13:59:05 linux sed awk grep text-processing 服务器开发

通过 grep 删除文本文件中的空行

文件: 你好世界富酒吧如何删除此 FILE 中的所有空新行? 命令输出: 文件: 你好世界富酒吧解决方案 grep .文件 (如果你真的想在 sed 中做，那么:sed -e/^$/d FILE) (如果你真的想用 awk 来做，那么:awk/./FILE) ..

发布时间：2022-01-06 13:33:49 linux grep text-processing 服务器开发

用于句子相似性检测的 BLEU 分数实现

我需要计算 BLEU 分数来识别两个句子是否相似.我读过一些文章，主要是关于测量机器翻译准确性的 BLEU 分数.但我需要一个 BLEU 分数来找出相似性在同一种语言的句子之间[英语].(即)(两个句子都是英语).谢谢. 解决方案好吧，如果你只是想计算 BLEU 分数，那很简单.将一个句子作为参考译文，将另一个作为候选译文. ..

发布时间：2022-01-02 17:47:22 java algorithm nlp text-processing machine-translation Java开发

如何进行 NLP 任务以识别意图和插槽

我想编写一个程序来询问有关天气的问题.我应该开始研究哪些算法和技术. 例如:芝加哥这个周末会晴天吗?我想知道意图 = 天气查询，日期 = 这个周末，位置 = 芝加哥. 用户可以用多种形式表达相同的查询. 我想解决一些受限制的形式并寻找有关如何开始的想法.解决方案必须足够好. 解决方案由于您的输入是自然语言形式，因此最好的方法是开始研究它，首先是解析句子结构.并通过 NE ..

发布时间：2022-01-02 17:40:21 machine-learning nlp artificial-intelligence text-processing AI人工智能

从文本中检测短语和关键字的算法

我有大约 100 兆字节的文本，没有任何标记，分为大约 10,000 个条目.我想自动生成一个“标签"列表.问题是有些词组(即短语)只有在将它们组合在一起时才有意义. 如果我只数词，我会得到大量非常常见的词(is、the、for、in、am 等).我已经统计了它前后的单词和其他单词的数量，但现在我真的不知道下一步该怎么做2和3词组的相关信息存在，但是我如何提取这些数据? 解决方案在 ..

发布时间：2022-01-02 17:27:52 algorithm nlp text-processing 其他开发

如何判断一个句子是否是疑问句(疑问句)?

是否有开源 Java 库/算法可用于查找特定文本片段是否为问题? 我正在开发一个问答系统，需要分析用户输入的文本是否是一个问题. 我认为这个问题可能可以通过使用开源 NLP 库来解决，但它显然比简单的词性标记更复杂.因此，如果有人可以通过使用现有的开源 NLP 库来告诉它的算法，那也很好. 如果您知道使用数据挖掘来解决此问题的库/工具包，也请告诉我.虽然很难获得足够的数据用于训练，但我将能够 ..

发布时间：2022-01-02 17:24:34 java algorithm nlp data-mining text-processing Java开发

在 Python 中扩展英语语言收缩

英语有一些缩写.例如: 你已经 ->你有他 ->他是在进行自然语言处理时，这些有时会引起头痛.有没有可以扩展这些收缩的 Python 库? 解决方案我把维基百科的收缩到展开页面变成了一个 Python 字典(见下文) 请注意，正如您所料，您肯定希望在查询字典时使用双引号: 此外，我在维基百科页面中留下了多个选项.随意修改它.请注意，消除对正确扩展的歧义将是一个棘手的问题 ..

发布时间：2022-01-02 17:20:16 python nlp text-processing Python

概括文字或简化文字

有没有可以总结和/或简化自然语言文本的库，最好是用 python 但至少是开源的? 解决方案我不确定目前是否有任何库可以做到这一点，因为文本摘要，或者至少可理解的文本摘要不是'不是通过简单的插件就可以轻松完成的事情播放库. 以下是我设法找到的一些与文本摘要相关的项目/资源的链接，以帮助您入门: 狐猴项目 Python 自然语言工具包 O'Reilly 关于 Pytho ..

发布时间：2022-01-02 17:20:12 python nlp text-processing Python

查找页面中的所有 hrefs 并替换为保持上一个链接的链接 - PHP

我正在尝试查找网页上的所有 href 链接，并将该链接替换为我自己的代理链接. 例如 Google 必须 Google 解决方案使用PHP的DomDocument解析页面 ..

发布时间：2022-01-02 08:04:34 php hyperlink text-processing PHP

如何在 Java 中向现有文件添加新的文本行?

我想在不删除该文件的当前信息的情况下向现有文件添加新行.简而言之，这是我使用当前时间的方法: import java.io.BufferedWriter;导入 java.io.FileWriter;导入 java.io.Writer;写入器输出；output = new BufferedWriter(new FileWriter(my_file_name));//每次都清空文件output.ap ..

发布时间：2021-12-29 12:03:10 java file-io text-processing Java开发

在 awk 中使用多个分隔符

我有一个包含以下几行的文件: /logs/tc0001/tomcat/tomcat7.1/conf/catalina.properties:app.env.server.name = demo.example.com/logs/tc0001/tomcat/tomcat7.2/conf/catalina.properties:app.env.server.name = quest.example. ..

发布时间：2021-12-27 22:38:49 awk command-line text-processing 其他开发

如何去除CMake变量中的尾随空格?

我们正在努力改进 CMake 生成的 makefile.对于 Clang、GCC 和 ICC，我们要添加 -march=native.这样做的块看起来像: # -march=native 用于 i386、i486、i586、i686 和 x86_64 上的 GCC、Clang 和 ICC.消息(状态，“1")消息(状态，“编译器:x${CMAKE_CXX_COMPILER_ID}x")if (" ..

发布时间：2021-12-26 21:50:48 cmake text-processing uname 其他开发

将 \u 转义的 Unicode 字符串转换为 ASCII

在阅读了关于iconv和Encoding的所有内容后，我仍然感到困惑. 我正在抓取网页我有一个看起来像这样的字符串:'pretty\u003D\u003Ebig'(在 R 控制台中显示为 'pretty\\\u003D\\\u003Ebig').我想将其转换为 ASCII 字符串，它应该是 'pretty=>big'. 更简单，如果我设置 x 如何对 x 执行转换以产生 pr ..

发布时间：2021-12-26 13:50:35 r unicode text-processing iconv unicode-string 其他开发

使用新数据测试文本分类 ML 模型失败

我建立了一个机器学习模型来将电子邮件分类为垃圾邮件.现在我想测试我自己的电子邮件并查看结果.所以我写了下面的代码来对新邮件进行分类: message = """Subject: 你好，来自谷歌安全团队，我们想恢复你的密码.请联系我们尽快“"消息 = pd.Series([消息,])转换消息 = CountVectorizer(analyzer=process_text).fit_transfor ..

发布时间：2021-12-25 14:49:36 python machine-learning scikit-learn nlp text-processing AI人工智能

使用 AWK 合并基于第一列的唯一行

我正在尝试编写一个 AWK 脚本来汇总大型文本文件中的数据.结果数据的顺序很重要，所以我不能使用排序. 我尝试了 FNR==NR 的不同变体，但没有任何运气输入文件高度 3.5重量 12.323岁::高度 4.5重量 15.5年龄 31:: 预期产出高度 3.5 4.5重量 12.3 15.5年龄 23 31 解决方案使用 awk: awk '{a[$1]=a[$1 ..

发布时间：2021-12-24 12:30:48 bash unix awk sed text-processing 服务器开发

按列消除部分重复的行并保留最后一行

我有一个看起来像这样的文件: 2011-03-21 name001 line12011-03-21 name002 line22011-03-21 name003 line32011-03-22 name002 line42011-03-22 name001 line5 对于每个名字，我只想要它的最后一次出现.所以，我希望结果是: 2011-03-21 name003 line32011-0 ..

发布时间：2021-12-24 12:10:43 bash awk sed text-processing 其他开发

如何使用 sed 仅替换文件中的第一次出现?

我想在任何现有 #includes 之前使用额外的 include 指令更新大量 C++ 源文件.对于此类任务，我通常使用带有 sed 的小型 bash 脚本来重写文件. 如何让 sed 仅替换文件中第一次出现的字符串，而不是替换每次出现的字符串? 如果我使用 sed s/#include/#include "newfile.h"\n#include/ 它替换所有#includes ..

发布时间：2021-12-24 11:51:18 command-line sed text-processing 其他开发

如何从 Unix 上的文本文件中提取预定范围的行?

我有一个 ~23000 行的 SQL 转储，其中包含多个数据库的数据.我需要提取此文件的某个部分(即单个数据库的数据)并将其放入一个新文件中.我知道我想要的数据的开始和结束行号. 有谁知道一个 Unix 命令(或一系列命令)可以从文件中提取 16224 和 16482 行之间的所有行，然后将它们重定向到一个新文件中? 解决方案 sed -n '16224,16482p;16483q' ..

发布时间：2021-12-14 23:28:17 unix command-line sed text-processing 服务器开发

文本处理 - Python 与 Perl 性能

这是我的 Perl 和 Python 脚本，用于对大约 21 个日志文件进行一些简单的文本处理，每个文件大约 300 KB 到 1 MB(最大)x 5 次重复(总共 125 个文件，由于记录重复5次). Python 代码(代码修改为使用编译后的 re 和使用 re.I) #!/usr/bin/python进口重新导入文件输入exists_re = re.compile(r'^(.*?) ..

发布时间：2021-12-10 18:57:20 python regex performance perl text-processing Python

如何替换文本文件中的 ${} 占位符?

我想将“模板"文件的输出通过管道传输到 MySQL，该文件中散布着诸如 ${dbName} 之类的变量.替换这些实例并将输出转储到标准输出的命令行实用程序是什么? 解决方案 Sed！给定的 template.txt: 号码是 ${i}这个词是 ${word} 我们只想说: sed -e "s/\${i}/1/" -e "s/\${word}/dog/" template.tx ..

发布时间：2021-12-05 22:56:44 bash command-line text-processing templating 其他开发

text-processing相关内容