text-processing相关内容

用于句子相似性检测的 BLEU 分数实现

我需要计算 BLEU 分数来识别两个句子是否相似.我读过一些文章,主要是关于测量机器翻译准确性的 BLEU 分数.但我需要一个 BLEU 分数来找出相似性在同一种语言的句子之间[英语].(即)(两个句子都是英语).谢谢. 解决方案 好吧,如果你只是想计算 BLEU 分数,那很简单.将一个句子作为参考译文,将另一个作为候选译文. ..
发布时间:2022-01-02 17:47:22 Java开发

如何进行 NLP 任务以识别意图和插槽

我想编写一个程序来询问有关天气的问题.我应该开始研究哪些算法和技术. 例如:芝加哥这个周末会晴天吗?我想知道意图 = 天气查询,日期 = 这个周末,位置 = 芝加哥. 用户可以用多种形式表达相同的查询. 我想解决一些受限制的形式并寻找有关如何开始的想法.解决方案必须足够好. 解决方案 由于您的输入是自然语言形式,因此最好的方法是开始研究它,首先是解析句子结构.并通过 NE ..

从文本中检测短语和关键字的算法

我有大约 100 兆字节的文本,没有任何标记,分为大约 10,000 个条目.我想自动生成一个“标签"列表.问题是有些词组(即短语)只有在将它们组合在一起时才有意义. 如果我只数词,我会得到大量非常常见的词(is、the、for、in、am 等).我已经统计了它前后的单词和其他单词的数量,但现在我真的不知道下一步该怎么做2和3词组的相关信息存在,但是我如何提取这些数据? 解决方案 在 ..
发布时间:2022-01-02 17:27:52 其他开发

如何判断一个句子是否是疑问句(疑问句)?

是否有开源 Java 库/算法可用于查找特定文本片段是否为问题? 我正在开发一个问答系统,需要分析用户输入的文本是否是一个问题. 我认为这个问题可能可以通过使用开源 NLP 库来解决,但它显然比简单的词性标记更复杂.因此,如果有人可以通过使用现有的开源 NLP 库来告诉它的算法,那也很好. 如果您知道使用数据挖掘来解决此问题的库/工具包,也请告诉我.虽然很难获得足够的数据用于训练,但我将能够 ..
发布时间:2022-01-02 17:24:34 Java开发

在 Python 中扩展英语语言收缩

英语有一些缩写.例如: 你已经 ->你有他 ->他是 在进行自然语言处理时,这些有时会引起头痛.有没有可以扩展这些收缩的 Python 库? 解决方案 我把维基百科的收缩到展开页面变成了一个 Python 字典(见下文) 请注意,正如您所料,您肯定希望在查询字典时使用双引号: 此外,我在维基百科页面中留下了多个选项.随意修改它.请注意,消除对正确扩展的歧义将是一个棘手的问题 ..
发布时间:2022-01-02 17:20:16 Python

概括文字或简化文字

有没有可以总结和/或简化自然语言文本的库,最好是用 python 但至少是开源的? 解决方案 我不确定目前是否有任何库可以做到这一点,因为文本摘要,或者至少 可理解的 文本摘要不是'不是通过简单的插件就可以轻松完成的事情播放库. 以下是我设法找到的一些与文本摘要相关的项目/资源的链接,以帮助您入门: 狐猴项目 Python 自然语言工具包 O'Reilly 关于 Pytho ..
发布时间:2022-01-02 17:20:12 Python

如何在 Java 中向现有文件添加新的文本行?

我想在不删除该文件的当前信息的情况下向现有文件添加新行.简而言之,这是我使用当前时间的方法: import java.io.BufferedWriter;导入 java.io.FileWriter;导入 java.io.Writer;写入器输出;output = new BufferedWriter(new FileWriter(my_file_name));//每次都清空文件output.ap ..
发布时间:2021-12-29 12:03:10 Java开发

如何去除CMake变量中的尾随空格?

我们正在努力改进 CMake 生成的 makefile.对于 Clang、GCC 和 ICC,我们要添加 -march=native.这样做的块看起来像: # -march=native 用于 i386、i486、i586、i686 和 x86_64 上的 GCC、Clang 和 ICC.消息(状态,“1")消息(状态,“编译器:x${CMAKE_CXX_COMPILER_ID}x")if (" ..
发布时间:2021-12-26 21:50:48 其他开发

将 \u 转义的 Unicode 字符串转换为 ASCII

在阅读了关于iconv和Encoding的所有内容后,我仍然感到困惑. 我正在抓取 网页 我有一个看起来像这样的字符串:'pretty\u003D\u003Ebig'(在 R 控制台中显示为 'pretty\\\u003D\\\u003Ebig').我想将其转换为 ASCII 字符串,它应该是 'pretty=>big'. 更简单,如果我设置 x 如何对 x 执行转换以产生 pr ..
发布时间:2021-12-26 13:50:35 其他开发

使用新数据测试文本分类 ML 模型失败

我建立了一个机器学习模型来将电子邮件分类为垃圾邮件.现在我想测试我自己的电子邮件并查看结果.所以我写了下面的代码来对新邮件进行分类: message = """Subject: 你好,来自谷歌安全团队,我们想恢复你的密码.请联系我们尽快“"消息 = pd.Series([消息,])转换消息 = CountVectorizer(analyzer=process_text).fit_transfor ..

使用 AWK 合并基于第一列的唯一行

我正在尝试编写一个 AWK 脚本来汇总大型文本文件中的数据.结果数据的顺序很重要,所以我不能使用排序. 我尝试了 FNR==NR 的不同变体,但没有任何运气 输入文件 高度 3.5重量 12.323岁::高度 4.5重量 15.5年龄 31:: 预期产出 高度 3.5 4.5重量 12.3 15.5年龄 23 31 解决方案 使用 awk: awk '{a[$1]=a[$1 ..
发布时间:2021-12-24 12:30:48 服务器开发

如何使用 sed 仅替换文件中的第一次出现?

我想在任何现有 #includes 之前使用额外的 include 指令更新大量 C++ 源文件.对于此类任务,我通常使用带有 sed 的小型 bash 脚本来重写文件. 如何让 sed 仅替换文件中第一次出现的字符串,而不是替换每次出现的字符串? 如果我使用 sed s/#include/#include "newfile.h"\n#include/ 它替换所有#includes ..
发布时间:2021-12-24 11:51:18 其他开发

如何从 Unix 上的文本文件中提取预定范围的行?

我有一个 ~23000 行的 SQL 转储,其中包含多个数据库的数据.我需要提取此文件的某个部分(即单个数据库的数据)并将其放入一个新文件中.我知道我想要的数据的开始和结束行号. 有谁知道一个 Unix 命令(或一系列命令)可以从文件中提取 16224 和 16482 行之间的所有行,然后将它们重定向到一个新文件中? 解决方案 sed -n '16224,16482p;16483q' ..
发布时间:2021-12-14 23:28:17 服务器开发

文本处理 - Python 与 Perl 性能

这是我的 Perl 和 Python 脚本,用于对大约 21 个日志文件进行一些简单的文本处理,每个文件大约 300 KB 到 1 MB(最大)x 5 次重复(总共 125 个文件,由于 记录重复5次). Python 代码(代码修改为使用编译后的 re 和使用 re.I) #!/usr/bin/python进口重新导入文件输入exists_re = re.compile(r'^(.*?) ..
发布时间:2021-12-10 18:57:20 Python

如何替换文本文件中的 ${} 占位符?

我想将“模板"文件的输出通过管道传输到 MySQL,该文件中散布着诸如 ${dbName} 之类的变量.替换这些实例并将输出转储到标准输出的命令行实用程序是什么? 解决方案 Sed! 给定的 template.txt: 号码是 ${i}这个词是 ${word} 我们只想说: sed -e "s/\${i}/1/" -e "s/\${word}/dog/" template.tx ..
发布时间:2021-12-05 22:56:44 其他开发