text-processing相关内容
我有一个名为“plainlinks"的文件,如下所示: 13080.ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/999999-94092-2012.gz13081.ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/999999-94094-2012.gz13082.ftp://ftp3.ncdc.noaa.gov/pub/data/n
..
文件: 你好世界富酒吧 如何删除此 FILE 中的所有空新行? 命令输出: 文件: 你好世界富酒吧 解决方案 grep .文件 (如果你真的想在 sed 中做,那么:sed -e/^$/d FILE) (如果你真的想用 awk 来做,那么:awk/./FILE)
..
我需要计算 BLEU 分数来识别两个句子是否相似.我读过一些文章,主要是关于测量机器翻译准确性的 BLEU 分数.但我需要一个 BLEU 分数来找出相似性在同一种语言的句子之间[英语].(即)(两个句子都是英语).谢谢. 解决方案 好吧,如果你只是想计算 BLEU 分数,那很简单.将一个句子作为参考译文,将另一个作为候选译文.
..
我想编写一个程序来询问有关天气的问题.我应该开始研究哪些算法和技术. 例如:芝加哥这个周末会晴天吗?我想知道意图 = 天气查询,日期 = 这个周末,位置 = 芝加哥. 用户可以用多种形式表达相同的查询. 我想解决一些受限制的形式并寻找有关如何开始的想法.解决方案必须足够好. 解决方案 由于您的输入是自然语言形式,因此最好的方法是开始研究它,首先是解析句子结构.并通过 NE
..
我有大约 100 兆字节的文本,没有任何标记,分为大约 10,000 个条目.我想自动生成一个“标签"列表.问题是有些词组(即短语)只有在将它们组合在一起时才有意义. 如果我只数词,我会得到大量非常常见的词(is、the、for、in、am 等).我已经统计了它前后的单词和其他单词的数量,但现在我真的不知道下一步该怎么做2和3词组的相关信息存在,但是我如何提取这些数据? 解决方案 在
..
是否有开源 Java 库/算法可用于查找特定文本片段是否为问题? 我正在开发一个问答系统,需要分析用户输入的文本是否是一个问题. 我认为这个问题可能可以通过使用开源 NLP 库来解决,但它显然比简单的词性标记更复杂.因此,如果有人可以通过使用现有的开源 NLP 库来告诉它的算法,那也很好. 如果您知道使用数据挖掘来解决此问题的库/工具包,也请告诉我.虽然很难获得足够的数据用于训练,但我将能够
..
英语有一些缩写.例如: 你已经 ->你有他 ->他是 在进行自然语言处理时,这些有时会引起头痛.有没有可以扩展这些收缩的 Python 库? 解决方案 我把维基百科的收缩到展开页面变成了一个 Python 字典(见下文) 请注意,正如您所料,您肯定希望在查询字典时使用双引号: 此外,我在维基百科页面中留下了多个选项.随意修改它.请注意,消除对正确扩展的歧义将是一个棘手的问题
..
有没有可以总结和/或简化自然语言文本的库,最好是用 python 但至少是开源的? 解决方案 我不确定目前是否有任何库可以做到这一点,因为文本摘要,或者至少 可理解的 文本摘要不是'不是通过简单的插件就可以轻松完成的事情播放库. 以下是我设法找到的一些与文本摘要相关的项目/资源的链接,以帮助您入门: 狐猴项目 Python 自然语言工具包 O'Reilly 关于 Pytho
..
我正在尝试查找网页上的所有 href 链接,并将该链接替换为我自己的代理链接. 例如 Google 必须 Google 解决方案 使用PHP的DomDocument解析页面
..
我想在不删除该文件的当前信息的情况下向现有文件添加新行.简而言之,这是我使用当前时间的方法: import java.io.BufferedWriter;导入 java.io.FileWriter;导入 java.io.Writer;写入器输出;output = new BufferedWriter(new FileWriter(my_file_name));//每次都清空文件output.ap
..
我有一个包含以下几行的文件: /logs/tc0001/tomcat/tomcat7.1/conf/catalina.properties:app.env.server.name = demo.example.com/logs/tc0001/tomcat/tomcat7.2/conf/catalina.properties:app.env.server.name = quest.example.
..
我们正在努力改进 CMake 生成的 makefile.对于 Clang、GCC 和 ICC,我们要添加 -march=native.这样做的块看起来像: # -march=native 用于 i386、i486、i586、i686 和 x86_64 上的 GCC、Clang 和 ICC.消息(状态,“1")消息(状态,“编译器:x${CMAKE_CXX_COMPILER_ID}x")if ("
..
在阅读了关于iconv和Encoding的所有内容后,我仍然感到困惑. 我正在抓取 网页 我有一个看起来像这样的字符串:'pretty\u003D\u003Ebig'(在 R 控制台中显示为 'pretty\\\u003D\\\u003Ebig').我想将其转换为 ASCII 字符串,它应该是 'pretty=>big'. 更简单,如果我设置 x 如何对 x 执行转换以产生 pr
..
我建立了一个机器学习模型来将电子邮件分类为垃圾邮件.现在我想测试我自己的电子邮件并查看结果.所以我写了下面的代码来对新邮件进行分类: message = """Subject: 你好,来自谷歌安全团队,我们想恢复你的密码.请联系我们尽快“"消息 = pd.Series([消息,])转换消息 = CountVectorizer(analyzer=process_text).fit_transfor
..
我正在尝试编写一个 AWK 脚本来汇总大型文本文件中的数据.结果数据的顺序很重要,所以我不能使用排序. 我尝试了 FNR==NR 的不同变体,但没有任何运气 输入文件 高度 3.5重量 12.323岁::高度 4.5重量 15.5年龄 31:: 预期产出 高度 3.5 4.5重量 12.3 15.5年龄 23 31 解决方案 使用 awk: awk '{a[$1]=a[$1
..
我有一个看起来像这样的文件: 2011-03-21 name001 line12011-03-21 name002 line22011-03-21 name003 line32011-03-22 name002 line42011-03-22 name001 line5 对于每个名字,我只想要它的最后一次出现.所以,我希望结果是: 2011-03-21 name003 line32011-0
..
我想在任何现有 #includes 之前使用额外的 include 指令更新大量 C++ 源文件.对于此类任务,我通常使用带有 sed 的小型 bash 脚本来重写文件. 如何让 sed 仅替换文件中第一次出现的字符串,而不是替换每次出现的字符串? 如果我使用 sed s/#include/#include "newfile.h"\n#include/ 它替换所有#includes
..
我有一个 ~23000 行的 SQL 转储,其中包含多个数据库的数据.我需要提取此文件的某个部分(即单个数据库的数据)并将其放入一个新文件中.我知道我想要的数据的开始和结束行号. 有谁知道一个 Unix 命令(或一系列命令)可以从文件中提取 16224 和 16482 行之间的所有行,然后将它们重定向到一个新文件中? 解决方案 sed -n '16224,16482p;16483q'
..
这是我的 Perl 和 Python 脚本,用于对大约 21 个日志文件进行一些简单的文本处理,每个文件大约 300 KB 到 1 MB(最大)x 5 次重复(总共 125 个文件,由于 记录重复5次). Python 代码(代码修改为使用编译后的 re 和使用 re.I) #!/usr/bin/python进口重新导入文件输入exists_re = re.compile(r'^(.*?)
..
我想将“模板"文件的输出通过管道传输到 MySQL,该文件中散布着诸如 ${dbName} 之类的变量.替换这些实例并将输出转储到标准输出的命令行实用程序是什么? 解决方案 Sed! 给定的 template.txt: 号码是 ${i}这个词是 ${word} 我们只想说: sed -e "s/\${i}/1/" -e "s/\${word}/dog/" template.tx
..