tm相关内容

如何从R中的koRpus对象提取内容?

我正在使用tm软件包,并希望使用R获得文档的Flesch-Kincaid分数.我发现koRpus软件包具有很多指标,包括阅读水平,因此开始使用它.但是,返回的对象似乎是一个非常复杂的s4对象,我不知道该如何解析. 因此,我将其应用于我的语料库: txt ..
发布时间:2020-05-18 01:06:34 其他开发

阿拉伯文字未显示在R-中

当我计划使用Hadith语料库进行文本分析和文本挖掘时,刚开始使用阿拉伯语R进行研究.我一直在阅读与我的问题相关的主题,但仍然无法在此处获得REAL基础知识(对不起,绝对是初学者). 因此,我输入: textarabic.v ..
发布时间:2020-05-18 01:01:22 其他开发

为什么stemDocument不起作用?

我正在R中使用'tm'包使用词干术语创建术语文档矩阵.该过程已经完成,但是结果矩阵中包含的词条似乎没有被阻止,而我试图理解为什么会这样,以及如何解决它. 以下是该过程的脚本,该脚本使用几个在线新闻故事作为沙箱: library(boilerpipeR) library(RCurl) library(tm) # Pull the relevant parts of the news s ..
发布时间:2020-05-18 00:58:11 其他开发

用于组合常见搭配的NLP流程

我有一个语料库,我在R中使用了tm包(并且还在python中的NLTK中镜像了相同的脚本).我正在使用unigram,但是希望使用某种解析器将通常位于同一位置的单词组合起来就好像一个单词一样,即我不想再在我的个人中看到"New"和"York"数据集在一起出现时的数据集,并看到这对表示为“纽约"的单词就好像是一个单词,并与其他字母组合在一起. 将有意义的常见n-gram转换为与unigram相 ..
发布时间:2020-05-18 00:56:17 Python

如何使用Quanteda保持句子标记的开头和结尾

我正在尝试使用R的quanteda包创建3克文字. 我正在努力寻找一种方法,以将n-gram句子标记的开头和结尾(和)保留在下面的代码中. 我认为将keptFeatures与匹配它们的正则表达式一起使用应该可以维护它们,但是人字形标记始终会被删除. 如何防止人字形标记被删除,或者用quanteda分隔句子开头和结尾的最佳方法是什么? 作为一个奖励问题,docf ..
发布时间:2020-05-18 00:54:18 其他开发

大文本语料库打破了tm_map

在过去的几天里,我一直在为此而挣扎.我搜索了所有的SO档案,并尝试了建议的解决方案,但似乎无法正常工作.我在2000 06、1995 -99等文件夹中有txt文档集,并且想要运行一些基本的文本挖掘操作,例如创建文档术语矩阵和术语文档矩阵,以及基于单词的共置位置进行一些操作.我的脚本适用于较小的语料库,但是,当我尝试使用较大的语料库时,它会使我失望.我已经为一种这样的文件夹操作粘贴了代码. l ..
发布时间:2020-05-18 00:52:32 其他开发

试图让R中的tf-idf权重起作用

我正在尝试使用tm软件包进行一些非常基础的文本分析,并获得一些tf-idf分数;我正在运行OS X(尽管我已经在Debian Squeeze上尝试了相同的结果);我有一个目录(这是我的工作目录),其中包含几个文本文件(第一个包含 Ulysses 的前三集,第二个包含后三集,如果您必须知道的话) ). R版本:2.15.1 SessionInfo()报告有关tm的信息:[1] tm_0.5-8 ..
发布时间:2020-05-18 00:45:14 其他开发

如何在DTM中搜索特定术语

我有一个200多个pdf的数据集,我将其转换为一个语料库.我将R的TM包用于文本预处理和挖掘. 到目前为止,我已经成功创建了DTM(文档术语矩阵),并且可以找到x个最常出现的术语. 但是,我研究的目的是检查语料中是否使用了某些术语.我不是在寻找最常用的术语,而是有自己的术语列表,我想检查它们是否出现以及是否出现了多少次. 到目前为止,我已经尝试过: function ..
发布时间:2020-05-18 00:43:46 其他开发

根据词典数据框替换语料库中的单词

我有兴趣根据由两列数据帧组成的字典替换tm语料库对象中的所有单词,其中第一列是要匹配的单词,第二列是替换单词. 我对translate函数感到困惑.我看到了这个答案,但是我无法将其转换为要传递给tm_map的函数. 请考虑以下MWE library(tm) docs ..
发布时间:2020-05-18 00:40:30 其他开发

tm包中的stemDocment无法处理过去时词

我有一个文件"check_text.txt",其中包含"所说的说来做".我想对它执行词干以获得“说说说说"的意思.我尝试在tm包中使用stemDocument,如下所示,但只得到“说出来说得好"的意思.有没有办法对过去时词进行词干处理?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt' con ..
发布时间:2020-05-18 00:35:21 其他开发