tm相关内容
我正在使用tm软件包,并希望使用R获得文档的Flesch-Kincaid分数.我发现koRpus软件包具有很多指标,包括阅读水平,因此开始使用它.但是,返回的对象似乎是一个非常复杂的s4对象,我不知道该如何解析. 因此,我将其应用于我的语料库: txt
..
我正在寻找语料库中的特定n-gram.假设我想在文档集合中找到“资产管理"和“历史收益". 这就是我加载语料库的方式 my_corpus
..
我正在使用R tm程序包,发现删除文本元素的tm_map函数几乎没有对我有用. 通过“工作",我的意思是,例如,我将奔跑: d
..
当我计划使用Hadith语料库进行文本分析和文本挖掘时,刚开始使用阿拉伯语R进行研究.我一直在阅读与我的问题相关的主题,但仍然无法在此处获得REAL基础知识(对不起,绝对是初学者). 因此,我输入: textarabic.v
..
我正在R中使用'tm'包使用词干术语创建术语文档矩阵.该过程已经完成,但是结果矩阵中包含的词条似乎没有被阻止,而我试图理解为什么会这样,以及如何解决它. 以下是该过程的脚本,该脚本使用几个在线新闻故事作为沙箱: library(boilerpipeR) library(RCurl) library(tm) # Pull the relevant parts of the news s
..
我有一个语料库,我在R中使用了tm包(并且还在python中的NLTK中镜像了相同的脚本).我正在使用unigram,但是希望使用某种解析器将通常位于同一位置的单词组合起来就好像一个单词一样,即我不想再在我的个人中看到"New"和"York"数据集在一起出现时的数据集,并看到这对表示为“纽约"的单词就好像是一个单词,并与其他字母组合在一起. 将有意义的常见n-gram转换为与unigram相
..
我正在努力使出版物关键字构成一个词云.例如: 教育数据挖掘;合作学习;计算机科学...等 我当前的代码如下: KeywordsCorpus
..
我正在尝试使用R的quanteda包创建3克文字. 我正在努力寻找一种方法,以将n-gram句子标记的开头和结尾(和)保留在下面的代码中. 我认为将keptFeatures与匹配它们的正则表达式一起使用应该可以维护它们,但是人字形标记始终会被删除. 如何防止人字形标记被删除,或者用quanteda分隔句子开头和结尾的最佳方法是什么? 作为一个奖励问题,docf
..
在过去的几天里,我一直在为此而挣扎.我搜索了所有的SO档案,并尝试了建议的解决方案,但似乎无法正常工作.我在2000 06、1995 -99等文件夹中有txt文档集,并且想要运行一些基本的文本挖掘操作,例如创建文档术语矩阵和术语文档矩阵,以及基于单词的共置位置进行一些操作.我的脚本适用于较小的语料库,但是,当我尝试使用较大的语料库时,它会使我失望.我已经为一种这样的文件夹操作粘贴了代码. l
..
我正在尝试使用tm软件包进行一些非常基础的文本分析,并获得一些tf-idf分数;我正在运行OS X(尽管我已经在Debian Squeeze上尝试了相同的结果);我有一个目录(这是我的工作目录),其中包含几个文本文件(第一个包含 Ulysses 的前三集,第二个包含后三集,如果您必须知道的话) ). R版本:2.15.1 SessionInfo()报告有关tm的信息:[1] tm_0.5-8
..
查找ngram时如何在R的单独变量中存储术语文档矩阵的稀疏性和最大术语长度? library(tm) library(RWeka) #stdout
..
我有一个200多个pdf的数据集,我将其转换为一个语料库.我将R的TM包用于文本预处理和挖掘. 到目前为止,我已经成功创建了DTM(文档术语矩阵),并且可以找到x个最常出现的术语. 但是,我研究的目的是检查语料中是否使用了某些术语.我不是在寻找最常用的术语,而是有自己的术语列表,我想检查它们是否出现以及是否出现了多少次. 到目前为止,我已经尝试过: function
..
在使用R处理TM软件包时,我遇到以下错误. library("tm") Loading required package: NLP Warning messages: 1: package ‘tm’ was built under R version 3.4.2 2: package ‘NLP’ was built under R version 3.4.1 corpus
..
我有兴趣根据由两列数据帧组成的字典替换tm语料库对象中的所有单词,其中第一列是要匹配的单词,第二列是替换单词. 我对translate函数感到困惑.我看到了这个答案,但是我无法将其转换为要传递给tm_map的函数. 请考虑以下MWE library(tm) docs
..
我有一个数据框,其中包含要从中删除停用词的字符串.我试图避免使用tm包,因为它的数据集很大,并且tm的运行速度似乎有点慢.我正在使用tm stopword字典. library(plyr) library(tm) stopWords
..
我有一个文件"check_text.txt",其中包含"所说的说来做".我想对它执行词干以获得“说说说说"的意思.我尝试在tm包中使用stemDocument,如下所示,但只得到“说出来说得好"的意思.有没有办法对过去时词进行词干处理?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt' con
..
我的tm r库有一个(小)问题. 说我有一个语料库: # boilerplate bcorp
..
我在R中使用tm包的文档术语矩阵.我遇到一个错误: Doc
..
我的数据如下: 1. Good quality, love the taste, the only ramen noodles we buy but they're available at the local Korean grocery store for a bit less so no need to buy on Amazon really. 2. Great flavor and
..
我尝试创建一个矩阵,为此,我想降低文本. 为此,我使用以下R指令: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, ste
..