tm 第8页 - IT屋-程序员软件开发技术分享社区

如何从R中的koRpus对象提取内容?

我正在使用tm软件包，并希望使用R获得文档的Flesch-Kincaid分数.我发现koRpus软件包具有很多指标，包括阅读水平，因此开始使用它.但是，返回的对象似乎是一个非常复杂的s4对象，我不知道该如何解析. 因此，我将其应用于我的语料库: txt ..

发布时间：2020-05-18 01:06:34 r nlp s4 tm 其他开发

如何使用R在语料库中搜索特定的n-gram

我正在寻找语料库中的特定n-gram.假设我想在文档集合中找到“资产管理"和“历史收益". 这就是我加载语料库的方式 my_corpus ..

发布时间：2020-05-18 01:04:48 r nlp tm 其他开发

R tm removeWords停用词未删除停用词

我正在使用R tm程序包，发现删除文本元素的tm_map函数几乎没有对我有用. 通过“工作"，我的意思是，例如，我将奔跑: d ..

发布时间：2020-05-18 01:04:02 r nlp stop-words tm 其他开发

阿拉伯文字未显示在R-中

当我计划使用Hadith语料库进行文本分析和文本挖掘时，刚开始使用阿拉伯语R进行研究.我一直在阅读与我的问题相关的主题，但仍然无法在此处获得REAL基础知识(对不起，绝对是初学者). 因此，我输入: textarabic.v ..

发布时间：2020-05-18 01:01:22 r nlp arabic tm 其他开发

为什么stemDocument不起作用?

我正在R中使用'tm'包使用词干术语创建术语文档矩阵.该过程已经完成，但是结果矩阵中包含的词条似乎没有被阻止，而我试图理解为什么会这样，以及如何解决它. 以下是该过程的脚本，该脚本使用几个在线新闻故事作为沙箱: library(boilerpipeR) library(RCurl) library(tm) # Pull the relevant parts of the news s ..

发布时间：2020-05-18 00:58:11 r nlp text-mining tm 其他开发

我有一个语料库，我在R中使用了tm包(并且还在python中的NLTK中镜像了相同的脚本).我正在使用unigram，但是希望使用某种解析器将通常位于同一位置的单词组合起来就好像一个单词一样，即我不想再在我的个人中看到"New"和"York"数据集在一起出现时的数据集，并看到这对表示为“纽约"的单词就好像是一个单词，并与其他字母组合在一起. 将有意义的常见n-gram转换为与unigram相 ..

发布时间：2020-05-18 00:56:17 python r nlp nltk tm Python

制作wordcloud，但结合单词?

我正在努力使出版物关键字构成一个词云.例如: 教育数据挖掘；合作学习；计算机科学...等我当前的代码如下: KeywordsCorpus ..

发布时间：2020-05-18 00:54:29 r nlp tm word-cloud snowball 其他开发

如何使用Quanteda保持句子标记的开头和结尾

我正在尝试使用R的quanteda包创建3克文字. 我正在努力寻找一种方法，以将n-gram句子标记的开头和结尾(和)保留在下面的代码中. 我认为将keptFeatures与匹配它们的正则表达式一起使用应该可以维护它们，但是人字形标记始终会被删除. 如何防止人字形标记被删除，或者用quanteda分隔句子开头和结尾的最佳方法是什么? 作为一个奖励问题，docf ..

发布时间：2020-05-18 00:54:18 r nlp text-mining tm quanteda 其他开发

大文本语料库打破了tm_map

在过去的几天里，我一直在为此而挣扎.我搜索了所有的SO档案，并尝试了建议的解决方案，但似乎无法正常工作.我在2000 06、1995 -99等文件夹中有txt文档集，并且想要运行一些基本的文本挖掘操作，例如创建文档术语矩阵和术语文档矩阵，以及基于单词的共置位置进行一些操作.我的脚本适用于较小的语料库，但是，当我尝试使用较大的语料库时，它会使我失望.我已经为一种这样的文件夹操作粘贴了代码. l ..

发布时间：2020-05-18 00:52:32 r text-mining tm text-analysis term-document-matrix 其他开发

试图让R中的tf-idf权重起作用

我正在尝试使用tm软件包进行一些非常基础的文本分析，并获得一些tf-idf分数；我正在运行OS X(尽管我已经在Debian Squeeze上尝试了相同的结果)；我有一个目录(这是我的工作目录)，其中包含几个文本文件(第一个包含 Ulysses 的前三集，第二个包含后三集，如果您必须知道的话) ). R版本:2.15.1 SessionInfo()报告有关tm的信息:[1] tm_0.5-8 ..

发布时间：2020-05-18 00:45:14 r tm tf-idf text-analysis 其他开发

如何从tm存储术语文档矩阵的稀疏性和最大术语长度

查找ngram时如何在R的单独变量中存储术语文档矩阵的稀疏性和最大术语长度? library(tm) library(RWeka) #stdout ..

发布时间：2020-05-18 00:43:53 r nlp tm term-document-matrix 其他开发

如何在DTM中搜索特定术语

我有一个200多个pdf的数据集，我将其转换为一个语料库.我将R的TM包用于文本预处理和挖掘. 到目前为止，我已经成功创建了DTM(文档术语矩阵)，并且可以找到x个最常出现的术语. 但是，我研究的目的是检查语料中是否使用了某些术语.我不是在寻找最常用的术语，而是有自己的术语列表，我想检查它们是否出现以及是否出现了多少次. 到目前为止，我已经尝试过: function ..

发布时间：2020-05-18 00:43:46 r nlp tm 其他开发

在R中使用TM软件包的VCorpus时遇到错误

在使用R处理TM软件包时，我遇到以下错误. library("tm") Loading required package: NLP Warning messages: 1: package ‘tm’ was built under R version 3.4.2 2: package ‘NLP’ was built under R version 3.4.1 corpus ..

发布时间：2020-05-18 00:42:24 r text-mining tm text-analysis 其他开发

根据词典数据框替换语料库中的单词

我有兴趣根据由两列数据帧组成的字典替换tm语料库对象中的所有单词，其中第一列是要匹配的单词，第二列是替换单词. 我对translate函数感到困惑.我看到了这个答案，但是我无法将其转换为要传递给tm_map的函数. 请考虑以下MWE library(tm) docs ..

发布时间：2020-05-18 00:40:30 r nlp tm 其他开发

R使用％in％从字符向量中删除停用词

我有一个数据框，其中包含要从中删除停用词的字符串.我试图避免使用tm包，因为它的数据集很大，并且tm的运行速度似乎有点慢.我正在使用tm stopword字典. library(plyr) library(tm) stopWords ..

发布时间：2020-05-18 00:40:20 r nlp subset tm stop-words 其他开发

tm包中的stemDocment无法处理过去时词

我有一个文件"check_text.txt"，其中包含"所说的说来做".我想对它执行词干以获得“说说说说"的意思.我尝试在tm包中使用stemDocument，如下所示，但只得到“说出来说得好"的意思.有没有办法对过去时词进行词干处理?在现实世界的自然语言处理中是否有必要这样做?谢谢！ filename = 'check_text.txt' con ..

发布时间：2020-05-18 00:35:21 r nlp tm stemming snowball 其他开发

应用tm_map时tm丢失元数据

我的tm r库有一个(小)问题. 说我有一个语料库: # boilerplate bcorp ..

发布时间：2020-05-09 01:52:44 r metadata tm 其他开发

R中的tm包的文档术语矩阵

我在R中使用tm包的文档术语矩阵.我遇到一个错误: Doc ..

发布时间：2020-05-07 19:38:39 r matrix document tm term 其他开发

没有将适用于"tm_map"的适用方法应用于类"character"的对象.

我的数据如下: 1. Good quality, love the taste, the only ramen noodles we buy but they're available at the local Korean grocery store for a bit less so no need to buy on Amazon really. 2. Great flavor and ..

发布时间：2020-05-07 19:18:29 r matrix text-mining tm 其他开发

无法在Document-Term-Matrix中看到`RTextTools :: toLower()`文本的结果

我尝试创建一个矩阵，为此，我想降低文本. 为此，我使用以下R指令: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, ste ..

发布时间：2020-05-07 18:53:20 r matrix text-processing tm term-document-matrix 其他开发

tm相关内容