tm相关内容

大文档术语矩阵-计算文档的字符数时出错

我已经使用包RTextTools构建了一个大型文档术语矩阵. 现在,我正在尝试计算矩阵行中的字符数,以便在执行主题建模之前可以删除空文档. 当我将其应用于我的语料库样本时,得到一个较小的矩阵,我的代码没有错误,但是当我尝试计算整个语料库产生的矩阵中文档的行长时(〜75000条推文),我收到以下错误消息: Error in vector(typeof(x$v), nr * nc) ..
发布时间:2020-05-07 18:53:06 其他开发

如何用新的(测试)数据重新创建相同的DocumentTermMatrix

假设我有基于文本的培训数据和测试数据.更具体地说,我有两个数据集-培训和测试-他们两个都有一列,其中包含文本,并且是当前工作所感兴趣的. 我在R中使用了tm包来处理训练数据集中的文本列.除去空格,标点符号和停用词后,我对语料库进行了词干处理,最后创建了一个1克的文档术语矩阵,其中包含每个文档中单词的出现频率/数量.然后,我使用了一个预先确定的临界值(例如50),并且仅保留计数大于50的那些术 ..
发布时间:2020-05-04 09:01:02 AI人工智能

R文本文件和文本挖掘...如何加载数据

我正在使用R包tm,我想进行一些文本挖掘.这是一个文档,被视为一揽子文字. 我不了解有关如何加载文本文件以及创建必要的对象以开始使用...等功能的文档. stemDocument(x, language = map_IETF(Language(x))) 因此,假设这是我的文档“这是对R负载的测试" 如何加载用于文本处理和创建对象x的数据? 解决方案 就像@richie ..
发布时间:2020-05-02 11:19:17 其他开发

如何拼合列表列表?

tm包扩展了c,因此,如果给定了一组PlainTextDocument,它将自动创建一个Corpus.不幸的是,似乎每个PlainTextDocument必须分别指定. 例如如果我有: foolist ..
发布时间:2020-05-02 05:00:21 其他开发

绘制LDA主题随时间的演变情况

我想绘制特定主题的比例如何随时间变化,但是我一直难以确定单个主题并随时间进行绘制,尤其是在分别绘制多组文档时(让我们创建两个组)比较-日记A和日记B).我已将与这些日记关联的日期保存在名为dateConverter的函数中. 这是我到目前为止所拥有的(非常感谢@scoa): library(tm); library(topicmodels); txtfolder ..
发布时间:2020-04-30 08:39:00 其他开发

在R tm包中,从Document-Term-Matrix构建语料库

使用tm包从语料库构建文档术语矩阵非常简单. 我想根据文档术语矩阵建立语料库. 让M为文档集中的文档数. 令V为该文档集中词汇中的术语数.然后,文档术语矩阵为M * V矩阵. 我也有一个长度为V的词汇向量.在词汇向量中,是文档术语矩阵中由索引表示的单词. 从dtm和词汇量向量,我想构造一个“语料库"对象.这是因为我想阻止我的文档集.我手动构建了dtm和vocab-即,从来没有一个 ..
发布时间:2020-04-30 08:38:13 其他开发

R中的removeSparseTerms如何工作?

我在R中使用removeSparseTerms方法,需要输入阈值.我还读到,该值越高,返回的矩阵中保留的项数就越多. 此方法如何工作,其背后的逻辑是什么?我理解稀疏的概念,但是这个阈值是否表示一个术语应显示多少个文档,或其他比率等等? 解决方案 就removeSparseTerms()的sparse参数而言,稀疏度是指相对文档频率的阈值,在哪个一词将被删除.相对文档频率在这里表示比例 ..
发布时间:2020-04-30 08:37:47 其他开发

R:为wordcloud graphics / png添加标题

我有一些工作R代码可以从术语文档矩阵生成标签云。 现在我想从许多文档创建一大堆标签云,并在以后直观地检查它们。 要知道标签云图片属于哪个文档/语料库,我会为所生成的图形添加标题。我怎么做? 也许这是显而易见的,但我仍然是一个初学R图形的人。 我自己的语料库是太大以至于无法在此处列出,但是可以使用以下SO问题的代码(与SO用户Andrie接受的答案相结合的代码): wordcl ..
发布时间:2018-05-25 19:04:54 其他开发

在R中安装旧软件包时出错

我试图安装tm库的0.6-2版本。我已经从档案库下载了tar.gz文件,并且在RStudio中选择Tools - > Archive - > Package Archive File来安装它。 但是,我收到以下错误消息。请问有人可以帮我解决这个问题: 安装源码包'tm' ... ** package'tm'已成功解压并检查了MD5总和 ** libs c:/ Rtools / ..
发布时间:2018-04-21 11:12:58 其他开发

将语料库转换为R中的data.frame

我正在使用tm包来应用词干,我需要将生成的数据转换成数据帧。 可以在这里找到一个解决方案。 R tm包vcorpus,语料库到数据框,但在我的情况下,我有语料库的内容如下: [[2195]] i非常印象 而不是 [[2195]] “我很打动” 因此,如果我申请 data.frame(text = unlist(sapply(myco ..
发布时间:2017-03-26 01:24:38 其他开发

R tm:将“PCorpus”后端文件散列数据库重新加载为语料库(例如在重新启动的会话/脚本中)

我从这个网站的回答中得知负载(感谢!),现在终于可以问自己的问题了。 我使用R(tm和lsa包)创建,清理和简化,然后对大约15,000个文本文档的语料库运行LSA(潜在语义分析)。我在Mac OS X 10.6的R 3.0.0中这样做。 为了提高效率(和处理RAM太少),我一直在试图在tm中使用“PCorpus”(由'filehash'包支持的后端数据库支持)选项,或者对于所谓的“分 ..
发布时间:2017-03-18 21:50:49 其他数据库

如何在tm字典中实现接近规则以计数字?

目标 我想计算文档中出现“love”一词的次数, t前面加上“不”字“我爱电影”将被视为一个外观,而“我不爱电影”不会被视为外观。 问题 如何继续使用tm软件包? R代码 下面是一些自我包含的代码,我想修改做以上。 require(tm) #文本向量 my.docs< ; - c(“我爱红辣椒,他们是世界上最可爱的人”, “我不喜欢红辣椒,但我也 ..
发布时间:2017-03-12 11:28:44 其他开发