tm 第9页 - IT屋-程序员软件开发技术分享社区

大文档术语矩阵-计算文档的字符数时出错

我已经使用包RTextTools构建了一个大型文档术语矩阵. 现在，我正在尝试计算矩阵行中的字符数，以便在执行主题建模之前可以删除空文档. 当我将其应用于我的语料库样本时，得到一个较小的矩阵，我的代码没有错误，但是当我尝试计算整个语料库产生的矩阵中文档的行长时(〜75000条推文)，我收到以下错误消息: Error in vector(typeof(x$v), nr * nc) ..

发布时间：2020-05-07 18:53:06 r matrix text-mining tm 其他开发

R DocumentTermMatrix控件列表不起作用，静默忽略未知参数

我有以下两个DTM: dtm ..

发布时间：2020-05-07 18:48:06 r matrix controls term tm 其他开发

R:使用tm和proxy计算距术语文档矩阵的余弦距离

我想计算一个语料库作者之间的余弦距离.让我们收集20个文档的语料库. require(tm) data("crude") length(crude) # [1] 20 我想找出这20个文档之间的余弦距离(相似度).我用创建一个术语文档矩阵 tdm ..

发布时间：2020-05-07 18:38:03 r matrix proxy tm 其他开发

如何用新的(测试)数据重新创建相同的DocumentTermMatrix

假设我有基于文本的培训数据和测试数据.更具体地说，我有两个数据集-培训和测试-他们两个都有一列，其中包含文本，并且是当前工作所感兴趣的. 我在R中使用了tm包来处理训练数据集中的文本列.除去空格，标点符号和停用词后，我对语料库进行了词干处理，最后创建了一个1克的文档术语矩阵，其中包含每个文档中单词的出现频率/数量.然后，我使用了一个预先确定的临界值(例如50)，并且仅保留计数大于50的那些术 ..

发布时间：2020-05-04 09:01:02 r machine-learning nlp text-mining tm AI人工智能

R文本文件和文本挖掘...如何加载数据

我正在使用R包tm，我想进行一些文本挖掘.这是一个文档，被视为一揽子文字. 我不了解有关如何加载文本文件以及创建必要的对象以开始使用...等功能的文档. stemDocument(x, language = map_IETF(Language(x))) 因此，假设这是我的文档“这是对R负载的测试" 如何加载用于文本处理和创建对象x的数据? 解决方案就像@richie ..

发布时间：2020-05-02 11:19:17 r load text-mining tm 其他开发

如何拼合列表列表?

tm包扩展了c，因此，如果给定了一组PlainTextDocument，它将自动创建一个Corpus.不幸的是，似乎每个PlainTextDocument必须分别指定. 例如如果我有: foolist ..

发布时间：2020-05-02 05:00:21 r list tm 其他开发

绘制LDA主题随时间的演变情况

我想绘制特定主题的比例如何随时间变化，但是我一直难以确定单个主题并随时间进行绘制，尤其是在分别绘制多组文档时(让我们创建两个组)比较-日记A和日记B).我已将与这些日记关联的日期保存在名为dateConverter的函数中. 这是我到目前为止所拥有的(非常感谢@scoa): library(tm); library(topicmodels); txtfolder ..

发布时间：2020-04-30 08:39:00 r ggplot2 tm lda topic-modeling 其他开发

在R tm包中，从Document-Term-Matrix构建语料库

使用tm包从语料库构建文档术语矩阵非常简单. 我想根据文档术语矩阵建立语料库. 让M为文档集中的文档数. 令V为该文档集中词汇中的术语数.然后，文档术语矩阵为M * V矩阵. 我也有一个长度为V的词汇向量.在词汇向量中，是文档术语矩阵中由索引表示的单词. 从dtm和词汇量向量，我想构造一个“语料库"对象.这是因为我想阻止我的文档集.我手动构建了dtm和vocab-即，从来没有一个 ..

发布时间：2020-04-30 08:38:13 r text-mining tm corpus lda 其他开发

R中的removeSparseTerms如何工作?

我在R中使用removeSparseTerms方法，需要输入阈值.我还读到，该值越高，返回的矩阵中保留的项数就越多. 此方法如何工作，其背后的逻辑是什么?我理解稀疏的概念，但是这个阈值是否表示一个术语应显示多少个文档，或其他比率等等? 解决方案就removeSparseTerms()的sparse参数而言，稀疏度是指相对文档频率的阈值，在哪个一词将被删除.相对文档频率在这里表示比例 ..

发布时间：2020-04-30 08:37:47 r tm lda 其他开发

具有主题模型的LDA，如何查看不同文档属于哪些主题?

我正在使用topicmodels软件包中的LDA，并且已经在大约30.000个文档上运行了LDA，获得了30个主题，并且获得了该主题的前10个字，它们看起来非常好.但是我想看看哪些文档属于哪个主题的可能性最高，该怎么办? myCorpus ..

发布时间：2020-04-30 08:37:32 r lda topic-modeling tm 其他开发

R，tm转换错误删除文档

我想根据文字中关键字的权重创建一个网络.然后在运行与tm_map相关的代码时出现错误: library (tm) library(NLP) lirary (openNLP) text = c('.......') corp ..

发布时间：2020-04-26 09:34:14 r extract keyword tm extraction 其他开发

R：为wordcloud graphics / png添加标题

我有一些工作R代码可以从术语文档矩阵生成标签云。现在我想从许多文档创建一大堆标签云，并在以后直观地检查它们。要知道标签云图片属于哪个文档/语料库，我会为所生成的图形添加标题。我怎么做？也许这是显而易见的，但我仍然是一个初学R图形的人。我自己的语料库是太大以至于无法在此处列出，但是可以使用以下SO问题的代码（与SO用户Andrie接受的答案相结合的代码）： wordcl ..

发布时间：2018-05-25 19:04:54 r graphics tm word-cloud 其他开发

在R中安装旧软件包时出错

我试图安装tm库的0.6-2版本。我已经从档案库下载了tar.gz文件，并且在RStudio中选择Tools - > Archive - > Package Archive File来安装它。但是，我收到以下错误消息。请问有人可以帮我解决这个问题：安装源码包'tm' ... ** package'tm'已成功解压并检查了MD5总和 ** libs c：/ Rtools / ..

发布时间：2018-04-21 11:12:58 r gcc rstudio tm 其他开发

如何通过R中的用户定义语句过滤元数据？

在R中有一个名为 sFilter 的函数来过滤元数据。但是，功能是旧的（版本：0.5-10 ）tm包。有没有什么功能，而不是在新版本？我的代码块是; query ..

发布时间：2017-11-08 20:31:45 r filter metadata text-mining tm 其他开发

在Mac上将Unicode转换成Umlaut（Facebook数据）

我做了很多研究，我仍然找不到这个解决方案。我已经从德国Facebook群组中提取了 from_ID from_name message created_time 12334543 Max Muster Dies war auch eine sehr sch ne Bucht 2016-0n08T19：00：54 + 0000 我明白 ..

发布时间：2017-10-15 21:29:14 r facebook text unicode tm 其他开发

在R中使用tm包装的计数器

我在文档中使用对象创建了一个脚本，并在R中使用了一个字典documentTermMatrix。该脚本适用于单个单词，而不是复合词 es。 “foo”“bar”“foo bar” 这是代码 require（tm） my.docs ..

发布时间：2017-05-21 20:54:06 r dictionary frequency text-mining tm 其他开发

将语料库转换为R中的data.frame

我正在使用tm包来应用词干，我需要将生成的数据转换成数据帧。可以在这里找到一个解决方案。 R tm包vcorpus，语料库到数据框，但在我的情况下，我有语料库的内容如下： [[2195]] i非常印象而不是 [[2195]] “我很打动” 因此，如果我申请 data.frame（text = unlist（sapply（myco ..

发布时间：2017-03-26 01:24:38 r dataframe tm corpus 其他开发

R tm：将“PCorpus”后端文件散列数据库重新加载为语料库（例如在重新启动的会话/脚本中）

我从这个网站的回答中得知负载（感谢！），现在终于可以问自己的问题了。我使用R（tm和lsa包）创建，清理和简化，然后对大约15,000个文本文档的语料库运行LSA（潜在语义分析）。我在Mac OS X 10.6的R 3.0.0中这样做。为了提高效率（和处理RAM太少），我一直在试图在tm中使用“PCorpus”（由'filehash'包支持的后端数据库支持）选项，或者对于所谓的“分 ..

发布时间：2017-03-18 21:50:49 database r text-mining corpus tm 其他数据库

如何在tm字典中实现接近规则以计数字？

目标我想计算文档中出现“love”一词的次数， t前面加上“不”字“我爱电影”将被视为一个外观，而“我不爱电影”不会被视为外观。问题如何继续使用tm软件包？ R代码下面是一些自我包含的代码，我想修改做以上。 require（tm）＃文本向量 my.docs< ; - c（“我爱红辣椒，他们是世界上最可爱的人”， “我不喜欢红辣椒，但我也 ..

发布时间：2017-03-12 11:28:44 r nlp weka data.table tm 其他开发

readPDF（tm包）在R中

我试图在R中阅读一些在线pdf文档。我使用 readRDF 函数。我的脚本像这样 safex ..

发布时间：2017-03-09 19:53:55 r cygwin tm Linux/Unix

tm相关内容