tm相关内容
我在 R 2.15.1 中使用 tm 和 wordcloud 包.我正在尝试制作一个词云 这里是代码: maruti_tweets = userTimeline("Maruti_suzuki", n=1000,cainfo="cacert.pem")hyundai_tweets = userTimeline("HyundaiIndia", n=1000,cainfo="cacert.pem")t
..
我能够在 r 中使用 library(tm) 直到今天没有问题,当加载 tm 显示: 图书馆(tm) 加载所需的包:NLP loadNamespace(i, c(lib.loc, .libPaths()), versionCheck = vI[[i]]) 中的错误: 没有名为“slam"的包 错误:“tm"的包或命名空间加载失败 我认为这是一个依赖问题并寻求重新安装包
..
我刚刚注意到在更新到 tm v. 0.5-10 之后,函数 Dictionary() 不再受支持.这是一个错误吗?或者它被弃用了?我想使用另一个函数来创建字典吗? 既然我现在有很多行代码需要修改,那么在不设计所有内容的情况下继续进行的最佳方法是什么? 解决方案 正如 IShouldBuyABoat 所说,你没有给我们任何关于你如何使用 Dictionary 的线索,所以我们不能真正给
..
我正在使用 tm 包使用以下代码清理一些数据: mycorpus 然后我想将语料库转换回数据框,以便导出包含数据框原始格式数据的文本文件.我尝试了以下方法: dataframe corpus")
..
我正在使用tm包对修复数据进行文本分析,将数据读入数据框,转换为语料库对象,使用lower、stipWhitespace、removestopwords等应用各种方法清理数据. 为词干完成取回 Corpus 对象. 使用tm_map函数执行stemDocument,我的对象词被词干了 达到了预期的结果. 当我使用 tm_map 函数运行 stemCompletion 操作时
..
我在 R 中有以下代码来获取最近关于当地市长候选人的推文并创建一个 wordcloud: 图书馆(twitteR)图书馆(ROAuth)要求(RCurl)图书馆(字符串)图书馆(tm)图书馆(ggmap)图书馆(plyr)图书馆(dplyr)图书馆(雪球C)图书馆(wordcloud)(……)setup_twitter_oauth(...)N = 10000 #推文数S = 200 #200Km
..
我有一个以下格式的数据列: 文字 Hello world你好你今天过得怎么样我爱计算器溢出废话废话 我想通过使用 tau 包的 textcnt() 函数来计算这个数据集中每一行的 3-gram.但是,当我尝试它时,它给了我一个数字向量,其中包含整个列的 ngram.如何分别将此函数应用于数据中的每个观察? 解决方案 这就是你想要的吗? library("RWeka")图书馆(“
..
我正在尝试使用 stemCompletion 将词干词转换为完整词. 以下是我使用的代码 txt
..
我有一个 dtm,想从文档术语矩阵中按频率提取每个文档的前 5 个术语. 我有一个使用 tm 包构建的 dtm 条款文档 aaaa aac abrt 被滥用 接受 接受1 0 0 0 0 0 02 0 0 0 0 0 03 0 0 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 06 0 0 0 0 0 0 所需的输出应采用以下形式: ID1 学期1 学期2 学期3
..
我有一些关于 DocumentTermMatrix() 及其停用词的问题.我输入如下,但无法得到我想要的结果. text
..
我正在对大约 30000 条推文进行文本挖掘,现在的问题是让结果更可靠,我想将“同义词"转换为类似的词,例如.一些用户使用单词“girl",一些用户使用“girls",一些用户使用“gal".同样,“给予"、“给予"仅表示一件事."come,"came" 也一样.一些用户使用简写形式,如 "plz","pls" 等.此外,来自 tm 包的“stemdocument"无法正常工作.它正在将舞蹈转换为
..
我遵循了 这里 在幻灯片编号中.9 tolower 在 tm 0.6 及以上的包中有问题,我用过 myCorpus
..
我使用 R 的 tm 包进行文本挖掘.这是我的代码的样子: 图书馆(tm) 在 R 中加载数据 pathToData = "R/group_data";newsCorpus = Corpus(DirSource(pathToData, recursive = TRUE),readerControl = list(reader = readPlain)) 新闻语料长度 长度(新闻语料库)
..
我已经阅读了这篇和这个问题,但是我还是没明白tm_mapstemDocument的用法/代码>.让我们按照这个例子: q17
..
我最近在使用 R 进行文本挖掘时遇到了 bigram 问题.目的是在新闻中找到有意义的关键词,例如“智能汽车"和“数据挖掘". 假设我有一个字符串,如下所示: “IBM 在过去的几十年里在计算机行业取得了巨大的成功......" 去除停用词后("have","a","in","the","for"), “IBM 计算机行业过去几十年取得的巨大成功……" 因此,会出现“成功计算机"或“
..
我正在在线书籍 http://tidytextmining.com/ 上学习文本挖掘.在第五章:http://tidytextmining.com/dtm.html#financial 以下代码: library(tm.plugin.webmining)图书馆(咕噜咕噜)公司
..
是否可以在 R 中制定 DFM 之前为不同的特征分配权重? 在 R 中考虑这个例子 str="苹果比香蕉好"mydfm=dfm(str, ignoreFeatures = stopwords("english"), verbose = FALSE) DFM mydfm 看起来像: docs 苹果更好的香蕉文本 1 1 1 1 但是,我想事先分配权重(苹果:5,香蕉:3),以便
..
在创建 Wordcloud 时,最常见的做法是将所有单词都设为小写.但是,我希望 wordclouds 显示大写的单词.强制单词大写后,wordcloud 仍然显示小写单词.任何想法为什么? 可重现的代码: 库(tm)图书馆(wordcloud)data
..
我正在尝试查找同时出现在多个文档中的单词. 让我们举个例子. doc1:“这是一个关于银河系的文件"doc2:“银河系很大" 正如您在以上 2 个文档中所见,两个文档中都出现了“milkyway"一词,但在第二个文档中,“milkyway"一词由空格分隔,而在第一个文档中则没有. 我正在执行以下操作以获取 R 中的文档术语矩阵. 图书馆(tm)tmp.text
..
我尝试了无数次以不同的方式在 R 中运行 tm.plugin.sentiment 包中的 score() 函数,但我不断收到相同的错误.这是一个示例代码: 库(tm.plugin.webmining)图书馆(tm.plugin.sentiment)cor
..