tm相关内容

安装 TM 包时依赖“slam"不可用

我能够在 r 中使用 library(tm) 直到今天没有问题,当加载 tm 显示: 图书馆(tm) 加载所需的包:NLP loadNamespace(i, c(lib.loc, .libPaths()), versionCheck = vI[[i]]) 中的错误: 没有名为“slam"的包 错误:“tm"的包或命名空间加载失败 我认为这是一个依赖问题并寻求重新安装包 ..
发布时间:2021-09-08 20:08:14 其他开发

tm 包中不再支持 Dictionary().如何修改代码?

我刚刚注意到在更新到 tm v. 0.5-10 之后,函数 Dictionary() 不再受支持.这是一个错误吗?或者它被弃用了?我想使用另一个函数来创建字典吗? 既然我现在有很多行代码需要修改,那么在不设计所有内容的情况下继续进行的最佳方法是什么? 解决方案 正如 IShouldBuyABoat 所说,你没有给我们任何关于你如何使用 Dictionary 的线索,所以我们不能真正给 ..
发布时间:2021-09-08 20:08:11 其他开发

茎完成不起作用

我正在使用tm包对修复数据进行文本分析,将数据读入数据框,转换为语料库对象,使用lower、stipWhitespace、removestopwords等应用各种方法清理数据. 为词干完成取回 Corpus 对象. 使用tm_map函数执行stemDocument,我的对象词被词干了 达到了预期的结果. 当我使用 tm_map 函数运行 stemCompletion 操作时 ..
发布时间:2021-09-08 20:08:02 其他开发

在 R 中创建词云时出错(simple_triplet_matrix 中的错误:'i, j, v' 不同长度)

我在 R 中有以下代码来获取最近关于当地市长候选人的推文并创建一个 wordcloud: 图书馆(twitteR)图书馆(ROAuth)要求(RCurl)图书馆(字符串)图书馆(tm)图书馆(ggmap)图书馆(plyr)图书馆(dplyr)图书馆(雪球C)图书馆(wordcloud)(……)setup_twitter_oauth(...)N = 10000 #推文数S = 200 #200Km ..
发布时间:2021-09-06 19:46:37 其他开发

计算 R 中每行文本数据的 ngrams

我有一个以下格式的数据列: 文字 Hello world你好你今天过得怎么样我爱计算器溢出废话废话 我想通过使用 tau 包的 textcnt() 函数来计算这个数据集中每一行的 3-gram.但是,当我尝试它时,它给了我一个数字向量,其中包含整个列的 ngram.如何分别将此函数应用于数据中的每个观察? 解决方案 这就是你想要的吗? library("RWeka")图书馆(“ ..
发布时间:2021-09-06 19:44:37 其他开发

R文本挖掘:使用tm包中的stemDocuments对相似词进行分组

我正在对大约 30000 条推文进行文本挖掘,现在的问题是让结果更可靠,我想将“同义词"转换为类似的词,例如.一些用户使用单词“girl",一些用户使用“girls",一些用户使用“gal".同样,“给予"、“给予"仅表示一件事."come,"came" 也一样.一些用户使用简写形式,如 "plz","pls" 等.此外,来自 tm 包的“stemdocument"无法正常工作.它正在将舞蹈转换为 ..
发布时间:2021-09-06 19:43:41 其他开发

在 R 中形成没有停用词的二元组

我最近在使用 R 进行文本挖掘时遇到了 bigram 问题.目的是在新闻中找到有意义的关键词,例如“智能汽车"和“数据挖掘". 假设我有一个字符串,如下所示: “IBM 在过去的几十年里在计算机行业取得了巨大的成功......" 去除停用词后("have","a","in","the","for"), “IBM 计算机行业过去几十年取得的巨大成功……" 因此,会出现“成功计算机"或“ ..
发布时间:2021-09-06 19:43:05 其他开发

为 R 中的不同特征分配权重

是否可以在 R 中制定 DFM 之前为不同的特征分配权重? 在 R 中考虑这个例子 str="苹果比香蕉好"mydfm=dfm(str, ignoreFeatures = stopwords("english"), verbose = FALSE) DFM mydfm 看起来像: docs 苹果更好的香蕉文本 1 1 1 1 但是,我想事先分配权重(苹果:5,香蕉:3),以便 ..
发布时间:2021-09-06 19:42:58 其他开发

以相同的方式处理由空格分隔的单词

我正在尝试查找同时出现在多个文档中的单词. 让我们举个例子. doc1:“这是一个关于银河系的文件"doc2:“银河系很大" 正如您在以上 2 个文档中所见,两个文档中都出现了“milkyway"一词,但在第二个文档中,“milkyway"一词由空格分隔,而在第一个文档中则没有. 我正在执行以下操作以获取 R 中的文档术语矩阵. 图书馆(tm)tmp.text ..
发布时间:2021-09-06 19:42:44 其他开发