tm相关内容

ngrams的dict函数

我有这样的文字: 库(dplyr)一瞥(文字)chr [1:11] “欢迎来到维基百科![bla] 发现 Ekopedia,实用的关于替代生活技术的百科全书.\"| __截断__ ... 还有这种 bi_grams: 一瞥(字典)chr [1:34]“和我"“和"“作为"“在"“不要"“为"“从"“曾经"“我是"“我没有"…… 我的目标是使用 dict 的 bi_grams 从 text ..
发布时间:2021-09-08 20:10:16 其他开发

R tm stemCompletion 生成 NA 值

当我尝试将 stemCompletion 应用于语料库时,此函数会生成 NA 值.. 这是我的代码: my.corpus (这样做的结果之一是:[[2584]]分区计划) 下一步是阻塞语料库,所以: my.corpus 但结果是这样 [[2584]]北美工厂 下一步应该是创建一个包含事务的关联矩阵,然后是先验规则,但是如果我继续尝试获取规则,inspect(ru ..
发布时间:2021-09-08 20:10:13 其他开发

使用 TermDocumentMatrix 进行 UTF-8 字符编码

我正在努力学习 R.我一直试图解决这个问题几个小时.我已经搜索并尝试了很多方法来解决这个问题,但到目前为止没有运气.所以我们开始了;我正在从 twitter(通过 twitteR)下载一些随机推文.当我检查我的数据框时,我可以看到所有特殊字符(例如;üğıİşçÇöÖ).我正在删除一些东西(如空格等).毕竟删除和操作我的语料库,一切看起来都很好.当我尝试创建 TermDocumentMatrix ..
发布时间:2021-09-08 20:10:10 其他开发

如何将 R 语料库保存到磁盘

我有一个大型 R 语料库对象,使用 tm 包,由数百万个小文档组成. 如何将其作为单个文本文件保存到磁盘以供其他程序(例如 word2vec)使用? 我试过了 writeCorpus(myCorpus) 但是那写出了一百万个小文本文件,炸毁了我的 Mac! 我对 R 不是很精通,所以任何关于如何做到这一点的帮助都会非常感谢.谢谢! 解决方案 尝试: writeLin ..
发布时间:2021-09-08 20:10:07 其他开发

词干文档 R 文本挖掘

我的数据是一个txt文件,如下所示: 字数_doc 概述 1 客户 1 商店 1 玛格 1 价格 2 库存2 经济学2 文档编号按顺序排列(从小到大).现在我想为每个文档包含属于该文档的所有单词.现在它们站在一列中,但我想要 textDocument 中的所有单词(来自包 tm,因为它对于该包中的某些功能是必需的).我是这样做的: data 但是通过使用 ds[[1] ..
发布时间:2021-09-08 20:10:04 其他开发

如何使用stemCompletion函数(tm包)从字典中完成一个词干语料库

我在 R 的 tm 包中遇到了问题.我使用的是 0.6.2 版本.以下问题(2 个不同的错误)已经在此处和这里 但仍然产生使用发布的解决方案后出错.请点击此处下载数据集(仅限 93 行).这是一个可重复的例子.两个错误如下: (已解决) UseMethod("meta", x) 中的错误:没有适用于“元"的方法应用于“字符"类的对象 错误:inherits(doc, "TextDocu ..
发布时间:2021-09-08 20:10:02 其他开发

如何重新连接到 R tm 包中的 PCorpus?

我创建了一个 PCorpus,据我所知它存储在 HDD 上,代码如下: pc = PCorpus(vs, readerControl = list(language = "pl"), dbControl = list(dbName = "pcorpus", dbType = "DB1")) 我以后如何重新连接到该数据库? 解决方案 据我所知,你不能.“数据库"实际上是一个文件哈希对象, ..
发布时间:2021-09-08 20:09:56 其他开发

无法让 tm_map 使用 mc.cores 参数

我有一个包含超过 1000 万个文档的大型语料库.每当我尝试使用 mc.cores 参数对多个内核进行转换时,我都会收到错误: FUN(content(x), ...) 中的错误:未使用的参数 (mc.cores = 10) 我目前托管的 r 工作室中有 15 个可用内核. #我有一个语料库>检查(语料库[1])>元数据:语料库特定:0,文档级别(索引):0内容:文件:1 ..
发布时间:2021-09-08 20:09:50 其他开发

使用字典时 DocumentTermMatrix 计数错误

实际上,我正在尝试使用朴素贝叶斯算法基于 twitter 数据进行情感分析. 我查看了 2000 条推文. 将数据输入 R studio 后,我按如下方式拆分和预处理日期: train_size = floor(0.75 * nrow(Tweets_Model_Input))set.seed(123)train_sub = 样本(seq_len(nrow(Tweets_Model_I ..
发布时间:2021-09-08 20:09:48 其他开发

R 我如何使用 TermDocumentMatrix() 保留标点符号

我有一个大型数据框,我在其中识别字符串中的模式,然后提取它们.我提供了一个小的子集来说明我的任务.我通过创建一个包含多个单词的 TermDocumentMatrix 来生成我的模式.我将这些模式与 stringi 和 stringr 包中的 stri_extract 和 str_replace 一起使用,以在“punct_prob"数据框中进行搜索. 我的问题是我需要在 'punct_pro ..
发布时间:2021-09-08 20:09:45 其他开发

如何使用R中的元数据将语料库转换为data.frame

如何将语料库转换为 R 中还包含元数据的数据框?我已经尝试了 将语料库转换为 R 中的 data.frame 的建议,但结果数据框仅包含语料库中所有文档的文本行.我还需要文档 ID 以及两列中文本行的行号.那么,我该如何扩展这个命令:dataframe ..
发布时间:2021-09-08 20:09:42 其他开发

每项频率 - R TM DocumentTermMatrix

我对 R 非常陌生,无法完全理解 DocumentTermMatrixs.我有一个用 TM 包创建的 DocumentTermMatrix,它有术语频率和里面的术语,但我不知道如何访问它们. 理想情况下,我希望: 术语#“那个"200“是"400“一个"200 目前我的代码是: 库(tm)common.words ..
发布时间:2021-09-08 20:09:36 其他开发

Snowball Stemmer 只词干最后一个词

我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干.当我将 SnowballStemmer 函数应用于语料库的所有文档时,仅对每个文档的最后一个词进行词干. 图书馆(tm)图书馆(雪球)图书馆(RWeka)图书馆(rJava)path vec ..
发布时间:2021-09-08 20:09:31 其他开发

转换删除 R 中的文档错误

每当我运行此代码时,tm_map 行都会给我警告消息警告信息:在 tm_map.SimpleCorpus(docs, toSpace, "/") 中:转换删除文档 texts ..
发布时间:2021-09-08 20:09:28 其他开发

将分隔的字符串拆分为 R 数据框中的不同列

我需要一种快速而简洁的方法来将数据帧中的字符串文字拆分为一组列.假设我有这个数据框 data (请注意列之间的不同分隔符) 通常事先不知道字符串列的数量(尽管如果我没有其他选择,我可以尝试发现整个案例集) 我需要两个这样的数据框: tok1.occurrences:+----+---+---+---+---+---+---+|身份证 ||乙 || |d |电子 |+----+- ..
发布时间:2021-09-08 20:09:24 其他开发

尝试从 DocumentTermMatrix 中删除单词以使用主题模型

因此,我正在尝试将 topicmodels 包用于 R(大约 6400 个文档的语料库中的 100 个主题,每个文档大约 1000 个字).该进程运行然后死亡,我认为是因为它的内存不足. 所以我尝试缩小 lda() 函数作为输入的文档术语矩阵的大小;我想我可以在生成文档术语矩阵时使用 minDocFreq 函数来做到这一点.但是当我使用它时,它似乎没有任何区别.这是一些代码: 这是相关 ..
发布时间:2021-09-08 20:09:20 其他开发