tm相关内容

使用 R 语料库保留文档 ID

我搜索了 stackoverflow 和网络,只能找到部分解决方案或一些由于 TM 或 qdap 的变化而不起作用的解决方案.问题如下: 我有一个数据框:ID 和 Text(简单的文档id/name,然后是一些text) 我有两个问题: 第 1 部分:如何创建 tdm 或 dtm 并维护文档名称/ID?它只在检查(tdm)上显示“字符(0)". 第 2 部分:我只想保留特定的术 ..
发布时间:2021-09-06 19:03:59 其他开发

使用 R 文本分析进行词干分析

我正在使用 TM 包进行大量分析.我最大的问题之一与词干和类似词干的转换有关. 假设我有几个与会计相关的术语(我知道拼写问题). 提取词干后,我们有: 账户 ->帐户帐户 ->帐户会计 ->帐户会计 ->帐户帐户 ->帐户帐户 ->帐户帐户 ->帐户 结果:3 个字词(帐户、帐户、帐户),其中我希望有 1 个(帐户),因为所有这些都与同一个字词相关. 1) 纠正拼写是可能的,但我 ..
发布时间:2021-09-06 19:03:53 其他开发

应用 tm 方法“stemCompletion"时一个变量的多个结果;

我有一个语料库,其中包含 3 个变量(ID、标题、摘要)的 15 个观察值的期刊数据.使用 R Studio,我从 .csv 文件中读取了数据(每个观察一行).在执行一些文本挖掘操作时,我在使用方法 stemCompletion 时遇到了一些麻烦.在应用 stemCompletion 后,我观察到为 .csv 的每个词干行提供了三次结果.所有其他 tm 方法(例如 stemDocument)仅产生 ..
发布时间:2021-07-10 21:10:06 其他开发

R tm 在 mclapply(content(x), FUN, ...) 中:所有已调度的内核在用户代码中都遇到错误

当我在倒数第二行运行以下代码时,我收到警告消息: 在 mclapply(content(x), FUN, ...) 中:遇到的所有调度内核用户代码错误 当我运行最后一行时,我得到了 "使用方法错误(\"words\") : \n 没有适用的方法'words' 应用于类 \"character\"\n" attr(,"class") 的对象"尝试错误" attr(,"条件") ..
发布时间:2021-07-10 21:06:40 其他开发

如何从 R 中仅包含几个单词的数据框中删除行?

我正在尝试从我的数据框中删除少于 5 个单词的行.例如 mydf 我想删除包含 5 个或更少单词的行.我该怎么做? 解决方案 这里有两种方法: mydf[sapply(gregexpr("\\W+", mydf$ARTICLE), length) >4,]# 没有文章# 1 34 《纽约时报》在这里报道了很多词.#2 12 Greenwire 报告了很多字.# 4 2 《金融时 ..
发布时间:2021-07-10 20:02:06 其他开发

在 R 中的语料库上删除停用词和降低功能

我有大约 75 MB 数据的语料库.我正在尝试使用以下命令 tm_map(doc.corpus, removeWords, stopwords("english"))tm_map(doc.corpus, tolower) 这两个单独的函数至少需要 40 分钟才能运行.我正在寻找加速过程,因为我正在为我的模型使用 tdm 矩阵. 我经常尝试像 gc() 和 memory.limit(100 ..
发布时间:2021-06-15 19:36:41 其他开发

R: tm Textmining 包:Doc-Level 元数据生成很慢

我有一个要处理的文档列表,对于每条记录,我想将一些元数据附加到 R 包 tm 生成的“语料库"数据结构内的文档“成员"(通过读取文本文件). 这个 for 循环有效,但速度很慢,性能似乎随着函数 f ~ 1/n_docs 而下降. for (i in seq(from= 1, to=length(corpus), by=1)){if(opts$options$verbose == TRUE ..
发布时间:2021-06-15 19:35:58 其他开发

在 R 中使用 N-Grams 创建文档术语矩阵

我正在使用“tm"包在 R 中创建 DocumentTermMatrix.它适用于一克,但我正在尝试使用 tm 包和来自“的 tokenize_ngrams 函数创建 N-Grams 的 DocumenttermMatrix(N = 3)标记器"包.但我无法创建它. 我搜索了可能的解决方案,但没有得到太多帮助.出于隐私原因,我无法共享数据.这是我尝试过的, 图书馆(tm)图书馆(分词器) ..
发布时间:2021-06-07 20:40:30 其他开发

如何使用tm创建* .docx文件的语料库?

我有MS Word文档的混合文件类型集合.有些文件是* .doc,有些是* .docx.我正在学习使用 tm ,并且我(或多或少*)使用以下方法成功创建了一个由* .doc文件组成的语料库: ex_eng ..
发布时间:2021-05-02 20:06:23 其他开发

在R中使用余弦距离的层次聚类

我想通过与文档主体的R编程语言使用余弦相似度来进行层次聚类,但是出现以下错误: if(is.na(n)|| n> 65536L)stop("size不能为NA或 超过65536“):缺少值,需要TRUE/FALSE 我该怎么办? 要重现它,下面是一个示例: library(tm) doc ..
发布时间:2020-11-23 04:58:35 其他开发

在R中使用tm包查找关键短语

我有一个项目,要求我搜索各个公司的年度报告并在其中找到关键短语。我已将报告转换为文本文件,创建并清理了语料库。然后,我创建了一个文档术语矩阵。 tm_term_score函数似乎仅适用于单个单词而不适用于短语。是否可以在语料库中搜索关键短语(不一定是最常用的短语)? 例如- 我想查看每个文档中“供应链财务”一词的次数在语料库中。但是,当我使用tm_term_score运行代码时-它返回 ..
发布时间:2020-10-17 22:01:06 AI人工智能

主题模型:对数似然或困惑的交叉验证

我正在使用主题建模对文档进行聚类。我需要提出最佳主题编号。因此,我决定针对主题10、20,... 60进行十次交叉验证。 我将语料库分为十批,并预留了一批用于保持集。我使用主题为10到60的9个批次(共180个文档)进行了潜在狄利克雷分配(LDA)。现在,我必须计算保留集的困惑或对数可能性。 我发现此代码。我真的不明白下面的几行代码。我有使用保持集(20个文档)的dtm矩阵。但我不知道 ..
发布时间:2020-10-11 19:48:20 其他开发

支持向量机适用于R中的训练集,但不适用于R中的测试集(使用e1071)

我正在使用支持向量机执行文档分类任务!它将我的所有文章归入训练集中,但未能归类到我的测试集中! trainDTM是我的训练集的文档术语矩阵。 testDTM是用于测试装置的套件。 这是我的代码(不是很漂亮): #创建带有标签句子 $的data.frame b $ b标为 ..
发布时间:2020-10-02 03:10:36 其他开发