tm 第6页 - IT屋-程序员软件开发技术分享社区

使用 R 语料库保留文档 ID

我搜索了 stackoverflow 和网络，只能找到部分解决方案或一些由于 TM 或 qdap 的变化而不起作用的解决方案.问题如下: 我有一个数据框:ID 和 Text(简单的文档id/name，然后是一些text) 我有两个问题: 第 1 部分:如何创建 tdm 或 dtm 并维护文档名称/ID?它只在检查(tdm)上显示“字符(0)". 第 2 部分:我只想保留特定的术 ..

发布时间：2021-09-06 19:03:59 r text text-mining tm corpus 其他开发

使用 R 文本分析进行词干分析

我正在使用 TM 包进行大量分析.我最大的问题之一与词干和类似词干的转换有关. 假设我有几个与会计相关的术语(我知道拼写问题). 提取词干后，我们有: 账户 ->帐户帐户 ->帐户会计 ->帐户会计 ->帐户帐户 ->帐户帐户 ->帐户帐户 ->帐户结果:3 个字词(帐户、帐户、帐户)，其中我希望有 1 个(帐户)，因为所有这些都与同一个字词相关. 1) 纠正拼写是可能的，但我 ..

发布时间：2021-09-06 19:03:53 r text tm stemming 其他开发

应用 tm 方法“stemCompletion"时一个变量的多个结果；

我有一个语料库，其中包含 3 个变量(ID、标题、摘要)的 15 个观察值的期刊数据.使用 R Studio，我从 .csv 文件中读取了数据(每个观察一行).在执行一些文本挖掘操作时，我在使用方法 stemCompletion 时遇到了一些麻烦.在应用 stemCompletion 后，我观察到为 .csv 的每个词干行提供了三次结果.所有其他 tm 方法(例如 stemDocument)仅产生 ..

发布时间：2021-07-10 21:10:06 r rstudio tm stemming 其他开发

R tm 在 mclapply(content(x), FUN, ...) 中:所有已调度的内核在用户代码中都遇到错误

当我在倒数第二行运行以下代码时，我收到警告消息: 在 mclapply(content(x), FUN, ...) 中:遇到的所有调度内核用户代码错误当我运行最后一行时，我得到了 "使用方法错误(\"words\") : \n 没有适用的方法'words' 应用于类 \"character\"\n" attr(,"class") 的对象"尝试错误" attr(,"条件") ..

发布时间：2021-07-10 21:06:40 r twitter rstudio tm mclapply 其他开发

如何从 R 中仅包含几个单词的数据框中删除行?

我正在尝试从我的数据框中删除少于 5 个单词的行.例如 mydf 我想删除包含 5 个或更少单词的行.我该怎么做? 解决方案这里有两种方法: mydf[sapply(gregexpr("\\W+", mydf$ARTICLE), length) >4,]# 没有文章# 1 34 《纽约时报》在这里报道了很多词.#2 12 Greenwire 报告了很多字.# 4 2 《金融时 ..

发布时间：2021-07-10 20:02:06 r regex dataframe row tm 其他开发

R-Project 没有适用于“元"的方法应用于类“字符"的对象；

我正在尝试运行此代码(Ubuntu 12.04、R 3.1.1) # 加载必备包图书馆(tm)图书馆(ggplot2)图书馆(lsa)# 将安然电子邮件片段放入单个向量中.文本 ..

发布时间：2021-06-30 19:53:47 r text-mining tm 其他开发

在 R 中的语料库上删除停用词和降低功能

我有大约 75 MB 数据的语料库.我正在尝试使用以下命令 tm_map(doc.corpus, removeWords, stopwords("english"))tm_map(doc.corpus, tolower) 这两个单独的函数至少需要 40 分钟才能运行.我正在寻找加速过程，因为我正在为我的模型使用 tdm 矩阵. 我经常尝试像 gc() 和 memory.limit(100 ..

发布时间：2021-06-15 19:36:41 r performance text-mining tm 其他开发

R: tm Textmining 包:Doc-Level 元数据生成很慢

我有一个要处理的文档列表，对于每条记录，我想将一些元数据附加到 R 包 tm 生成的“语料库"数据结构内的文档“成员"(通过读取文本文件). 这个 for 循环有效，但速度很慢，性能似乎随着函数 f ~ 1/n_docs 而下降. for (i in seq(from= 1, to=length(corpus), by=1)){if(opts$options$verbose == TRUE ..

发布时间：2021-06-15 19:35:58 performance r tm 其他开发

在 R 中使用 N-Grams 创建文档术语矩阵

我正在使用“tm"包在 R 中创建 DocumentTermMatrix.它适用于一克，但我正在尝试使用 tm 包和来自“的 tokenize_ngrams 函数创建 N-Grams 的 DocumenttermMatrix(N = 3)标记器"包.但我无法创建它. 我搜索了可能的解决方案，但没有得到太多帮助.出于隐私原因，我无法共享数据.这是我尝试过的，图书馆(tm)图书馆(分词器) ..

发布时间：2021-06-07 20:40:30 r nlp tokenize tm n-gram 其他开发

带有语料库的DocumentTermMatrix中的德语问题

我使用软件包tm在R中创建了一个语料库，指定了语言和编码，如下所示: de_DE.corpus ..

发布时间：2021-05-04 19:16:26 r encoding utf-8 tm 其他开发

如何使用tm创建* .docx文件的语料库?

我有MS Word文档的混合文件类型集合.有些文件是* .doc，有些是* .docx.我正在学习使用 tm ，并且我(或多或少*)使用以下方法成功创建了一个由* .doc文件组成的语料库: ex_eng ..

发布时间：2021-05-02 20:06:23 r docx tm 其他开发

tm自定义removePunctuation(井号除外)

我有来自Twitter的推文集.我清理了这个语料库(removeWords，tolower，删除URls)，最后也想删除标点符号. 这是我的代码: tweetCorpus ..

发布时间：2021-04-27 20:38:33 r customization text-processing tm punctuation 其他开发

在R中使用余弦距离的层次聚类

我想通过与文档主体的R编程语言使用余弦相似度来进行层次聚类，但是出现以下错误: if(is.na(n)|| n> 65536L)stop("size不能为NA或超过65536“):缺少值，需要TRUE/FALSE 我该怎么办? 要重现它，下面是一个示例: library(tm) doc ..

发布时间：2020-11-23 04:58:35 r tm hierarchical-clustering 其他开发

根据特定的兴趣词绘制高度相关的词

我正在尝试绘制单词的最高相关性.例如，我想绘制单词"whale"的最高十个相关性.有人可以为我提供类似命令的帮助吗?如果有帮助，我已经安装了RGraphViz. s.dir1 ..

发布时间：2020-11-20 19:07:59 r graphviz tm 其他开发

遍历tm语料库而不会丢失语料库结构

我有一个tm语料库和一个单词列表.我想在语料库上运行一个for循环，以便该循环从语料库中顺序删除列表中的每个单词. 一些复制数据: library(tm) m ..

发布时间：2020-11-10 00:37:14 r for-loop tm 其他开发

设置编码以将文本文件读入tm Corpora

使用tm Corpus加载一堆文档，我需要指定编码。所有文档都是UTF-8编码的。如果通过文本编辑器的openend内容还可以，但是语料库内容中充满了奇怪的符号（indicio。，“sœs....”）源文本为西班牙语。 ES_es library（tm） cname ..

发布时间：2020-10-29 06:52:39 text encoding text-mining tm corpus 其他开发

使用R的文本挖掘程序包保留土耳其语字符

首先让我说我仍然是R的初学者。目前，我正在尝试使用tm包尝试土耳其文本的基本文本挖掘技术。但是，在R中显示土耳其语字符时遇到了问题。这是我所做的： docs ..

发布时间：2020-10-29 06:44:18 r encoding utf-8 tm 其他开发

在R中使用tm包查找关键短语

我有一个项目，要求我搜索各个公司的年度报告并在其中找到关键短语。我已将报告转换为文本文件，创建并清理了语料库。然后，我创建了一个文档术语矩阵。 tm_term_score函数似乎仅适用于单个单词而不适用于短语。是否可以在语料库中搜索关键短语（不一定是最常用的短语）？例如- 我想查看每个文档中“供应链财务”一词的次数在语料库中。但是，当我使用tm_term_score运行代码时-它返回 ..

发布时间：2020-10-17 22:01:06 r data-mining text-mining tm AI人工智能

主题模型：对数似然或困惑的交叉验证

我正在使用主题建模对文档进行聚类。我需要提出最佳主题编号。因此，我决定针对主题10、20，... 60进行十次交叉验证。我将语料库分为十批，并预留了一批用于保持集。我使用主题为10到60的9个批次（共180个文档）进行了潜在狄利克雷分配（LDA）。现在，我必须计算保留集的困惑或对数可能性。我发现此代码。我真的不明白下面的几行代码。我有使用保持集（20个文档）的dtm矩阵。但我不知道 ..

发布时间：2020-10-11 19:48:20 r tm cross-validation topic-modeling 其他开发

支持向量机适用于R中的训练集，但不适用于R中的测试集（使用e1071）

我正在使用支持向量机执行文档分类任务！它将我的所有文章归入训练集中，但未能归类到我的测试集中！ trainDTM是我的训练集的文档术语矩阵。 testDTM是用于测试装置的套件。这是我的代码（不是很漂亮）：＃创建带有标签句子 $的data.frame b $ b标为 ..

发布时间：2020-10-02 03:10:36 r classification svm text-mining tm 其他开发

tm相关内容