tm - IT屋-程序员软件开发技术分享社区

R中的TermDocumentMatrix错误

我一直在研究R中的许多{tm}包的在线示例，试图创建一个TermDocumentMatrix。创建和清理语料库非常简单，但当我尝试创建矩阵时，我总是遇到错误。错误为： UseMethod(“meta”，x)出错：没有适用于“Character”类的对象的“meta”的方法此外：警告消息：在mclApply(unname(Content(X))，Term Freq，Control)中： ..

发布时间：2022-08-28 20:43:46 r text-mining tm corpus term-document-matrix 其他开发

使用多核时tm_map变换函数的行为不一致

这篇文章的另一个潜在标题可能是R中的并行处理，核心数、循环块大小和对象大小之间的比率重要吗？"；我有一个语料库，我正在使用tm包运行一些转换。由于语料库很大，我使用的是多并行程序包的并行处理。有时转换会执行任务，但有时不会。例如，tm::removeNumbers()。语料库中的第一个文档的内容值为&n417"；。因此，如果预处理成功，则此文档将转换为仅&q；n&q ..

发布时间：2022-08-28 20:35:02 r parallel-processing text-mining tm doparallel 其他开发

如何确定哪个旧版本的 R 包与我的 R 版本兼容

我正在尝试安装“tm"包，但随后我收到一条错误消息，提示“tm"不适用于我的 R 版本 package ‘tm’ 不可用(对于 R 版本 3.0.2) 但后来我看到有人建议我从下载存档版本 http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A 然后尝试从源安装. 我的问题是如何确定列表中的哪个文件与我的 R 版本兼容? ..

发布时间：2022-01-13 17:27:07 r package tm 其他开发

制作词云，但使用组合词?

我正在尝试制作出版物关键字的词云.例如:教育数据挖掘；协作学习；计算机科学...等我目前的代码如下: KeywordsCorpus ..

发布时间：2022-01-02 17:54:55 r nlp tm word-cloud snowball 其他开发

根据字典数据框替换语料库中的单词

我有兴趣根据由两列数据框组成的字典替换 tm 语料库对象中的所有单词，其中第一列是要匹配的单词，第二列是替换词. 我坚持使用 translate 功能.我看到了这个答案，但我无法将其转换为要传递给 tm_map 的函数. 请考虑以下 MWE 图书馆(tm)docs ..

发布时间：2022-01-02 17:54:46 r nlp tm 其他开发

R 使用 %in% 从字符向量中删除停用词

我有一个包含字符串的数据框，我想从中删除停用词.我试图避免使用 tm 包，因为它是一个大型数据集，并且 tm 似乎运行速度有点慢.我正在使用 tm stopword 字典. 库(plyr)图书馆(tm)stopWords ..

发布时间：2022-01-02 17:53:46 r nlp subset tm stop-words 其他开发

tm 包中的词干文档不适用于过去时词

我有一个文件“check_text.txt"，其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ，如下所示，但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢！ filename = 'check_text.txt'con ..

发布时间：2022-01-02 17:37:29 r nlp tm stemming snowball 其他开发

如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

假设我有基于文本的训练数据和测试数据.更具体地说，我有两个数据集 - 训练和测试 - 它们都有一列包含文本并且对手头的工作感兴趣. 我在 R 中使用了 tm 包来处理训练数据集中的文本列.去除空格、标点符号和停用词后，我提取了语料库，最后创建了一个 1 克的文档术语矩阵，其中包含每个文档中单词的频率/计数.然后我采用了预先确定的截止值，比如 50，只保留那些计数大于 50 的术语. 在 ..

发布时间：2022-01-02 17:30:24 r machine-learning nlp text-mining tm AI人工智能

tm_map 在 Mac 上的 R 3.0.1 中存在 parallel::mclapply 错误

我在平台上使用 R 3.0.1:x86_64-apple-darwin10.8.0(64 位) 我正在尝试使用 tm 库中的 tm_map.但是当我执行这段代码时图书馆(tm)数据('粗')tm_map(粗制，stemDocument) 我收到此错误: 警告信息:并行::mclapply(x, FUN, ...) :所有预定的内核都在用户代码中遇到错误有人知道解决方案吗? ..

发布时间：2021-12-30 21:14:00 r parallel-processing tm mclapply 其他开发

R将语料库分解成句子

我有许多 PDF 文档，我已将它们读入带有库 tm 的语料库中.如何将语料库分解成句子? 这可以通过使用readLines 后跟sentSplit 从包qdap [*] 读取文件来完成.该功能需要一个数据框.它还需要放弃语料库并单独读取所有文件. 如何通过 tm 中的语料库传递函数 sentSplit {qdap}?或者有更好的方法吗? 注意:在库openNLP中有一个函数sen ..

发布时间：2021-12-28 12:16:15 r split tm sentence qdap 其他开发

R tm 在 mclapply(content(x), FUN, ...) 中:所有调度的内核都遇到了用户代码中的错误

当我将以下代码运行到倒数第二行时，我收到警告消息: 在 mclapply(content(x), FUN, ...) 中:遇到的所有调度内核用户代码错误当我运行最后一行时，我得到了 "使用方法错误(\"words\") : \n 没有适用的方法'words' 应用于类 \"character\"\n" attr(,"class") 的对象"尝试错误" attr(,"条件") ..

发布时间：2021-12-25 20:10:41 r twitter rstudio tm mclapply 其他开发

使用 R 文本分析词干

我正在使用 TM 包进行大量分析.我最大的问题之一与词干和类似词干的转换有关. 假设我有几个与会计相关的术语(我知道拼写问题). 提取词干后，我们有: 账户 ->帐户帐户 ->帐户会计 ->帐户会计 ->帐户帐户 ->帐户帐户 ->帐户帐户 ->帐户结果:3 个字词(帐户、帐户、帐户)，其中我希望有 1 个(帐户)，因为所有这些都与同一个字词相关. 1) 纠正拼写是可能的，但我 ..

发布时间：2021-12-22 20:04:28 r text tm stemming 其他开发

R:使用 tm 和代理计算术语文档矩阵的余弦距离

我想计算语料库作者之间的余弦距离.让我们以 20 个文档的语料库为例. require(tm)数据(“粗")长度(粗)# [1] 20 我想找出这20个文档之间的余弦距离(相似度).我用创建了一个术语文档矩阵 tdm ..

发布时间：2021-12-18 23:53:00 r matrix proxy tm 其他开发

阿拉伯文字未显示在 R-

刚开始使用阿拉伯语的 R 语言，因为我计划使用 Hadith 语料库进行文本分析和文本挖掘.我一直在阅读与我的问题相关的主题，但仍然无法在这里获得真正的基础知识(抱歉，绝对是初学者). 所以，我输入:textarabic.v ..

发布时间：2021-11-17 01:26:28 r nlp arabic tm 其他开发

使用 tm 包和 dtm/wordclouds 抛出新错误

使用 R(3.2.5) 并加载以下包'SnowballC'、'tm'、'NLP'、'RWeka'、'RTextTools'、'wordcloud'、'fpc' carmenCorpus ..

发布时间：2021-09-08 20:10:34 r tm word-cloud 其他开发

如何通过解析文档 ID 为语料库中的每个文档设置作者

我有一个像这样的 tm Corpus 对象: >摘要(corp.eng)一个包含 154 个文本文档的语料库元数据由 2 个标签值对和一个数据框组成可用的标签是:create_date 创建者数据框中的可用变量有:元ID 语料库中每个文档的元数据如下所示: >元(corp.eng[[1]])可用的元数据对是:作者 :日期时间戳:2013-04-18 14:37:24描述 :标题 ..

发布时间：2021-09-08 20:10:31 r tm 其他开发

如何打印存储在 R 中 tm 语料库中的单个文档的文本表示?

我使用的是 {tm} 包，然后使用生成了一个语料库 corpus = Corpus(VectorSource(sample.words)) 然后我想检查语料库中的内容，但它打印了这个而不是它的文本: >语料库>元数据:语料库特定:0，文档级别(索引):0内容:文件:3933 现在我已经找到了一些查看语料库的方法，然后我开始想知道当一个对象被输入时R到底打印了什么 ..

发布时间：2021-09-08 20:10:28 tm 其他开发

在 R 中按频率排列 Document Term Matrix 的单词

我很抱歉有新问题，但我是文本挖掘的新手，需要专业人士的建议.现在，经过 content_transformer 的长期折磨，我有干净的语料库下一个问题 1.如何从`dtm`中选取频率小的词，使频率不超过1% 例如我需要这种格式 x 数据集中所有单词的 0.5%y 0,2%0,3% 所以这里总频率总和 =1%这是怎么做的? 解决方案您可以查看 tm 包的 termDocumentM ..

发布时间：2021-09-08 20:10:25 r tm 其他开发

使用 tm 函数时保留唯一标识符(例如，记录 ID) - 不适用于大量数据?

我正在处理非结构化文本 (Facebook) 数据，并对其进行预处理(例如，去除标点符号、去除停用词、词干提取).我需要在预处理时保留记录(即 Facebook 帖子)ID.我有一个适用于数据子集的解决方案，但所有数据都失败了(N = 127K 帖子).我试过对数据进行分块，但这也不起作用.我认为这与我使用变通方法并依赖行名称有关.例如，它似乎适用于前 ~15K 的帖子，但是当我继续进行子集化时， ..

发布时间：2021-09-08 20:10:22 r tm 其他开发

R: tm 包读取新闻组数据

下面的代码行返回以下错误: ">"找不到对象 'readNewsgroup' 图书馆(tm)setwd("C:/Users/DanRoDuq/Downloads/20news-bydate-train")sci.electr.train=Corpus(DirSource("sci.electronics"),readerControl=list(reader=readNewsgroup,l ..

发布时间：2021-09-08 20:10:19 r tm newsgroup 其他开发

tm相关内容