tm相关内容

R中的TermDocumentMatrix错误

我一直在研究R中的许多{tm}包的在线示例,试图创建一个TermDocumentMatrix。创建和清理语料库非常简单,但当我尝试创建矩阵时,我总是遇到错误。错误为: UseMethod(“meta”,x)出错: 没有适用于“Character”类的对象的“meta”的方法 此外:警告消息: 在mclApply(unname(Content(X)),Term Freq,Control)中: ..
发布时间:2022-08-28 20:43:46 其他开发

使用多核时tm_map变换函数的行为不一致

这篇文章的另一个潜在标题可能是R中的并行处理,核心数、循环块大小和对象大小之间的比率重要吗?"; 我有一个语料库,我正在使用tm包运行一些转换。由于语料库很大,我使用的是多并行程序包的并行处理。 有时转换会执行任务,但有时不会。例如,tm::removeNumbers()。语料库中的第一个文档的内容值为&n417";。因此,如果预处理成功,则此文档将转换为仅&q;n&q ..
发布时间:2022-08-28 20:35:02 其他开发

如何确定哪个旧版本的 R 包与我的 R 版本兼容

我正在尝试安装“tm"包,但随后我收到一条错误消息,提示“tm"不适用于我的 R 版本 package ‘tm’ 不可用(对于 R 版本 3.0.2) 但后来我看到有人建议我从 下载存档版本 http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A 然后尝试从源安装. 我的问题是如何确定列表中的哪个文件与我的 R 版本兼容? ..
发布时间:2022-01-13 17:27:07 其他开发

根据字典数据框替换语料库中的单词

我有兴趣根据由两列数据框组成的字典替换 tm 语料库对象中的所有单词,其中第一列是要匹配的单词,第二列是替换词. 我坚持使用 translate 功能.我看到了 这个答案,但我无法将其转换为要传递给 tm_map 的函数. 请考虑以下 MWE 图书馆(tm)docs ..
发布时间:2022-01-02 17:54:46 其他开发

tm 包中的词干文档不适用于过去时词

我有一个文件“check_text.txt",其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ,如下所示,但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt'con ..
发布时间:2022-01-02 17:37:29 其他开发

如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

假设我有基于文本的训练数据和测试数据.更具体地说,我有两个数据集 - 训练和测试 - 它们都有一列包含文本并且对手头的工作感兴趣. 我在 R 中使用了 tm 包来处理训练数据集中的文本列.去除空格、标点符号和停用词后,我提取了语料库,最后创建了一个 1 克的文档术语矩阵,其中包含每个文档中单词的频率/计数.然后我采用了预先确定的截止值,比如 50,只保留那些计数大于 50 的术语. 在 ..
发布时间:2022-01-02 17:30:24 AI人工智能

R将语料库分解成句子

我有许多 PDF 文档,我已将它们读入带有库 tm 的语料库中.如何将语料库分解成句子? 这可以通过使用readLines 后跟sentSplit 从包qdap [*] 读取文件来完成.该功能需要一个数据框.它还需要放弃语料库并单独读取所有文件. 如何通过 tm 中的语料库传递函数 sentSplit {qdap}?或者有更好的方法吗? 注意:在库openNLP中有一个函数sen ..
发布时间:2021-12-28 12:16:15 其他开发

R tm 在 mclapply(content(x), FUN, ...) 中:所有调度的内核都遇到了用户代码中的错误

当我将以下代码运行到倒数第二行时,我收到警告消息: 在 mclapply(content(x), FUN, ...) 中:遇到的所有调度内核用户代码错误 当我运行最后一行时,我得到了 "使用方法错误(\"words\") : \n 没有适用的方法'words' 应用于类 \"character\"\n" attr(,"class") 的对象"尝试错误" attr(,"条件") ..
发布时间:2021-12-25 20:10:41 其他开发

使用 R 文本分析词干

我正在使用 TM 包进行大量分析.我最大的问题之一与词干和类似词干的转换有关. 假设我有几个与会计相关的术语(我知道拼写问题). 提取词干后,我们有: 账户 ->帐户帐户 ->帐户会计 ->帐户会计 ->帐户帐户 ->帐户帐户 ->帐户帐户 ->帐户 结果:3 个字词(帐户、帐户、帐户),其中我希望有 1 个(帐户),因为所有这些都与同一个字词相关. 1) 纠正拼写是可能的,但我 ..
发布时间:2021-12-22 20:04:28 其他开发

阿拉伯文字未显示在 R-

刚开始使用阿拉伯语的 R 语言,因为我计划使用 Hadith 语料库进行文本分析和文本挖掘.我一直在阅读与我的问题相关的主题,但仍然无法在这里获得真正的基础知识(抱歉,绝对是初学者). 所以,我输入:textarabic.v ..
发布时间:2021-11-17 01:26:28 其他开发

如何通过解析文档 ID 为语料库中的每个文档设置作者

我有一个像这样的 tm Corpus 对象: >摘要(corp.eng)一个包含 154 个文本文档的语料库元数据由 2 个标签值对和一个数据框组成可用的标签是:create_date 创建者数据框中的可用变量有:元ID 语料库中每个文档的元数据如下所示: >元(corp.eng[[1]])可用的元数据对是:作者 :日期时间戳:2013-04-18 14:37:24描述 :标题 ..
发布时间:2021-09-08 20:10:31 其他开发

如何打印存储在 R 中 tm 语料库中的单个文档的文本表示?

我使用的是 {tm} 包,然后使用 生成了一个语料库 corpus = Corpus(VectorSource(sample.words)) 然后我想检查语料库中的内容,但它打印了这个而不是它的文本: >语料库>元数据:语料库特定:0,文档级别(索引):0内容:文件:3933 现在我已经找到了一些查看语料库的方法,然后我开始想知道当一个对象被输入时R到底打印了什么 ..
发布时间:2021-09-08 20:10:28 其他开发

在 R 中按频率排列 Document Term Matrix 的单词

我很抱歉有新问题,但我是文本挖掘的新手,需要专业人士的建议.现在,经过 content_transformer 的长期折磨,我有干净的语料库下一个问题 1.如何从`dtm`中选取频率小的词,使频率不超过1% 例如我需要这种格式 x 数据集中所有单词的 0.5%y 0,2%0,3% 所以这里总频率总和 =1%这是怎么做的? 解决方案 您可以查看 tm 包的 termDocumentM ..
发布时间:2021-09-08 20:10:25 其他开发

使用 tm 函数时保留唯一标识符(例如,记录 ID) - 不适用于大量数据?

我正在处理非结构化文本 (Facebook) 数据,并对其进行预处理(例如,去除标点符号、去除停用词、词干提取).我需要在预处理时保留记录(即 Facebook 帖子)ID.我有一个适用于数据子集的解决方案,但所有数据都失败了(N = 127K 帖子).我试过对数据进行分块,但这也不起作用.我认为这与我使用变通方法并依赖行名称有关.例如,它似乎适用于前 ~15K 的帖子,但是当我继续进行子集化时, ..
发布时间:2021-09-08 20:10:22 其他开发

R: tm 包读取新闻组数据

下面的代码行返回以下错误: ">"找不到对象 'readNewsgroup' 图书馆(tm)setwd("C:/Users/DanRoDuq/Downloads/20news-bydate-train")sci.electr.train=Corpus(DirSource("sci.electronics"),readerControl=list(reader=readNewsgroup,l ..
发布时间:2021-09-08 20:10:19 其他开发