tm相关内容
我一直在研究R中的许多{tm}包的在线示例,试图创建一个TermDocumentMatrix。创建和清理语料库非常简单,但当我尝试创建矩阵时,我总是遇到错误。错误为: UseMethod(“meta”,x)出错: 没有适用于“Character”类的对象的“meta”的方法 此外:警告消息: 在mclApply(unname(Content(X)),Term Freq,Control)中:
..
这篇文章的另一个潜在标题可能是R中的并行处理,核心数、循环块大小和对象大小之间的比率重要吗?"; 我有一个语料库,我正在使用tm包运行一些转换。由于语料库很大,我使用的是多并行程序包的并行处理。 有时转换会执行任务,但有时不会。例如,tm::removeNumbers()。语料库中的第一个文档的内容值为&n417";。因此,如果预处理成功,则此文档将转换为仅&q;n&q
..
我正在尝试安装“tm"包,但随后我收到一条错误消息,提示“tm"不适用于我的 R 版本 package ‘tm’ 不可用(对于 R 版本 3.0.2) 但后来我看到有人建议我从 下载存档版本 http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A 然后尝试从源安装. 我的问题是如何确定列表中的哪个文件与我的 R 版本兼容?
..
我正在尝试制作出版物关键字的词云.例如:教育数据挖掘;协作学习;计算机科学...等 我目前的代码如下: KeywordsCorpus
..
我有兴趣根据由两列数据框组成的字典替换 tm 语料库对象中的所有单词,其中第一列是要匹配的单词,第二列是替换词. 我坚持使用 translate 功能.我看到了 这个答案,但我无法将其转换为要传递给 tm_map 的函数. 请考虑以下 MWE 图书馆(tm)docs
..
我有一个包含字符串的数据框,我想从中删除停用词.我试图避免使用 tm 包,因为它是一个大型数据集,并且 tm 似乎运行速度有点慢.我正在使用 tm stopword 字典. 库(plyr)图书馆(tm)stopWords
..
我有一个文件“check_text.txt",其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ,如下所示,但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt'con
..
假设我有基于文本的训练数据和测试数据.更具体地说,我有两个数据集 - 训练和测试 - 它们都有一列包含文本并且对手头的工作感兴趣. 我在 R 中使用了 tm 包来处理训练数据集中的文本列.去除空格、标点符号和停用词后,我提取了语料库,最后创建了一个 1 克的文档术语矩阵,其中包含每个文档中单词的频率/计数.然后我采用了预先确定的截止值,比如 50,只保留那些计数大于 50 的术语. 在
..
我在平台上使用 R 3.0.1:x86_64-apple-darwin10.8.0(64 位) 我正在尝试使用 tm 库中的 tm_map.但是当我执行这段代码时 图书馆(tm)数据('粗')tm_map(粗制,stemDocument) 我收到此错误: 警告信息:并行::mclapply(x, FUN, ...) :所有预定的内核都在用户代码中遇到错误 有人知道解决方案吗?
..
我有许多 PDF 文档,我已将它们读入带有库 tm 的语料库中.如何将语料库分解成句子? 这可以通过使用readLines 后跟sentSplit 从包qdap [*] 读取文件来完成.该功能需要一个数据框.它还需要放弃语料库并单独读取所有文件. 如何通过 tm 中的语料库传递函数 sentSplit {qdap}?或者有更好的方法吗? 注意:在库openNLP中有一个函数sen
..
当我将以下代码运行到倒数第二行时,我收到警告消息: 在 mclapply(content(x), FUN, ...) 中:遇到的所有调度内核用户代码错误 当我运行最后一行时,我得到了 "使用方法错误(\"words\") : \n 没有适用的方法'words' 应用于类 \"character\"\n" attr(,"class") 的对象"尝试错误" attr(,"条件")
..
我正在使用 TM 包进行大量分析.我最大的问题之一与词干和类似词干的转换有关. 假设我有几个与会计相关的术语(我知道拼写问题). 提取词干后,我们有: 账户 ->帐户帐户 ->帐户会计 ->帐户会计 ->帐户帐户 ->帐户帐户 ->帐户帐户 ->帐户 结果:3 个字词(帐户、帐户、帐户),其中我希望有 1 个(帐户),因为所有这些都与同一个字词相关. 1) 纠正拼写是可能的,但我
..
我想计算语料库作者之间的余弦距离.让我们以 20 个文档的语料库为例. require(tm)数据(“粗")长度(粗)# [1] 20 我想找出这20个文档之间的余弦距离(相似度).我用 创建了一个术语文档矩阵 tdm
..
刚开始使用阿拉伯语的 R 语言,因为我计划使用 Hadith 语料库进行文本分析和文本挖掘.我一直在阅读与我的问题相关的主题,但仍然无法在这里获得真正的基础知识(抱歉,绝对是初学者). 所以,我输入:textarabic.v
..
使用 R(3.2.5) 并加载以下包'SnowballC'、'tm'、'NLP'、'RWeka'、'RTextTools'、'wordcloud'、'fpc' carmenCorpus
..
我有一个像这样的 tm Corpus 对象: >摘要(corp.eng)一个包含 154 个文本文档的语料库元数据由 2 个标签值对和一个数据框组成可用的标签是:create_date 创建者数据框中的可用变量有:元ID 语料库中每个文档的元数据如下所示: >元(corp.eng[[1]])可用的元数据对是:作者 :日期时间戳:2013-04-18 14:37:24描述 :标题
..
我使用的是 {tm} 包,然后使用 生成了一个语料库 corpus = Corpus(VectorSource(sample.words)) 然后我想检查语料库中的内容,但它打印了这个而不是它的文本: >语料库>元数据:语料库特定:0,文档级别(索引):0内容:文件:3933 现在我已经找到了一些查看语料库的方法,然后我开始想知道当一个对象被输入时R到底打印了什么
..
我很抱歉有新问题,但我是文本挖掘的新手,需要专业人士的建议.现在,经过 content_transformer 的长期折磨,我有干净的语料库下一个问题 1.如何从`dtm`中选取频率小的词,使频率不超过1% 例如我需要这种格式 x 数据集中所有单词的 0.5%y 0,2%0,3% 所以这里总频率总和 =1%这是怎么做的? 解决方案 您可以查看 tm 包的 termDocumentM
..
我正在处理非结构化文本 (Facebook) 数据,并对其进行预处理(例如,去除标点符号、去除停用词、词干提取).我需要在预处理时保留记录(即 Facebook 帖子)ID.我有一个适用于数据子集的解决方案,但所有数据都失败了(N = 127K 帖子).我试过对数据进行分块,但这也不起作用.我认为这与我使用变通方法并依赖行名称有关.例如,它似乎适用于前 ~15K 的帖子,但是当我继续进行子集化时,
..
下面的代码行返回以下错误: ">"找不到对象 'readNewsgroup' 图书馆(tm)setwd("C:/Users/DanRoDuq/Downloads/20news-bydate-train")sci.electr.train=Corpus(DirSource("sci.electronics"),readerControl=list(reader=readNewsgroup,l
..