tm相关内容
我正在尝试使用tm在R中的大数据上进行文本挖掘. 我经常遇到内存问题(例如can not allocation vector of size....),并使用解决这些问题的既定方法,例如 使用64位R 尝试不同的操作系统(Windows,Linux,Solaris等) 将memory.limit()设置为最大 确保服务器(有)上有足够的RAM和计算可用 自由使用gc() 分析
..
我有一个URL列表,并提取了以下内容: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text") extract.content=str_e
..
我正在尝试处理众所周知的Reuters-21578数据集,并且在将sgm文件加载到我的语料库时遇到了一些麻烦. 现在我正在使用命令 require(tm) reut21578
..
基本上我想使用wordcloud功能.我正在通过R控制台工作.但是如果那是我的话,我可以使用Rstudio. 当我使用 wordcloud(r_stats_text_corpus) Error: could not find function "wordcloud" 我也尝试过 library("wordcloud") Error in loadNamespace(i,
..
我是R和文本挖掘的新手.我已经从与某个术语相关的Twitter提要中形成了一个词云.我面临的问题是在wordcloud中它显示http:...或htt ... 我该如何处理 我尝试使用元字符*,但我仍然怀疑我是否正确使用它 tw.text = removeWords(tw.text,c(stopwords("en"),"rt","http \\ *")) 有人在挖掘文字,请帮我解决这个
..
我将大约50,000行varchar数据转换为一个语料库,然后使用TM程序包清理了该语料库,使用了停用词,标点符号和数字. 然后我将其转换为TermDocumentMatrix,并使用函数findFreqTerms和findMostFreqTerms进行文本分析. findMostFreqTerms返回常用字及其在数据中显示的次数. 但是,我想使用一个表示搜索"word"并返回"wor
..
我想为utf-8(实际上是哈萨克语)中的非英语文本创建一个wordcloud. 在tm软件包的inspect功能中,文本绝对正确地显示. 但是,当我搜索词频时,所有内容均显示不正确: 问题是文本显示为带编码字符而不是单词.西里尔字母正确显示.结果,wordcloud变得一团糟. 是否可以通过某种方式将编码分配给tm函数?我尝试了此,但是单独的文本很好,问题是使用tm软件包.
..
是否可以用字符串中的单个数字替换数字范围?数字范围可以是n-n,最可能是1-15,也可以是4-10. 可以用a)表示范围- a
..
我有两个数据集,评论数据和主题数据 我的评论数据 的代码 structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be given importance"), class = "factor")),
..
我正在尝试挖掘具有丰富pdf编码和图形的文章的pdf.我注意到,当我挖掘一些pdf文档时,我得到的高频单词是phi,taeoe,toe,sigma,gamma等.它与某些pdf文档一起使用时效果很好,但我与其他人却收到了这些随机的希腊字母.这是字符编码的问题吗? (顺便说一下,所有文件都是英文的).有什么建议? # Here is the link to pdf file for testi
..
我有许多PDF文档,已经将其阅读成库tm的语料库.一个人怎么能把语料分解成句子呢? 这可以通过从软件包qdap [*]中读取readLines和sentSplit的文件来完成.该功能需要一个数据框.它还将需要放弃语料库并单独读取所有文件. 如何在tm中的语料库上传递函数sentSplit {qdap}?还是有更好的方法?. 注意:库openNLP中有一个函数sentDetect,
..
我在一个文件夹中有近一千篇pdf期刊文章.我需要从整个文件夹中的所有文章摘要中获取文本信息.现在,我正在执行以下操作: dest
..
我正在对金融文章进行情绪分析.为了提高我的朴素贝叶斯分类器的准确性,我想实施求反处理. 具体来说,我想在"not"或"n't"之后的单词上添加前缀"not _" 所以如果我的语料库中有这样的内容: x
..
我正在使用tm软件包清理Twitter语料库.但是,该程序包无法清除表情符号. 这是重复的代码: July4th_clean
..
我正在尝试使用R中的tm包,并有一个客户反馈CSV文件,每一行都是不同的反馈实例.我想将此反馈的所有内容导入到语料库中,但我希望每一行都是语料库中的一个不同文档,以便可以在DocTerms矩阵中比较反馈.我的数据集中有超过10,000行. 最初我做了以下事情: fdbk_corpus
..
我正在尝试在IBM的Data Science Experience(DSX)上安装 tm 软件包: install.packages(“ tm”) 不过,我是遇到此问题: “无法使用“大满贯”依赖” 此帖子建议使用R版本 3.3.1将解决该问题,但是DSX上的R版本是: R版本3.3.0(2016-05-03) 如何在IBM DSX上解
..
我知道通过"tm"包在"R"工作空间中获取pdf的实际示例,但无法理解代码的工作方式,因此无法导入所需的pdf.在以下代码中导入的pdf是"tm"小插图. 代码是 if(file.exists(Sys.which("pdftotext"))) { pdf
..
我正在平台上使用R 3.0.1:x86_64-apple-darwin10.8.0(64位) 我正在尝试使用tm库中的tm_map.但是当我执行这段代码 library(tm) data('crude') tm_map(crude, stemDocument) 我收到此错误: Warning message: In parallel::mclapply(x, FUN, ...
..
我正在尝试安装"tm"软件包,但随后出现错误消息,说"tm"不适用于我的R版本 package ‘tm’ is not available (for R version 3.0.2) 但是后来我看到有人建议我从 下载存档版本 http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A ,然后尝试从源代码安装. 我的问题
..
我在数据框(df)中有一列,如下所示: > people = df$people > people[1:3] [1] "Christian Slater, Tara Reid, Stephen Dorff, Frank C. Turner" [2] "Ice Cube, Nia Long, Aleisha Allen, Philip Bolden"
..