tm相关内容

在R中对大数据使用tm的语料库功能

我正在尝试使用tm在R中的大数据上进行文本挖掘. 我经常遇到内存问题(例如can not allocation vector of size....),并使用解决这些问题的既定方法,例如 使用64位R 尝试不同的操作系统(Windows,Linux,Solaris等) 将memory.limit()设置为最大 确保服务器(有)上有足够的RAM和计算可用 自由使用gc() 分析 ..
发布时间:2020-09-20 19:37:23 其他开发

绑定字符向量以列出到数据帧中

我有一个URL列表,并提取了以下内容: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text") extract.content=str_e ..
发布时间:2020-09-18 19:16:09 其他开发

使用R中的tm包进行文本挖掘,删除以[http]开头的单词或任何其他特定单词

我是R和文本挖掘的新手.我已经从与某个术语相关的Twitter提要中形成了一个词云.我面临的问题是在wordcloud中它显示http:...或htt ... 我该如何处理 我尝试使用元字符*,但我仍然怀疑我是否正确使用它 tw.text = removeWords(tw.text,c(stopwords("en"),"rt","http \\ *")) 有人在挖掘文字,请帮我解决这个 ..
发布时间:2020-07-24 09:21:31 其他开发

使用TM包在R TermDocumentMatrix中查找自定义单词的频率

我将大约50,000行varchar数据转换为一个语料库,然后使用TM程序包清理了该语料库,使用了停用词,标点符号和数字. 然后我将其转换为TermDocumentMatrix,并使用函数findFreqTerms和findMostFreqTerms进行文本分析. findMostFreqTerms返回常用字及其在数据中显示的次数. 但是,我想使用一个表示搜索"word"并返回"wor ..
发布时间:2020-07-14 06:16:36 其他开发

rtm软件包:utf-8文字

我想为utf-8(实际上是哈萨克语)中的非英语文本创建一个wordcloud. 在tm软件包的inspect功能中,文本绝对正确地显示. 但是,当我搜索词频时,所有内容均显示不正确: 问题是文本显示为带编码字符而不是单词.西里尔字母正确显示.结果,wordcloud变得一团糟. 是否可以通过某种方式将编码分配给tm函数?我尝试了此,但是单独的文本很好,问题是使用tm软件包. ..
发布时间:2020-07-13 04:35:09 其他开发

在R中映射审阅主题

我有两个数据集,评论数据和主题数据 我的评论数据 的代码 structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be given importance"), class = "factor")), ..
发布时间:2020-07-11 01:24:25 其他开发

使用词频进行文本挖掘pdf文件/问题

我正在尝试挖掘具有丰富pdf编码和图形的文章的pdf.我注意到,当我挖掘一些pdf文档时,我得到的高频单词是phi,taeoe,toe,sigma,gamma等.它与某些pdf文档一起使用时效果很好,但我与其他人却收到了这些随机的希腊字母.这是字符编码的问题吗? (顺便说一下,所有文件都是英文的).有什么建议? # Here is the link to pdf file for testi ..
发布时间:2020-07-11 00:19:58 其他开发

R将语料库分解为句子

我有许多PDF文档,已经将其阅读成库tm的语料库.一个人怎么能把语料分解成句子呢? 这可以通过从软件包qdap [*]中读取readLines和sentSplit的文件来完成.该功能需要一个数据框.它还将需要放弃语料库并单独读取所有文件. 如何在tm中的语料库上传递函数sentSplit {qdap}?还是有更好的方法?. 注意:库openNLP中有一个函数sentDetect, ..
发布时间:2020-07-06 23:21:58 其他开发

来自CSV文件的R文本挖掘文档(每个文档一行)

我正在尝试使用R中的tm包,并有一个客户反馈CSV文件,每一行都是不同的反馈实例.我想将此反馈的所有内容导入到语料库中,但我希望每一行都是语料库中的一个不同文档,以便可以在DocTerms矩阵中比较反馈.我的数据集中有超过10,000行. 最初我做了以下事情: fdbk_corpus ..
发布时间:2020-06-12 19:00:59 其他开发

通过软件包"tm"在R中导入pdf.

我知道通过"tm"包在"R"工作空间中获取pdf的实际示例,但无法理解代码的工作方式,因此无法导入所需的pdf.在以下代码中导入的pdf是"tm"小插图. 代码是 if(file.exists(Sys.which("pdftotext"))) { pdf ..
发布时间:2020-05-25 04:38:22 其他开发

如何确定哪个R软件包的较旧版本与我的R版本兼容

我正在尝试安装"tm"软件包,但随后出现错误消息,说"tm"不适用于我的R版本 package ‘tm’ is not available (for R version 3.0.2) 但是后来我看到有人建议我从 下载存档版本 http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A ,然后尝试从源代码安装. 我的问题 ..
发布时间:2020-05-23 19:26:58 其他开发