tm 第7页 - IT屋-程序员软件开发技术分享社区

在R中对大数据使用tm的语料库功能

我正在尝试使用tm在R中的大数据上进行文本挖掘. 我经常遇到内存问题(例如can not allocation vector of size....)，并使用解决这些问题的既定方法，例如使用64位R 尝试不同的操作系统(Windows，Linux，Solaris等) 将memory.limit()设置为最大确保服务器(有)上有足够的RAM和计算可用自由使用gc() 分析 ..

发布时间：2020-09-20 19:37:23 r bigdata text-mining tm 其他开发

我有一个URL列表，并提取了以下内容: library(httr) link="http://www.workerspower.net/disposable-workers-the-real-price-of-sweat-shop-labor" get.link=GET(link) get.content=content(x2,as="text") extract.content=str_e ..

发布时间：2020-09-18 19:16:09 r base tm httr 其他开发

使用R进行文本挖掘Reuters-21578

我正在尝试处理众所周知的Reuters-21578数据集，并且在将sgm文件加载到我的语料库时遇到了一些麻烦. 现在我正在使用命令 require(tm) reut21578 ..

发布时间：2020-07-31 05:29:25 r corpus tm reuters 其他开发

loadNamespace(i，c(lib.loc，.libPaths())，versionCheck = vI [[i]])中的错误:没有名为"Rcpp"的软件包

基本上我想使用wordcloud功能.我正在通过R控制台工作.但是如果那是我的话，我可以使用Rstudio. 当我使用 wordcloud(r_stats_text_corpus) Error: could not find function "wordcloud" 我也尝试过 library("wordcloud") Error in loadNamespace(i, ..

发布时间：2020-07-31 04:41:02 r tm word-cloud rcpp11 其他开发

使用R中的tm包进行文本挖掘，删除以[http]开头的单词或任何其他特定单词

我是R和文本挖掘的新手.我已经从与某个术语相关的Twitter提要中形成了一个词云.我面临的问题是在wordcloud中它显示http:...或htt ... 我该如何处理我尝试使用元字符*，但我仍然怀疑我是否正确使用它 tw.text = removeWords(tw.text，c(stopwords("en")，"rt"，"http \\ *")) 有人在挖掘文字，请帮我解决这个 ..

发布时间：2020-07-24 09:21:31 r text-mining tm word-cloud metacharacters 其他开发

使用TM包在R TermDocumentMatrix中查找自定义单词的频率

我将大约50,000行varchar数据转换为一个语料库，然后使用TM程序包清理了该语料库，使用了停用词，标点符号和数字. 然后我将其转换为TermDocumentMatrix，并使用函数findFreqTerms和findMostFreqTerms进行文本分析. findMostFreqTerms返回常用字及其在数据中显示的次数. 但是，我想使用一个表示搜索"word"并返回"wor ..

发布时间：2020-07-14 06:16:36 r tm corpus word-frequency term-document-matrix 其他开发

rtm软件包:utf-8文字

我想为utf-8(实际上是哈萨克语)中的非英语文本创建一个wordcloud. 在tm软件包的inspect功能中，文本绝对正确地显示. 但是，当我搜索词频时，所有内容均显示不正确: 问题是文本显示为带编码字符而不是单词.西里尔字母正确显示.结果，wordcloud变得一团糟. 是否可以通过某种方式将编码分配给tm函数?我尝试了此，但是单独的文本很好，问题是使用tm软件包. ..

发布时间：2020-07-13 04:35:09 r utf-8 tm 其他开发

用字符串中的单个数字替换数字范围

是否可以用字符串中的单个数字替换数字范围?数字范围可以是n-n，最可能是1-15，也可以是4-10. 可以用a)表示范围- a ..

发布时间：2020-07-11 01:24:32 r text replace tm tidytext 其他开发

在R中映射审阅主题

我有两个数据集，评论数据和主题数据我的评论数据的代码 structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be given importance"), class = "factor")), ..

发布时间：2020-07-11 01:24:25 r dplyr text-mining tm tidytext 其他开发

使用词频进行文本挖掘pdf文件/问题

我正在尝试挖掘具有丰富pdf编码和图形的文章的pdf.我注意到，当我挖掘一些pdf文档时，我得到的高频单词是phi，taeoe，toe，sigma，gamma等.它与某些pdf文档一起使用时效果很好，但我与其他人却收到了这些随机的希腊字母.这是字符编码的问题吗? (顺便说一下，所有文件都是英文的).有什么建议? # Here is the link to pdf file for testi ..

发布时间：2020-07-11 00:19:58 r pdf ghostscript tm text-recognition 其他开发

R将语料库分解为句子

我有许多PDF文档，已经将其阅读成库tm的语料库.一个人怎么能把语料分解成句子呢? 这可以通过从软件包qdap [*]中读取readLines和sentSplit的文件来完成.该功能需要一个数据框.它还将需要放弃语料库并单独读取所有文件. 如何在tm中的语料库上传递函数sentSplit {qdap}?还是有更好的方法?. 注意:库openNLP中有一个函数sentDetect， ..

发布时间：2020-07-06 23:21:58 r split tm sentence qdap 其他开发

使用R将PDF文件转换为文本文件以进行文本挖掘

我在一个文件夹中有近一千篇pdf期刊文章.我需要从整个文件夹中的所有文章摘要中获取文本信息.现在，我正在执行以下操作: dest ..

发布时间：2020-07-02 20:02:06 r text-mining tm pdftotext 其他开发

R中的否定处理，如何替换R中的否定词?

我正在对金融文章进行情绪分析.为了提高我的朴素贝叶斯分类器的准确性，我想实施求反处理. 具体来说，我想在"not"或"n't"之后的单词上添加前缀"not _" 所以如果我的语料库中有这样的内容: x ..

发布时间：2020-07-01 04:42:02 r text-mining sentiment-analysis tm negation 其他开发

使用tm包删除R中的表情

我正在使用tm软件包清理Twitter语料库.但是，该程序包无法清除表情符号. 这是重复的代码: July4th_clean ..

发布时间：2020-06-13 19:15:09 r sentiment-analysis tm emoticons 其他开发

来自CSV文件的R文本挖掘文档(每个文档一行)

我正在尝试使用R中的tm包，并有一个客户反馈CSV文件，每一行都是不同的反馈实例.我想将此反馈的所有内容导入到语料库中，但我希望每一行都是语料库中的一个不同文档，以便可以在DocTerms矩阵中比较反馈.我的数据集中有超过10,000行. 最初我做了以下事情: fdbk_corpus ..

发布时间：2020-06-12 19:00:59 r text-mining documents corpus tm 其他开发

install.packages（“ tm”）-> “依赖性'slam'不可用”

我正在尝试在IBM的Data Science Experience（DSX）上安装 tm 软件包： install.packages（“ tm”）不过，我是遇到此问题： “无法使用“大满贯”依赖” 此帖子建议使用R版本 3.3.1将解决该问题，但是DSX上的R版本是： R版本3.3.0（2016-05-03）如何在IBM DSX上解 ..

发布时间：2020-06-11 02:11:17 r ibm-cloud tm data-science-experience dsx 其他开发

通过软件包"tm"在R中导入pdf.

我知道通过"tm"包在"R"工作空间中获取pdf的实际示例，但无法理解代码的工作方式，因此无法导入所需的pdf.在以下代码中导入的pdf是"tm"小插图. 代码是 if(file.exists(Sys.which("pdftotext"))) { pdf ..

发布时间：2020-05-25 04:38:22 r pdf tm 其他开发

在Mac上的R 3.0.1中，tm_map具有parallel :: mclapply错误

我正在平台上使用R 3.0.1:x86_64-apple-darwin10.8.0(64位) 我正在尝试使用tm库中的tm_map.但是当我执行这段代码 library(tm) data('crude') tm_map(crude, stemDocument) 我收到此错误: Warning message: In parallel::mclapply(x, FUN, ... ..

发布时间：2020-05-24 20:52:44 r parallel-processing tm mclapply 其他开发

如何确定哪个R软件包的较旧版本与我的R版本兼容

我正在尝试安装"tm"软件包，但随后出现错误消息，说"tm"不适用于我的R版本 package ‘tm’ is not available (for R version 3.0.2) 但是后来我看到有人建议我从下载存档版本 http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A ，然后尝试从源代码安装. 我的问题 ..

发布时间：2020-05-23 19:26:58 r package tm 其他开发

在名字和姓氏的向量上使用DocumentTermMatrix

我在数据框(df)中有一列，如下所示: > people = df$people > people[1:3] [1] "Christian Slater, Tara Reid, Stephen Dorff, Frank C. Turner" [2] "Ice Cube, Nia Long, Aleisha Allen, Philip Bolden" ..

发布时间：2020-05-18 01:09:45 r nlp tm 其他开发

tm相关内容