tm相关内容

如何在 R 中加载包

我已经成功安装了 tm 包,它位于:C:\Users\JustinLiang\Documents\R\win-library\3.0 输入 library() 后,它会显示可用的 R 包列表: 库‘C:/Users/JustinLiang/Documents/R/win-library/3.0’中的包: tm 文本挖掘包 库‘C:/Program Files/R/R-3.0 ..
发布时间:2021-09-08 20:09:17 其他开发

如何使用R提取包含特定人名的句子

我正在使用 R 从文本中提取包含特定人名的句子,这里是一个示例段落: 作为蒂宾根改革者的反对者,他接受了马丁·路德 (Martin Luther) 到维滕贝格大学 (University of Martin Luther) 的邀请,并得到了他的叔叔约翰·鲁伊奇林 (Johann Reuchlin) 的推荐.Melanchthon 21 岁时成为维滕贝格的希腊语教授.他研究圣经,特别是保罗的圣 ..
发布时间:2021-09-08 20:09:14 其他开发

Shiny 应用程序失败,“参数 1(类型 'closure')无法由 'cat' 处理"- 这是什么意思?

我正在构建一个 Shiny 应用程序,它接受用户的文本输入,将最后两个单词与三元组数据框进行比较,以预测最有可能的下一个单词.在 server.R 中,我试图输出的 triPred 函数的输出是一个单词.当我加载这个应用程序时,我在应用程序中输入一些文本后收到以下错误 - “参数 1(类型 'closure')不能由 'cat' 处理 - 这似乎与 server.R 中的最后一行有关这只是一个词, ..
发布时间:2021-09-08 20:09:08 其他开发

以编程方式在 R 中查找股票代码

我有一个包含公司名称的数据字段,例如 company 公司公司1 微软2 苹果3 云时代4 福特 等等. 包 tm.plugin.webmining 允许您从 Yahoo! 查询数据.基于股票代码的财务: require(tm.plugin.webmining)结果 ..
发布时间:2021-09-08 20:09:05 其他开发

R 和 tm 包:用一个或两个单词的字典创建一个术语文档矩阵?

目的:我想使用包含复合词或bigrams的字典创建一个术语-文档矩阵em>,作为一些关键字. Web 搜索: 作为文本挖掘和 R 中的 tm 包的新手,我访问了网络以找出如何做这个.以下是我找到的一些相关链接: tm-package 网站上的常见问题 找到 2 &使用 r tm 包的 3 个词组 用 r 中的 tm 包计数器 ngram r 中多个术语的findassocs ..
发布时间:2021-09-08 20:09:02 其他开发

从 R 中用户定义的语料库中删除停用词

我有一组文件: documents = c("她早餐吃了吐司",“今天早上的咖啡很棒",“午餐让我们都吃煎饼",“后天,会有更多的谈话",“第一天的谈话很棒",“第二天也应该有很好的演讲") 在这组文档中,我想删除停用词.我已经删除了标点符号并转换为小写,使用: documents = tolower(documents) #使其小写文档 = gsub('[[:punct:]]', '', ..
发布时间:2021-09-08 20:09:00 其他开发

tm 使用示例

你能举一个使用tm(我不知道如何初始化那个struct)的例子,其中当前日期以这种格式写入y/m/d? 解决方案 如何使用tm结构 调用 time() 以获取当前日期/时间,作为自 1970 年 1 月 1 日以来的秒数. 调用localtime()获取struct tm指针.如果你想要格林威治标准时间,他们调用 gmtime() 而不是 localtime(). 使用 ..
发布时间:2021-09-08 20:08:57 其他开发

如何在 tm 中仅为 TermDocumentMatrix 创建选择语料库术语的子集

我有一个庞大的语料库,我只对我预先知道的少数术语的外观感兴趣.有没有办法使用 tm 包从语料库创建术语文档矩阵,其中只使用和包含我预先指定的术语? 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化,但由于内存大小限制,我想避免构建完整的术语文档矩阵. 解决方案 您可以通过构建自定义转换函数来修改语料库以仅保留您想要的术语.请参阅 tm 包的插图 和 con ..
发布时间:2021-09-08 20:08:54 其他开发

如何计算单词与文档中特定术语的接近度

我试图找出一种方法来计算文档中特定术语的单词邻近度以及平均邻近度(按单词).我知道在 SO 上也有类似的问题,但没有任何东西可以给我所需的答案,甚至不能为我指出有用的地方.假设我有以下文本: song ..
发布时间:2021-09-08 20:08:51 其他开发

如何在语料库中手动设置文档 ID?

我正在从数据帧创建 Copus.我将它作为 VectorSource 传递,因为我只想将一列用作文本源.这可以找到,但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID.文档 ID 存储在原始数据框中的单独列中. df ..
发布时间:2021-09-08 20:08:48 其他开发

删除 unicode <+f0b7>来自语料库文本

我遇到了一个非常顽固的问题...我似乎无法从 Corpora 中删除 和 字符串从 *.txt 文件加载到 R 中的: 更新 这是示例 .txt 文件的链接:https://db.tt/qTRKpJYK Corpus(DirSource("./SomeDirectory/txt/"), readerControl = list(reader = read ..
发布时间:2021-09-08 20:08:46 其他开发

从 R 语料库中删除无意义的单词

我正在使用 tm 和 wordcloud 在 R 中执行一些基本的文本挖掘.正在处理的文本包含许多像 asfdg、aawptkr 这样没有意义的词,我需要过滤这样的词.我找到的最接近的解决方案是使用 library(qdapDictionaries) 并构建一个自定义函数来检查单词的有效性. library(qdapDictionaries)is.word ..
发布时间:2021-09-08 20:08:42 其他开发

R 中的文档项矩阵 - 二元标记器不起作用

我正在尝试为语料库制作 2 个文档术语矩阵,一个带有 unigrams,一个带有 bigrams.但是,bigram 矩阵目前与 unigram 矩阵完全相同,我不确定为什么. 代码: docs 我也尝试使用 ngram 包中的 ngram(x, n=2) 作为标记器,但这也不起作用.如何修复二元标记化? 解决方案 tokenizer 选项似乎不适用于 Corpus (Simpl ..
发布时间:2021-09-08 20:08:28 其他开发

如何在 R tm 包中显示语料库文本?

我是 R 和 tm 包的新手,所以请原谅我的愚蠢问题;-)如何在 R tm 包中显示纯文本语料库的文本? 我在一个语料库中加载了一个包含 323 个纯文本文件的语料库: src 但是当我调用语料库时: 语料库[[1]] 我总是得到一些这样的输出而不是语料库文本本身: >元数据:7内容:字符数:144内容:字符数:141内容:字符数:224内容:字符数:75内容:字符数:105 ..
发布时间:2021-09-08 20:08:23 其他开发

使用 tm() 从 R 语料库中删除非英语文本

我正在使用 tm() 和 wordcloud() 在 R 中进行一些基本的数据挖掘,但遇到了困难,因为我的文件中有非英文字符数据集(尽管我已经尝试根据背景变量过滤掉其他语言. 假设我的 TXT 文件中的某些行(在 TextWrangler 中保存为 UTF-8)如下所示: 特殊满意快乐的伤心潜力 然后我将我的 txt 文件读入 R: words 这会产生警告消息: 警告信息:在 ..
发布时间:2021-09-08 20:08:20 其他开发