text-mining 第2页 - IT屋-程序员软件开发技术分享社区

解析 GATE 文档以获取共同参考文本

我正在创建一个用于查找共同引用文本的 GATE 应用程序.它工作正常，我已经通过 GATE 中提供的导出选项创建了应用程序的压缩文件. 现在我正在尝试在我的 Java 代码中使用相同的内容. Gate.runInSandbox(true);Gate.setGateHome(新文件(gateHome));Gate.setPluginsHome(new File(gateHome, "plu ..

发布时间：2021-11-10 22:50:04 java reference annotations text-mining gate Java开发

使用 XSLT 从 XML 文档中提取文本内容

如何最好使用 XSLT 提取 XML 文档的文本内容. 对于这样的片段，文本内容文本内容文本内容想要的结果是: 文字内容，文字内容，文字内容输出(表格、CSV 等)的最佳格式是什么，其中内容可用于进一步操作，例如文本挖掘? 谢谢更新扩展问题，如何分别提取每条记录 ..

发布时间：2021-09-06 19:44:16 xml xslt text-mining 其他开发

Quanteda - 提取已识别的字典单词

我正在尝试从 Quanteda dfm 中提取已识别的字典单词，但一直无法找到解决方案. 有人对此有解决方案吗? 样本输入: dict 文件文档特征矩阵:1 ..

发布时间：2021-09-06 19:44:13 r text-mining quanteda 其他开发

stemCompletion 无法正常工作

我正在尝试使用 stemCompletion 将词干词转换为完整词. 以下是我使用的代码 txt ..

发布时间：2021-09-06 19:44:10 r text-mining tm stemming 其他开发

情感分析 R syuzhet NRC Word-Emotion Association Lexicon

使用syuzhet包的get_nrc_sentiment时如何找到八种基本情绪(愤怒、恐惧、期待、信任、惊讶、悲伤、喜悦和厌恶)的关联词(NRC Word-Emotion Association Lexicon)? a ..

发布时间：2021-09-06 19:44:07 text-mining sentiment-analysis corpus 其他开发

如何在 R-3.3.0 中安装包 tm

我使用的是 R-3.3.3.我尝试使用以下命令安装包 tm install.packages('tm',dependencies = TRUE)图书馆('tm') 但是我收到错误消息 loadNamespace 中的错误(j 我在此处看到了针对相同类型错误的两种解决方案;安装TM包时依赖'slam'不可用.我试过这两个，但我收到像这样的错误信息安装失败:找不到构建 slam 所 ..

发布时间：2021-09-06 19:44:04 r text-mining 其他开发

从 R 中的 dtm 中按每个文档的频率提取顶级特征

我有一个 dtm，想从文档术语矩阵中按频率提取每个文档的前 5 个术语. 我有一个使用 tm 包构建的 dtm 条款文档 aaaa aac abrt 被滥用接受接受1 0 0 0 0 0 02 0 0 0 0 0 03 0 0 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 06 0 0 0 0 0 0 所需的输出应采用以下形式: ID1 学期1 学期2 学期3 ..

发布时间：2021-09-06 19:44:01 r text-mining tm term-document-matrix 其他开发

正则表达式不适用于 R，但适用于网站.文本挖掘

我有一个可在正则表达式网站上运行的正则表达式，但在我将其复制到 R 中时不起作用.以下是重新创建我的数据框的代码: text 库(stringi)rgx ..

发布时间：2021-09-06 19:43:56 r regex text-mining 其他开发

删除R中的停用词

我有一个具有这种结构的数据框: Note.Reco 评论 Review.clean.lower10 好产品好产品9 好片好片………… 第一列是电影的排名，第二列是客户的评论，第三列是小写字母的评论. 我现在尝试删除停用词: Data_clean$Raison.Reco.clean1 ..

发布时间：2021-09-06 19:43:53 r text-mining 其他开发

r :需要由 tm_map() 调用的 content_transformer() 将非字母更改为空格

在下面的代码中，任何匹配“/|@| \|")的字符都会被改成空格. >图书馆(tm)>toSpace 文档 ..

发布时间：2021-09-06 19:43:50 r text-mining 其他开发

从推文中获取文本

我想从一个 csv 文件(我之前下载过)中读取我的推文，但遇到了一些问题: sia.list ..

发布时间：2021-09-06 19:43:47 r twitter text-mining web-crawler 其他开发

(R) 关于 DocumentTermMatrix 中的停用词

我有一些关于 DocumentTermMatrix() 及其停用词的问题.我输入如下，但无法得到我想要的结果. text ..

发布时间：2021-09-06 19:43:44 text-mining tm stop-words 其他开发

R文本挖掘:使用tm包中的stemDocuments对相似词进行分组

我正在对大约 30000 条推文进行文本挖掘，现在的问题是让结果更可靠，我想将“同义词"转换为类似的词，例如.一些用户使用单词“girl"，一些用户使用“girls"，一些用户使用“gal".同样，“给予"、“给予"仅表示一件事."come,"came" 也一样.一些用户使用简写形式，如 "plz","pls" 等.此外，来自 tm 包的“stemdocument"无法正常工作.它正在将舞蹈转换为 ..

发布时间：2021-09-06 19:43:41 r text-mining tm stemming 其他开发

为数据帧的每一行提取情绪计算

我有一个带有文本行的数据框.我想为每一行文本提取一个特定情绪的向量，该向量将是一个二进制 0 不存在此情绪或存在 1. 总共有 5 种情绪，但我只想将 1 用于似乎是最多的情感. 我尝试过的示例: library(tidytext)text = data.frame(id = c(11,12,13), text=c("bad movie","good movie","我认为宗教人士看 ..

发布时间：2021-09-06 19:43:38 r text-mining tidyr sentiment-analysis 其他开发

使用 Python 和 Pandas 进行文本挖掘

这可能是重复的，但我没有找到它... 我正在使用 Pandas 在 Python 中进行一些文本挖掘.我在 DataFrame 中有单词，旁边有 Porter 和其他一些统计数据.这意味着可以在此 DataFrame 中找到具有完全相同 Porter 词干的相似词.我想将这些相似的词汇总到一个新列中，然后删除与 Porter 词干相关的重复词. 将pandas导入为pdpda = pd.D ..

发布时间：2021-09-06 19:43:35 python pandas text-mining Python

将段落分解为 R 中的句子向量

我有以下段落: 嗯，嗯……这是一个私人话题.难怪我是第一个写评论的.可以说这些东西完全符合他们的要求并且味道很好.我在这方面遇到了主要问题，现在我没有.'纳夫说.:-) 为了应用 RSentiment 包中的 calculate_total_presence_sentiment 命令，我想将此段落分解成一个句子向量，如下所示: [1] “嗯，嗯……这是一个很私人的话题."[2] “难 ..

发布时间：2021-09-06 19:43:32 r text-mining 其他开发

StemCompletion 中的 R 警告和 TermDocumentMatrix 中的错误

我遵循了这里在幻灯片编号中.9 tolower 在 tm 0.6 及以上的包中有问题，我用过 myCorpus ..

发布时间：2021-09-06 19:43:28 r text-mining tm 其他开发

检查 DocumentTermMatrix 中的特定文档以获取特定术语

我使用 R 的 tm 包进行文本挖掘.这是我的代码的样子: 图书馆(tm) 在 R 中加载数据 pathToData = "R/group_data";newsCorpus = Corpus(DirSource(pathToData, recursive = TRUE),readerControl = list(reader = readPlain)) 新闻语料长度长度(新闻语料库) ..

发布时间：2021-09-06 19:43:25 r text-mining tm 其他开发

使用 R 进行文本挖掘

我需要使用 R 进行文本挖掘的帮助标题日期内容男孩 2015 年 5 月 13 日 “她很漂亮"，汤姆说.汤姆很帅.动物 2015 年 6 月 14 日企鹅很可爱，狮子补充道.Human March 09 2015 Koh 先生预测每个人都是聪明的...Monster Jan 22 2015 学生 May 女士说，John 有 10.80 美元.五月爱你. 我只想从人们所说的中获得意见. ..

发布时间：2021-09-06 19:43:22 r text-mining 其他开发

nchar(Terms(x), type = "chars") 中的错误:检查文档术语矩阵时，多字节字符串无效，元素 204

这是我使用过的源代码: MyData 预处理数据 temp 解决方案我的RStudio在设置Sys.setlocale('LC_ALL','C') 并运行 TermDocumentMatrix( mycorpus ) 函数. ..

发布时间：2021-09-06 19:43:19 r text-mining 其他开发

text-mining相关内容