text-mining相关内容
我正在创建一个用于查找共同引用文本的 GATE 应用程序.它工作正常,我已经通过 GATE 中提供的导出选项创建了应用程序的压缩文件. 现在我正在尝试在我的 Java 代码中使用相同的内容. Gate.runInSandbox(true);Gate.setGateHome(新文件(gateHome));Gate.setPluginsHome(new File(gateHome, "plu
..
如何最好使用 XSLT 提取 XML 文档的文本内容. 对于这样的片段, 文本内容文本内容文本内容 想要的结果是: 文字内容,文字内容,文字内容 输出(表格、CSV 等)的最佳格式是什么,其中内容可用于进一步操作,例如文本挖掘? 谢谢 更新 扩展问题,如何分别提取每条记录
..
我正在尝试从 Quanteda dfm 中提取已识别的字典单词,但一直无法找到解决方案. 有人对此有解决方案吗? 样本输入: dict 文件文档特征矩阵:1
..
我正在尝试使用 stemCompletion 将词干词转换为完整词. 以下是我使用的代码 txt
..
使用syuzhet包的get_nrc_sentiment时如何找到八种基本情绪(愤怒、恐惧、期待、信任、惊讶、悲伤、喜悦和厌恶)的关联词(NRC Word-Emotion Association Lexicon)? a
..
我使用的是 R-3.3.3.我尝试使用以下命令安装包 tm install.packages('tm',dependencies = TRUE)图书馆('tm') 但是我收到错误消息 loadNamespace 中的错误(j 我在此处看到了针对相同类型错误的两种解决方案;安装TM包时依赖'slam'不可用.我试过这两个,但我收到像 这样的错误信息 安装失败:找不到构建 slam 所
..
我有一个 dtm,想从文档术语矩阵中按频率提取每个文档的前 5 个术语. 我有一个使用 tm 包构建的 dtm 条款文档 aaaa aac abrt 被滥用 接受 接受1 0 0 0 0 0 02 0 0 0 0 0 03 0 0 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 06 0 0 0 0 0 0 所需的输出应采用以下形式: ID1 学期1 学期2 学期3
..
我有一个可在正则表达式网站上运行的正则表达式,但在我将其复制到 R 中时不起作用.以下是重新创建我的数据框的代码: text 库(stringi)rgx
..
我有一个具有这种结构的数据框: Note.Reco 评论 Review.clean.lower10 好产品 好产品9 好片好片………… 第一列是电影的排名,第二列是客户的评论,第三列是小写字母的评论. 我现在尝试删除停用词: Data_clean$Raison.Reco.clean1
..
在下面的代码中,任何匹配“/|@| \|")的字符都会被改成空格. >图书馆(tm)>toSpace 文档
..
我想从一个 csv 文件(我之前下载过)中读取我的推文,但遇到了一些问题: sia.list
..
我有一些关于 DocumentTermMatrix() 及其停用词的问题.我输入如下,但无法得到我想要的结果. text
..
我正在对大约 30000 条推文进行文本挖掘,现在的问题是让结果更可靠,我想将“同义词"转换为类似的词,例如.一些用户使用单词“girl",一些用户使用“girls",一些用户使用“gal".同样,“给予"、“给予"仅表示一件事."come,"came" 也一样.一些用户使用简写形式,如 "plz","pls" 等.此外,来自 tm 包的“stemdocument"无法正常工作.它正在将舞蹈转换为
..
我有一个带有文本行的数据框.我想为每一行文本提取一个特定情绪的向量,该向量将是一个二进制 0 不存在此情绪或存在 1. 总共有 5 种情绪,但我只想将 1 用于似乎是最多的情感. 我尝试过的示例: library(tidytext)text = data.frame(id = c(11,12,13), text=c("bad movie","good movie","我认为宗教人士看
..
这可能是重复的,但我没有找到它... 我正在使用 Pandas 在 Python 中进行一些文本挖掘.我在 DataFrame 中有单词,旁边有 Porter 和其他一些统计数据.这意味着可以在此 DataFrame 中找到具有完全相同 Porter 词干的相似词.我想将这些相似的词汇总到一个新列中,然后删除与 Porter 词干相关的重复词. 将pandas导入为pdpda = pd.D
..
我有以下段落: 嗯,嗯……这是一个私人话题.难怪我是第一个写评论的.可以说这些东西完全符合他们的要求并且味道很好.我在这方面遇到了主要问题,现在我没有.'纳夫说.:-) 为了应用 RSentiment 包中的 calculate_total_presence_sentiment 命令,我想将此段落分解成一个句子向量,如下所示: [1] “嗯,嗯……这是一个很私人的话题."[2] “难
..
我遵循了 这里 在幻灯片编号中.9 tolower 在 tm 0.6 及以上的包中有问题,我用过 myCorpus
..
我使用 R 的 tm 包进行文本挖掘.这是我的代码的样子: 图书馆(tm) 在 R 中加载数据 pathToData = "R/group_data";newsCorpus = Corpus(DirSource(pathToData, recursive = TRUE),readerControl = list(reader = readPlain)) 新闻语料长度 长度(新闻语料库)
..
我需要使用 R 进行文本挖掘的帮助 标题日期内容男孩 2015 年 5 月 13 日 “她很漂亮",汤姆说.汤姆很帅.动物 2015 年 6 月 14 日 企鹅很可爱,狮子补充道.Human March 09 2015 Koh 先生预测每个人都是聪明的...Monster Jan 22 2015 学生 May 女士说,John 有 10.80 美元.五月爱你. 我只想从人们所说的中获得意见.
..
这是我使用过的源代码: MyData 预处理数据 temp 解决方案 我的RStudio在设置Sys.setlocale('LC_ALL','C') 并运行 TermDocumentMatrix( mycorpus ) 函数.
..