tidytext相关内容

有谁知道我如何在 R 中处理大数据?

在 RStudio 中分析推文: 我的 csv 文件包含 4,000,000 条推文,有五列:screen_name、text、created_at、favorite_count 和 retweet_count. 我正在尝试使用以下代码来确定主题标签的频率,但是它在几天内运行速度太慢,有时 RStudio 会崩溃. mydata %>%unnest_tokens(word, text ..
发布时间:2021-11-14 22:35:52 其他开发

如何标记 R 中的文本列?unnest 功能不起作用

我是 R 新用户.如果您能帮助我解决标记化问题,我将不胜感激: 我的任务简介:我正在尝试将一个文本文件导入到 R 中.其中一个文本列是标题.该数据集基本上是与疾病相关的新闻文章的集合. 问题:我曾多次尝试使用 unnest_tokens 函数对其进行标记. 它向我显示以下错误消息: UseMethod("unnest_tokens_") 中的错误:没有适用于“unnest_ ..
发布时间:2021-09-06 19:10:42 其他开发

TF-IDF文档术语矩阵和LDA:R中的错误消息

我们可以将tf-idf文档术语矩阵输入到潜在Dirichlet分配(LDA)中吗?如果是,怎么办? 在我的情况下不起作用,并且LDA函数需要“词频"文档词矩阵. 谢谢 (我提出的问题尽可能简洁.因此,如果您需要更多详细信息,我可以添加 ####################################################################### ..
发布时间:2021-05-29 20:06:09 其他开发

有谁知道我如何在R中处理大数据?

在RStudio中分析推文: 我的csv文件包含4,000,000条tweets,其中包含5列:screen_name,text,created_at,favourite_count和retweet_count. 我正在尝试使用以下代码来确定主题标签的出现频率,但是它运行太慢了几天,有时RStudio会崩溃. mydata%>%unnest_tokens(单词,文本,令牌="twe ..
发布时间:2021-04-08 20:28:11 其他开发

在小标题中查看超过10行时遇到问题

首先-我是R和R编程的初学者,请问这是一个愚蠢的问题。我无法查看由以下代码生成的小标题中的十多行。 以下代码旨在查找一本书中最常见的单词。我得到了想要的结果,但是如何查看超过10行的数据。据我所知,它并没有保存为我可以调用的数据框。 library(dplyr) tidy_books%>% anti_join(stop_words)%>% count(word,sort = T ..
发布时间:2020-10-26 03:04:50 其他开发

使用POS标签确定句子的时间性

如果要从一系列句子中进行操作,我想找出是否已执行了一项操作. 例如: "I will prescribe this medication"与"I prescribed this medication"或"He had already taken the stuff"与"he may take the stuff later" 我正在尝试tidytext方法,并决定只查找过去分词动词和将来分词 ..
发布时间:2020-07-11 01:25:44 其他开发

从多个txt文件创建语料库

我有多个txt文件,我想要一个整洁的数据.首先要做的是创建语料库(我不确定这是真的方法).我编写了以下代码来获取语料库数据. folder ..
发布时间:2020-07-11 01:24:34 其他开发

tidytext :: unnest_tokens是否适用于西班牙字符?

我正在尝试将unnest_tokens与西班牙语文本一起使用.它可以用字母组合词很好地工作,但是用双字母字符可以打破特殊字符. 该代码在Linux上运行良好.我在语言环境中添加了一些信息. library(tidytext) library(dplyr) df ..
发布时间:2020-07-11 01:24:28 其他开发

在R中映射审阅主题

我有两个数据集,评论数据和主题数据 我的评论数据 的代码 structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be given importance"), class = "factor")), ..
发布时间:2020-07-11 01:24:25 其他开发

与unnest_tokens相反

这很可能是一个愚蠢的问题,但是我已经在Google和Google上搜索了,找不到解决方法.我认为这是因为我不知道用正确的方式来表达我的问题以进行搜索. 我有一个数据框,已将其转换为R中的整洁文本格式,以消除停用词.我现在想“整理"该数据框回到其原始格式. unnest_tokens的反/反命令是什么? 编辑:这是我正在使用的数据的样子.我试图从Silge和Robinson的整洁的 ..
发布时间:2020-07-11 01:24:19 其他开发

有序条形图和使用构面图

我正在尝试根据频率创建带有有序条形的图形,并且还使用一个变量,其中两个变量分别使用小平面. 单词必须按'n'变量中给出的值进行排序.因此,我的图形应类似于 下面的图表,单词不是按值排序,我的错误是什么? > d # A tibble: 20 x 3 word u_c n 1 apples cand ..
发布时间:2020-07-11 01:24:16 其他开发

tidytext R西班牙文-有其他选择吗?

我正在从Twitter进行情感分析,但我的推文使用西班牙语,因此我无法使用tidytext对单词进行分类.有人知道西班牙有没有类似的包裹? 不幸的是, 解决方案 对于非英语语言的情感词典,目前没有很多好的开源选项.您可以向作者索取其他语言的 NRC词典;它由Google Translate翻译(当然会增加不确定性,但总体看来还不错),作者说,他们出于研究目的而将其赠予,但会收取商业使用费用. ..
发布时间:2020-07-11 01:24:13 其他开发

从HTML网站抓取pdf文件

如何从HTML删除pdf文档?我正在使用R,并且只能从HTML中提取文本.我要剪贴的网站示例如下. https://www.bot.or .th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx 致谢 解决方案 当您说要从HTML页面中抓取PDF文件时,我认为您面临的 ..
发布时间:2020-07-11 01:24:09 其他开发