tidytext相关内容
我正在对一些文本数据进行预处理,以便进一步分析。我使用unnest_tokens()[将文本标记为单数词],但希望保留某些经常出现的两个单词的短语,如“United States”或“Social Security”。如何使用tidyText执行此操作? tidy_data % unnest_tokens(word, text) %>%
..
在 RStudio 中分析推文: 我的 csv 文件包含 4,000,000 条推文,有五列:screen_name、text、created_at、favorite_count 和 retweet_count. 我正在尝试使用以下代码来确定主题标签的频率,但是它在几天内运行速度太慢,有时 RStudio 会崩溃. mydata %>%unnest_tokens(word, text
..
嗨,我正在使用 tidy_text 格式,我正在尝试将字符串“emails"和“emailing"替换为“email". set.seed(123)条款
..
我是 R 新用户.如果您能帮助我解决标记化问题,我将不胜感激: 我的任务简介:我正在尝试将一个文本文件导入到 R 中.其中一个文本列是标题.该数据集基本上是与疾病相关的新闻文章的集合. 问题:我曾多次尝试使用 unnest_tokens 函数对其进行标记. 它向我显示以下错误消息: UseMethod("unnest_tokens_") 中的错误:没有适用于“unnest_
..
我们可以将tf-idf文档术语矩阵输入到潜在Dirichlet分配(LDA)中吗?如果是,怎么办? 在我的情况下不起作用,并且LDA函数需要“词频"文档词矩阵. 谢谢 (我提出的问题尽可能简洁.因此,如果您需要更多详细信息,我可以添加 #######################################################################
..
在RStudio中分析推文: 我的csv文件包含4,000,000条tweets,其中包含5列:screen_name,text,created_at,favourite_count和retweet_count. 我正在尝试使用以下代码来确定主题标签的出现频率,但是它运行太慢了几天,有时RStudio会崩溃. mydata%>%unnest_tokens(单词,文本,令牌="twe
..
首先-我是R和R编程的初学者,请问这是一个愚蠢的问题。我无法查看由以下代码生成的小标题中的十多行。 以下代码旨在查找一本书中最常见的单词。我得到了想要的结果,但是如何查看超过10行的数据。据我所知,它并没有保存为我可以调用的数据框。 library(dplyr) tidy_books%>% anti_join(stop_words)%>% count(word,sort = T
..
如果要从一系列句子中进行操作,我想找出是否已执行了一项操作. 例如: "I will prescribe this medication"与"I prescribed this medication"或"He had already taken the stuff"与"he may take the stuff later" 我正在尝试tidytext方法,并决定只查找过去分词动词和将来分词
..
我正尝试如下标记一个句子. Section % mutate(tokens = str_extract_all(df$Section
..
我正在尝试基于 http://tidytextmining.com进行情感分析/sentiment.html#the-sentiments-dataset .在进行情感分析之前,我需要将数据集转换为整齐的格式. 我的数据集的格式为: x
..
我有多个txt文件,我想要一个整洁的数据.首先要做的是创建语料库(我不确定这是真的方法).我编写了以下代码来获取语料库数据. folder
..
是否可以用字符串中的单个数字替换数字范围?数字范围可以是n-n,最可能是1-15,也可以是4-10. 可以用a)表示范围- a
..
我正在尝试将unnest_tokens与西班牙语文本一起使用.它可以用字母组合词很好地工作,但是用双字母字符可以打破特殊字符. 该代码在Linux上运行良好.我在语言环境中添加了一些信息. library(tidytext) library(dplyr) df
..
我有两个数据集,评论数据和主题数据 我的评论数据 的代码 structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be given importance"), class = "factor")),
..
这很可能是一个愚蠢的问题,但是我已经在Google和Google上搜索了,找不到解决方法.我认为这是因为我不知道用正确的方式来表达我的问题以进行搜索. 我有一个数据框,已将其转换为R中的整洁文本格式,以消除停用词.我现在想“整理"该数据框回到其原始格式. unnest_tokens的反/反命令是什么? 编辑:这是我正在使用的数据的样子.我试图从Silge和Robinson的整洁的
..
我正在尝试根据频率创建带有有序条形的图形,并且还使用一个变量,其中两个变量分别使用小平面. 单词必须按'n'变量中给出的值进行排序.因此,我的图形应类似于 下面的图表,单词不是按值排序,我的错误是什么? > d # A tibble: 20 x 3 word u_c n 1 apples cand
..
我正在从Twitter进行情感分析,但我的推文使用西班牙语,因此我无法使用tidytext对单词进行分类.有人知道西班牙有没有类似的包裹? 不幸的是, 解决方案 对于非英语语言的情感词典,目前没有很多好的开源选项.您可以向作者索取其他语言的 NRC词典;它由Google Translate翻译(当然会增加不确定性,但总体看来还不错),作者说,他们出于研究目的而将其赠予,但会收取商业使用费用.
..
如何从HTML删除pdf文档?我正在使用R,并且只能从HTML中提取文本.我要剪贴的网站示例如下. https://www.bot.or .th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx 致谢 解决方案 当您说要从HTML页面中抓取PDF文件时,我认为您面临的
..
tidytext本书中的示例带有主题模型的修饰符: 库(tidyverse) 库(tidytext) 库(topicmodels) 库(扫帚) year_word_counts
..
我有一个数据框/小标题,我在其中导入了纯文本(txt)文件.文本非常一致,并按章节分组.有时章节文本只有一行,有时是多行.数据在这样的一列中: # A tibble: 10,708 x 1 x
..