tidytext - IT屋-程序员软件开发技术分享社区

如何将精选的两个单词短语作为符号包含在tidyText中？

我正在对一些文本数据进行预处理，以便进一步分析。我使用unnest_tokens()[将文本标记为单数词]，但希望保留某些经常出现的两个单词的短语，如“United States”或“Social Security”。如何使用tidyText执行此操作？ tidy_data % unnest_tokens(word, text) %>% ..

发布时间：2022-06-16 10:06:44 r tokenize tidytext 其他开发

有谁知道我如何在 R 中处理大数据?

在 RStudio 中分析推文: 我的 csv 文件包含 4,000,000 条推文，有五列:screen_name、text、created_at、favorite_count 和 retweet_count. 我正在尝试使用以下代码来确定主题标签的频率，但是它在几天内运行速度太慢，有时 RStudio 会崩溃. mydata %>%unnest_tokens(word, text ..

发布时间：2021-11-14 22:35:52 r apache-spark-sql bigdata tidytext 其他开发

整洁文本格式中的单词替换

嗨，我正在使用 tidy_text 格式，我正在尝试将字符串“emails"和“emailing"替换为“email". set.seed(123)条款 ..

发布时间：2021-09-06 19:42:15 r text-mining tidytext 其他开发

如何标记 R 中的文本列?unnest 功能不起作用

我是 R 新用户.如果您能帮助我解决标记化问题，我将不胜感激: 我的任务简介:我正在尝试将一个文本文件导入到 R 中.其中一个文本列是标题.该数据集基本上是与疾病相关的新闻文章的集合. 问题:我曾多次尝试使用 unnest_tokens 函数对其进行标记. 它向我显示以下错误消息: UseMethod("unnest_tokens_") 中的错误:没有适用于“unnest_ ..

发布时间：2021-09-06 19:10:42 r text token tidytext 其他开发

TF-IDF文档术语矩阵和LDA:R中的错误消息

我们可以将tf-idf文档术语矩阵输入到潜在Dirichlet分配(LDA)中吗?如果是，怎么办? 在我的情况下不起作用，并且LDA函数需要“词频"文档词矩阵. 谢谢 (我提出的问题尽可能简洁.因此，如果您需要更多详细信息，我可以添加 ####################################################################### ..

发布时间：2021-05-29 20:06:09 r matrix text-mining lda tidytext 其他开发

有谁知道我如何在R中处理大数据?

在RStudio中分析推文: 我的csv文件包含4,000,000条tweets，其中包含5列:screen_name，text，created_at，favourite_count和retweet_count. 我正在尝试使用以下代码来确定主题标签的出现频率，但是它运行太慢了几天，有时RStudio会崩溃. mydata％>％unnest_tokens(单词，文本，令牌="twe ..

发布时间：2021-04-08 20:28:11 r apache-spark-sql bigdata tidytext 其他开发

在小标题中查看超过10行时遇到问题

首先-我是R和R编程的初学者，请问这是一个愚蠢的问题。我无法查看由以下代码生成的小标题中的十多行。以下代码旨在查找一本书中最常见的单词。我得到了想要的结果，但是如何查看超过10行的数据。据我所知，它并没有保存为我可以调用的数据框。 library（dplyr） tidy_books％>％ anti_join（stop_words）％>％ count（word，sort = T ..

发布时间：2020-10-26 03:04:50 r dplyr tidyverse tibble tidytext 其他开发

如果要从一系列句子中进行操作，我想找出是否已执行了一项操作. 例如: "I will prescribe this medication"与"I prescribed this medication"或"He had already taken the stuff"与"he may take the stuff later" 我正在尝试tidytext方法，并决定只查找过去分词动词和将来分词 ..

发布时间：2020-07-11 01:25:44 r text-mining tidytext 其他开发

代币发行问题

我正尝试如下标记一个句子. Section % mutate(tokens = str_extract_all(df$Section ..

发布时间：2020-07-11 01:24:40 r regex tokenize tidytext 其他开发

将数据帧转换为带字数的小标题

我正在尝试基于 http://tidytextmining.com进行情感分析/sentiment.html#the-sentiments-dataset .在进行情感分析之前，我需要将数据集转换为整齐的格式. 我的数据集的格式为: x ..

发布时间：2020-07-11 01:24:36 r dataframe tibble tidytext 其他开发

从多个txt文件创建语料库

我有多个txt文件，我想要一个整洁的数据.首先要做的是创建语料库(我不确定这是真的方法).我编写了以下代码来获取语料库数据. folder ..

发布时间：2020-07-11 01:24:34 r tidytext 其他开发

用字符串中的单个数字替换数字范围

是否可以用字符串中的单个数字替换数字范围?数字范围可以是n-n，最可能是1-15，也可以是4-10. 可以用a)表示范围- a ..

发布时间：2020-07-11 01:24:32 r text replace tm tidytext 其他开发

tidytext :: unnest_tokens是否适用于西班牙字符?

我正在尝试将unnest_tokens与西班牙语文本一起使用.它可以用字母组合词很好地工作，但是用双字母字符可以打破特殊字符. 该代码在Linux上运行良好.我在语言环境中添加了一些信息. library(tidytext) library(dplyr) df ..

发布时间：2020-07-11 01:24:28 r tidytext 其他开发

在R中映射审阅主题

我有两个数据集，评论数据和主题数据我的评论数据的代码 structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be given importance"), class = "factor")), ..

发布时间：2020-07-11 01:24:25 r dplyr text-mining tm tidytext 其他开发

与unnest_tokens相反

这很可能是一个愚蠢的问题，但是我已经在Google和Google上搜索了，找不到解决方法.我认为这是因为我不知道用正确的方式来表达我的问题以进行搜索. 我有一个数据框，已将其转换为R中的整洁文本格式，以消除停用词.我现在想“整理"该数据框回到其原始格式. unnest_tokens的反/反命令是什么? 编辑:这是我正在使用的数据的样子.我试图从Silge和Robinson的整洁的 ..

发布时间：2020-07-11 01:24:19 r tidyr tidyverse tidytext 其他开发

有序条形图和使用构面图

我正在尝试根据频率创建带有有序条形的图形，并且还使用一个变量，其中两个变量分别使用小平面. 单词必须按'n'变量中给出的值进行排序.因此，我的图形应类似于下面的图表，单词不是按值排序，我的错误是什么? > d # A tibble: 20 x 3 word u_c n 1 apples cand ..

发布时间：2020-07-11 01:24:16 r ggplot2 tidytext 其他开发

tidytext R西班牙文-有其他选择吗?

我正在从Twitter进行情感分析，但我的推文使用西班牙语，因此我无法使用tidytext对单词进行分类.有人知道西班牙有没有类似的包裹? 不幸的是，解决方案对于非英语语言的情感词典，目前没有很多好的开源选项.您可以向作者索取其他语言的 NRC词典；它由Google Translate翻译(当然会增加不确定性，但总体看来还不错)，作者说，他们出于研究目的而将其赠予，但会收取商业使用费用. ..

发布时间：2020-07-11 01:24:13 r sentiment-analysis tidytext 其他开发

从HTML网站抓取pdf文件

如何从HTML删除pdf文档?我正在使用R，并且只能从HTML中提取文本.我要剪贴的网站示例如下. https://www.bot.or .th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx 致谢解决方案当您说要从HTML页面中抓取PDF文件时，我认为您面临的 ..

发布时间：2020-07-11 01:24:09 r text web-scraping tidytext 其他开发

使用整洁的文本和扫帚，但找不到LDA_VEM的整洁度

tidytext本书中的示例带有主题模型的修饰符：库（tidyverse）库（tidytext）库（topicmodels）库（扫帚） year_word_counts ..

发布时间：2020-06-07 18:42:13 r broom tidytext 其他开发

拆分和分组纯文本(按数据框中的章节对文本进行分组)?

我有一个数据框/小标题，我在其中导入了纯文本(txt)文件.文本非常一致，并按章节分组.有时章节文本只有一行，有时是多行.数据在这样的一列中: # A tibble: 10,708 x 1 x ..

发布时间：2020-05-18 01:07:43 r nlp text-mining tidytext 其他开发

tidytext相关内容