bigdata相关内容

有谁知道我如何在R中处理大数据?

在RStudio中分析推文: 我的csv文件包含4,000,000条tweets,其中包含5列:screen_name,text,created_at,favourite_count和retweet_count. 我正在尝试使用以下代码来确定主题标签的出现频率,但是它运行太慢了几天,有时RStudio会崩溃. mydata%>%unnest_tokens(单词,文本,令牌="twe ..
发布时间:2021-04-08 20:28:11 其他开发

Pyspark简单的重新分区和toPandas()仅在600,000多行上无法完成

我有JSON数据,我正在将其读取到具有多个字段的数据框中,然后基于两列对其进行重新分区,然后转换为Pandas. 这项工作使仅60万行数据的EMR一直失败,并带有一些模糊的错误.我还增加了spark驱动程序的内存设置,但仍然看不到任何分辨率. 这是我的pyspark代码: enhDataDf =(sqlContext.read.json(sys.argv [1]))enhDataD ..

火花与Scala:saveAsTextFile()异常

我是Spark&的新手.Scala和我在调用saveAsTextFile()之后得到了异常.希望有人能帮忙... 这是我的input.txt: Hello World,我是一名程序员世界,您好,我是一名程序员 这是在CMD上运行"spark-shell"后的信息: C:\ Users \ Nan Tran> spark-shell将默认日志级别设置为"WARN".要调整日志记录级 ..
发布时间:2021-04-08 19:34:14 其他开发

“谓词下推"和“谓词下推"之间的区别是什么?和“投影下推"?

我遇到过多种信息来源,例如这里,将“谓词下推"解释为: ...如果您可以将查询的一部分“下推"到存储数据的位置,从而过滤掉大部分数据,则可以大大减少网络流量. 但是,我在其他文档中也看到过“投影下推"一词,例如这里,这似乎是一回事,但据我所知,我不确定. 两个词之间有特定区别吗? 解决方案 谓词指影响返回的行数的where/filter子句. 投影指的是选定的列. ..
发布时间:2021-04-08 19:33:05 其他开发

无法在Spark Streaming作业中获得广播_1的广播_1_piece0

我正在群集模式下在纱线上运行火花作业.作业从kafka直接流中获取消息.我正在使用广播变量,并且每30秒检查一次.当我第一次开始工作时,它运行正常,没有任何问题.如果我终止工作并重新启动,则在收到来自kafka的消息后,执行程序将抛出以下异常: java.io.IOException: org.apache.spark.SparkException: Failed to get broadc ..
发布时间:2020-11-22 03:00:42 其他开发

引发选择并添加具有别名的列

我想选择几列,添加几列或除以某些列,并用空格填充这些列,并以新名称存储它们作为别名.例如,SQL中的内容应类似于: select " " as col1, b as b1, c+d as e from table 如何在Spark中实现这一目标? 解决方案 您还可以使用本机DF函数.例如: import org.apache.spark.sql.functions._ ..
发布时间:2020-11-22 02:28:24 其他开发

Hive alter table更改列名称将"NULL"赋予重命名的列

我试图将表中的现有列重命名为新列.但是,在更改名称后,新列仅给了我'NULL'值. Parquet中表的存储格式. 例如 “用户"是字符串数据类型的“测试"表中的一列.插入了一个示例记录,其值为'John'. Select user from Test; 结果:约翰 我已将“用户"重命名为“用户名",而未更改任何数据类型. ALTER TABLE Test ..
发布时间:2020-11-22 02:26:38 其他开发

重用气流中的任务

我正在尝试通过气流来编排一些数据管道.每个摄取管道都有多个任务.这些任务在多个摄取管道中不断重复.如何在DAGS中重用气流中的任务? 解决方案 就像 object是class 的实例,Airflow 任务是因此,编写一个“可重用"(也称为通用)运算符,并通过传递不同的参数(尤其是task_id),在整个管道中使用它100次. ..
发布时间:2020-11-22 02:19:43 AI人工智能

在同一应用程序的任务(映射函数)中创建Spark任务

是否可以从pyspark中的映射器功能(即从任务)进行映射? 换句话说,是否可以从任务中打开“子任务”? 如果是这样-我如何将sparkContext传递给任务-就像一个变量一样? 我想要一份由许多任务组成的工作-这些任务中的每一个也应该创建许多任务,而无需回到驱动程序。 我的用例是这样的: 我正在编写代码将使用工作队列编写的应用程序移植到pyspark。 在我的旧应用程序中, ..
发布时间:2020-10-22 19:07:58 其他开发

通过python从行到行yelp数据集读取

我想将此代码更改为专门从1400001行读取为1450000.什么是修改? 文件由单一对象类型组成,每行一个JSON对象. 我还想将输出保存到.csv文件.我该怎么办? revu=[] with open("review.json", 'r',encoding="utf8") as f: for line in f: revu = json.loads(line[1 ..
发布时间:2020-09-20 20:03:55 Python

R-快速模式函数,用于data.table [,lapply(.SD,Mode),by =.()]

我正在按组汇总data.table中的数据,在这里我需要在组中获取变量的单个值.我希望此值成为组的模式.我认为它应该是模式,因为通常一组是8行,一个值有2行,而另外6个左右的行是另一个值. 这是一个简化的示例, key1 2 key1 2 key1 2 key1 8 key1 2 key1 2 key1 2 key1 8 我想要这个: key1 2 我在使用base R提 ..
发布时间:2020-09-20 20:02:51 其他开发

配置单元-分区和分区

我们应该缩小在Hive中对一组列使用分区还是存储分区的依据? 假设我们有一个庞大的数据集,其中有两个最常查询的列-所以我的明显选择可能是基于这两个列进行分区,但是如果这会导致大量的小数据在大量目录中创建的文件,那么根据这些列对数据进行分区将是一个错误的决定,并且可能进行存储分区是一个更好的选择. 我们可以定义一种方法来决定是否应该进行存储分区或分区吗? 解决方案 加壳和分区不是 ..
发布时间:2020-09-20 20:02:43 其他开发