spark-dataframe相关内容

我应该避免在数据集/数据框中使用 groupby() 吗?

我知道在 RDD 中,我们不鼓励使用 groupByKey,并鼓励使用诸如 reduceByKey() 和 aggregateByKey() 之类的替代方法,因为这些其他方法将首先减少每个分区,然后执行 groupByKey() 从而减少被洗牌的数据量. 现在,我的问题是这是否仍然适用于数据集/数据帧?我在想,由于催化剂引擎做了很多优化,催化剂会自动知道它应该在每个分区上减少,然后执行 gr ..

如何使用 saveAsTextFile 在 spark 数据框中进行自定义分区

我已经在Spark中创建了数据,然后进行了join操作,最后我必须将输出保存到分区文件中. 我正在将数据帧转换为 RDD,然后保存为允许我使用多字符分隔符的文本文件.我的问题是在这种情况下如何使用数据框列作为自定义分区. 我不能为自定义分区使用以下选项,因为它不支持多字符分隔符: dfMainOutput.write.partitionBy("DataPartition","Stat ..
发布时间:2021-11-14 22:44:40 其他开发

Spark 中 UDAF 与聚合器的性能对比

我正在尝试在 Spark 中编写一些注重性能的代码,并想知道我是否应该编写一个 Aggregator 或 用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案 你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use ..

SPARK read.json 抛出 java.io.IOException: 换行前字节太多

我在读取一个 6gb 的大单行 json 文件时遇到以下错误: 作业因阶段失败而中止:阶段 0.0 中的任务 5 失败 1 次,最近一次失败:阶段 0.0 中的任务 5.0 丢失(TID 5,本地主机):java.io.IOException:换行前的字节太多: 2147483648 spark 不会读取带有新行的 json 文件,因此整个 6 GB json 文件都在一行上: jf = s ..
发布时间:2021-11-14 22:42:27 其他开发

Spark Scala - 如何迭代数据帧中的行,并将计算值添加为数据帧的新列

我有一个包含“date"和“value"两列的数据框,如何向数据框中添加 2 个新列“value_mean"和“value_sd",其中“value_mean"是过去 10 个“value"的平均值天(包括“日期"中指定的当天)和“value_sd"是过去 10 天“值"的标准偏差? 解决方案 Spark sql 提供 各种数据框函数,如avg、mean、sum等 您只需要使用 sp ..
发布时间:2021-11-14 22:42:03 其他开发

需要了解 Dataframe Spark 中的分区细节

我正在尝试根据查询从 DB2 数据库中读取数据.查询的结果集大约有 20 - 4000 万条记录.DF 的分区是基于一个整数列完成的. 我的问题是,一旦加载了数据,我如何检查每个分区创建了多少条记录.基本上我想检查的是数据倾斜是否发生?如何检查每个分区的记录数? 解决方案 例如,您可以映射分区并确定它们的大小: val rdd = sc.parallelize(0 到 1000, ..
发布时间:2021-11-14 22:41:23 其他开发