如何使用列的平均值向 DataFrame 添加列 [英] How to add a column to a DataFrame with the mean of a column

查看:33
本文介绍了如何使用列的平均值向 DataFrame 添加列的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

有更好的方法吗?

val mean = df.select(avg("date")).first().getDouble(0)
df.withColumn("mean", lit(mean))

我认为避免调用操作是值得的......

I assume that it could worth it to avoid calling an action …

推荐答案

使用 broadcast 和叉积可以避免额外的操作:

It is possible to avoid additional action using broadcast with cross product:

import org.apache.spark.sql.functions.broadcast

df.crossJoin(broadcast(df.agg(avg("date"))))

或:

spark.conf.set("spark.sql.crossJoin.enabled", true)

df.join(broadcast(df.agg(avg("date"))))

不应该做的是使用窗口函数:

df.withColumn("avg", avg("date").over())

这篇关于如何使用列的平均值向 DataFrame 添加列的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆