如何使用列的平均值将列添加到DataFrame中 [英] How to add a column to a DataFrame with the mean of a column
本文介绍了如何使用列的平均值将列添加到DataFrame中的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
有更好的方法吗?
val mean = df.select(avg("date")).first().getDouble(0)
df.withColumn("mean", lit(mean))
我认为避免调用某个动作是值得的……
I assume that it could worth it to avoid calling an action …
推荐答案
使用broadcast
与叉乘积可以避免采取其他措施:
It is possible to avoid additional action using broadcast
with cross product:
import org.apache.spark.sql.functions.broadcast
df.crossJoin(broadcast(df.agg(avg("date"))))
或:
spark.conf.set("spark.sql.crossJoin.enabled", true)
df.join(broadcast(df.agg(avg("date"))))
您不应该使用的是窗口功能:
df.withColumn("avg", avg("date").over())
这篇关于如何使用列的平均值将列添加到DataFrame中的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文