用标量乘以PySpark数组列 [英] Multiply PySpark array column by a scalar

查看:0
本文介绍了用标量乘以PySpark数组列的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试将数组类型的列乘以标量。此标量也是同一个PySpark数据帧中的值。

例如,我有这样的数据帧:

df = sc.parallelize([([1, 2],3)]).toDF(["l","factor"])
+------+------+
|     l|factor|
+------+------+
|[1, 2]|     3|
+------+------+

我想要实现的是:

+------+------+
|     l|factor|
+------+------+
|[3, 6]|     3|
+------+------+

这是我尝试过的:

df.withColumn("l", lit("factor") * df.l)
它返回类型不匹配错误。 如何将数组类型的列乘以数字?

推荐答案

来自spark-2.4使用transform

spark.sql(""" select l, factor, transform(l,x -> x * factor) as result from tmp """).show(10,False)
#+------+------+------+
#|l     |factor|result|
#+------+------+------+
#|[1, 2]|3     |[3, 6]|
#+------+------+------+

使用dataframe API:

df.withColumn("res",expr("""transform(l,x -> x*factor)""")).show()
#+------+------+------+
#|     l|factor|   res|
#+------+------+------+
#|[1, 2]|     3|[3, 6]|
#+------+------+------+

这篇关于用标量乘以PySpark数组列的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆