星火数据帧从Python包)函数UDF( [英] Functions from Python packages for udf() of Spark dataframe
本文介绍了星火数据帧从Python包)函数UDF(的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
有关通过pyspark星火数据框,我们可以使用 pyspark.sql.functions.udf
来创建一个用户自定义函数(UDF)
。
For Spark dataframe via pyspark, we can use pyspark.sql.functions.udf
to create a user defined function (UDF)
.
我不知道如果我能在 UDF()
,例如 np.random.normal $ C $使用来自Python包的功能C>从numpy的?
I wonder if I can use any function from python packages in udf()
, e.g., np.random.normal
from numpy?
推荐答案
假设你想添加一个名为列新
来的数据帧东风
通过调用构造 numpy.random.normal
反反复复,你可以这样做:
Assuming you want to add a column named new
to your DataFrame df
constructed by calling numpy.random.normal
repeatedly, you could do:
import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType
udf = UserDefinedFunction(numpy.random.normal, DoubleType())
df_with_new_column = df.withColumn('new', udf())
这篇关于星火数据帧从Python包)函数UDF(的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文