星火数据帧从Python包)函数UDF( [英] Functions from Python packages for udf() of Spark dataframe

查看:330
本文介绍了星火数据帧从Python包)函数UDF(的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

有关通过pyspark星火数据框,我们可以使用 pyspark.sql.functions.udf 来创建一个用户自定义函数(UDF)

For Spark dataframe via pyspark, we can use pyspark.sql.functions.udf to create a user defined function (UDF).

我不知道如果我能在 UDF(),例如 np.random.normal 从numpy的?

I wonder if I can use any function from python packages in udf(), e.g., np.random.normal from numpy?

推荐答案

假设你想添加一个名为列来的数据帧东风通过调用构造 numpy.random.normal 反反复复,你可以这样做:

Assuming you want to add a column named new to your DataFrame df constructed by calling numpy.random.normal repeatedly, you could do:

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())

这篇关于星火数据帧从Python包)函数UDF(的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆