PySpark - 迭代数据帧的行 [英] PySpark - iterate rows of a Data Frame

查看:45
本文介绍了PySpark - 迭代数据帧的行的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我需要迭代 pyspark.sql.dataframe.DataFrame.DataFrame 的行.

I need to iterate rows of a pyspark.sql.dataframe.DataFrame.DataFrame.

我过去曾使用函数 iterrows() 在 Pandas 中完成过,但我需要在不使用 Pandas 的情况下为 pyspark 找到类似的东西.

I have done it in pandas in the past with the function iterrows() but I need to find something similar for pyspark without using pandas.

如果我对 myDF 中的行执行 : 它会迭代 columns.DataFrame

If I do for row in myDF: it iterates columns.DataFrame

谢谢

推荐答案

您可以使用 select 方法使用用户定义的函数对数据框进行操作,如下所示:

You can use select method to operate on your dataframe using a user defined function something like this :

    columns = header.columns
    my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
    myDF.select(*[my_udf(col(c)) for c in columns])

然后在选择中,您可以选择要对每一列执行的操作.

then inside the select you can choose what you want to do with each column .

这篇关于PySpark - 迭代数据帧的行的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆