PySpark - 迭代数据帧的行 [英] PySpark - iterate rows of a Data Frame
本文介绍了PySpark - 迭代数据帧的行的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我需要迭代 pyspark.sql.dataframe.DataFrame.DataFrame 的行.
I need to iterate rows of a pyspark.sql.dataframe.DataFrame.DataFrame.
我过去曾使用函数 iterrows() 在 Pandas 中完成过,但我需要在不使用 Pandas 的情况下为 pyspark 找到类似的东西.
I have done it in pandas in the past with the function iterrows() but I need to find something similar for pyspark without using pandas.
如果我对 myDF 中的行执行 :
它会迭代 columns.DataFrame
If I do for row in myDF:
it iterates columns.DataFrame
谢谢
推荐答案
您可以使用 select 方法使用用户定义的函数对数据框进行操作,如下所示:
You can use select method to operate on your dataframe using a user defined function something like this :
columns = header.columns
my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
myDF.select(*[my_udf(col(c)) for c in columns])
然后在选择中,您可以选择要对每一列执行的操作.
then inside the select you can choose what you want to do with each column .
这篇关于PySpark - 迭代数据帧的行的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文