PySpark - 迭代数据帧的行 [英] PySpark - iterate rows of a Data Frame

查看：45 发布时间：2021/6/24 20:43:37 pyspark

本文介绍了PySpark - 迭代数据帧的行的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我需要迭代 pyspark.sql.dataframe.DataFrame.DataFrame 的行.

I need to iterate rows of a pyspark.sql.dataframe.DataFrame.DataFrame.

我过去曾使用函数 iterrows() 在 Pandas 中完成过，但我需要在不使用 Pandas 的情况下为 pyspark 找到类似的东西.

I have done it in pandas in the past with the function iterrows() but I need to find something similar for pyspark without using pandas.

如果我对 myDF 中的行执行 : 它会迭代 columns.DataFrame

If I do for row in myDF: it iterates columns.DataFrame

谢谢

推荐答案

您可以使用 select 方法使用用户定义的函数对数据框进行操作，如下所示:

You can use select method to operate on your dataframe using a user defined function something like this :

    columns = header.columns
    my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
    myDF.select(*[my_udf(col(c)) for c in columns])

然后在选择中，您可以选择要对每一列执行的操作.

then inside the select you can choose what you want to do with each column .

这篇关于PySpark - 迭代数据帧的行的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

PySpark - 迭代数据帧的行 [英] PySpark - iterate rows of a Data Frame

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

PySpark - 迭代数据帧的行 [英] PySpark - iterate rows of a Data Frame

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭