PySpark:在多列中计算值的最快方法 [英] PySpark: Fastest way of counting values in multiple columns

查看:64
本文介绍了PySpark:在多列中计算值的最快方法的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我需要计算多列中的一个值,并且我想要列表中每列的所有这些单独计数.

I need to count a value in several columns and I want all those individual count for each column in a list.

有没有更快/更好的方法来做到这一点?因为我的解决方案需要相当长的时间.

Is there a faster/better way of doing this? Because my solution takes quite some time.

dataframe.cache()
list = [dataframe.filter(col(str(i)) == "value").count() for i in range(150)]

推荐答案

你可以试试下面的方法/设计

You can try the following approach/design

  1. 为数据框的每一行编写一个映射函数,如下所示:

VALUE = 'value'

def row_mapper(df_row):
    return [each == VALUE for each in df_row]

  1. 为以 2 行作为输入的数据框编写一个 reduce 函数:

def reduce_rows(df_row1, df_row2):
    return [x + y for x, y in zip(df_row1, df_row2)]

注意:这些是简单的python函数,可以帮助您理解一些可以直接应用在PySpark上的udf函数.

Note: these are simple python function to help you understand not some udf functions you can directly apply on PySpark.

这篇关于PySpark:在多列中计算值的最快方法的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆