Pyspark 数据框 OrderBy 列列表 [英] Pyspark dataframe OrderBy list of columns

查看:26
本文介绍了Pyspark 数据框 OrderBy 列列表的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

在写入 csv 之前,我尝试在 pyspark 数据框中使用 OrderBy 函数,但如果我有列列表,我不确定是否使用 OrderBy 函数.

代码:

Cols = ['col1','col2','col3']df = df.OrderBy(cols,ascending=False)

解决方案

根据文档字符串/签名:

<块引用>

签名:df.orderBy(*cols, **kwargs)文档字符串:返回一个按指定列排序的新 DataFrame.:param cols: 要排序的列名或列名列表.:param 升序:布尔值或布尔值列表(默认为 True).

两者

df = spark.createDataFrame([(1, 2, 3)] )cols = ["_1", "_2", "_3"]df.orderBy(cols, 升序=假)

df.orderBy(*cols, 升序=假)

有效,以及与 list[pyspark.sql.Column] 等效.

I am trying to use OrderBy function in pyspark dataframe before I write into csv but I am not sure to use OrderBy functions if I have a list of columns.

Code:

Cols = ['col1','col2','col3']
df = df.OrderBy(cols,ascending=False)

解决方案

As per docstring / signature:

Signature: df.orderBy(*cols, **kwargs)
Docstring:
Returns a new :class:`DataFrame` sorted by the specified column(s).
:param cols: list of :class:`Column` or column names to sort by.
:param ascending: boolean or list of boolean (default True).

Both

df = spark.createDataFrame([(1, 2, 3)] )
cols = ["_1", "_2", "_3"]

df.orderBy(cols, ascending=False)

and

df.orderBy(*cols, ascending=False)

are valid, as well as equivalents with list[pyspark.sql.Column].

这篇关于Pyspark 数据框 OrderBy 列列表的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆