首页
Python
pyspark 数据帧中的自定义排序

pyspark 数据帧中的自定义排序 [英] Custom sorting in pyspark dataframes

查看：31 发布时间：2021/11/14 23:09:15 python pandas apache-spark pyspark apache-spark-sql

本文介绍了pyspark 数据帧中的自定义排序的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

是否有任何推荐的方法可以为 pyspark 中的分类数据实现自定义排序?理想情况下，我正在寻找 Pandas 分类数据类型提供的功能.

Are there any recommended methods for implementing custom sort ordering for categorical data in pyspark? I'm ideally looking for the functionality the pandas categorical data type offers.

因此，给定具有 Speed 列的数据集，可能的选项是 [Super Fast"、Fast"、Medium"、Slow"].我想实现适合上下文的自定义排序.


So, given a dataset with a Speed column, the possible options are ["Super Fast", "Fast", "Medium", "Slow"]. I want to implement custom sorting that will fit the context.
如果我使用默认排序，类别将按字母顺序排序.Pandas 允许将列数据类型更改为 categorical 并且定义的一部分给出了自定义排序顺序:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html
If I use the default sorting the categories will be sorted alphabetically. Pandas allows to change the column data type to be categorical and part of the definition gives a custom sort order: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html
推荐答案
您可以使用 orderBy 并使用 when 定义您的自定义排序:
You can use orderBy and define your custom ordering using when:
from pyspark.sql.functions col, when

df.orderBy(when(col("Speed") == "Super Fast", 1)
           .when(col("Speed") == "Fast", 2)
           .when(col("Speed") == "Medium", 3)
           .when(col("Speed") == "Slow", 4)
           )


                        这篇关于pyspark 数据帧中的自定义排序的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            pyspark数据帧中的自定义排序;
                        
                    
                    
                        
                            PySpark 数据帧上的自定义聚合;
                        
                    
                    
                        
                            在PySpark数据帧上进行自定义聚合;
                        
                    
                    
                        
                            pyspark 数据框上的自定义函数;
                        
                    
                    
                        
                            自定义pySpark中的大型数据集比较;
                        
                    
                    
                        
                            PySpark：分组数据聚合中的自定义功能;
                        
                    
                    
                        
                            使用自定义排序进行自定义排序;
                        
                    
                    
                        
                            熊猫数据框中的自定义排序;
                        
                    
                    
                        
                            自定义排序;
                        
                    
                    
                        
                            Pyspark:自定义窗口函数;
                        
                    
                    
                        
                            Pyspark:自定义窗口功能;
                        
                    
                    
                        
                            在熊猫数据框中自定义排序;
                        
                    
                    
                        
                            Pyspark 2.1.0中的自定义分区程序;
                        
                    
                    
                        
                            Pyspark 2.1.0 中的自定义分区器;
                        
                    
                    
                        
                            NSFetchedResultsController中的自定义排序;
                        
                    
                    
                        
                            Powershell中的自定义排序;
                        
                    
                    
                        
                            QTableWidget 中的自定义排序;
                        
                    
                    
                        
                            SQL 中的自定义排序;
                        
                    
                    
                        
                            Django 中的自定义排序;
                        
                    
                    
                        
                            如何自定义数据表列的排序;
                        
                    
                    
                        
                            用于大量数据的自定义排序算法;
                        
                    
                    
                        
                            定义自定义排序顺序;
                        
                    
                    
                        
                            PySpark DataFrame:自定义爆炸函数;
                        
                    
                    
                        
                            多级熊猫数据框中的自定义排序列;
                        
                    
                    
                        
                            KendoUI网格/数据源中的自定义排序;


    
        
            Python最新文章
            
                    
                        
                            类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量;
                        
                    
                    
                        
                            bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？;
                        
                    
                    
                        
                            系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）;
                        
                    
                    
                        
                            （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape;
                        
                    
                    
                        
                            将pandas dataframe中的列从int转换为string;
                        
                    
                    
                        
                            Python：由实例对象调用方法：“missing 1 required positional argument：'self'”;
                        
                    
                    
                        
                            Sparksql过滤与多个条件（与where子句中选择）;
                        
                    
                    
                        
                            JSONDe codeError：期待值：1行1列（CHAR 0）;
                        
                    
                    
                        
                            Cmake不能找到Python库;
                        
                    
                    
                        
                            Python  - 将Dataframe中的所有项目转换为字符串;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.