首页
其他开发
Pyspark:重塑数据而无需聚合

Pyspark:重塑数据而无需聚合 [英] Pyspark: reshape data without aggregation

查看：62 发布时间：2021/4/8 19:28:01 apache-spark pyspark contingency

本文介绍了Pyspark:重塑数据而无需聚合的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我想在pyspark中将数据从4x3重塑为2x2，而不进行汇总.我当前的输出如下:

I want to reshape my data from 4x3 to 2x2 in pyspark without aggregating. My current output is the following:

columns = ['FAULTY', 'value_HIGH', 'count']
vals = [
    (1, 0, 141),
    (0, 0, 140),
    (1, 1, 21),
    (0, 1, 12)
]

我想要的是一个列联表，其中第二列为两个新的二进制列( value_HIGH_1 ， value_HIGH_0 )和 count 列-含义:


What I want is a contingency table with the second column as two new binary columns (value_HIGH_1, value_HIGH_0) and the values from the count column - meaning:
columns = ['FAULTY', 'value_HIGH_1', 'value_HIGH_0']
vals = [
    (1, 21, 141),
    (0, 12, 140)
]


推荐答案
您可以将 pivot 与 fake最大聚合次数结合使用(因为每个组只有一个元素):
You can use pivot with a fake maximum aggregation (since you have only one element for each group):
import pyspark.sql.functions as F
df.groupBy('FAULTY').pivot('value_HIGH').agg(F.max('count')).selectExpr(
    'FAULTY', '`1` as value_high_1', '`0` as value_high_0'
).show()
+------+------------+------------+
|FAULTY|value_high_1|value_high_0|
+------+------------+------------+
|     0|          12|         140|
|     1|          21|         141|
+------+------------+------------+


                        这篇关于Pyspark:重塑数据而无需聚合的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            重塑n维数组的视图而无需使用重塑;
                        
                    
                    
                        
                            EmailAddressAttribute而无需;
                        
                    
                    
                        
                            获取数据而无需下载到文件;
                        
                    
                    
                        
                            循环数据集而无需回发.;
                        
                    
                    
                        
                            重命名pyspark数据帧聚合的列;
                        
                    
                    
                        
                            排序数组数据，而无需修改内容;
                        
                    
                    
                        
                            如何通过JPA保留数据而无需主键;
                        
                    
                    
                        
                            操作/复制.CSV数据，而无需打开文件?;
                        
                    
                    
                        
                            重塑2：聚合函数的多重结果？;
                        
                    
                    
                        
                            从长到宽聚合并重塑;
                        
                    
                    
                        
                            从网站获取数据而无需访问数据库;
                        
                    
                    
                        
                            如何在ggplot2中绘制（复杂）堆叠的barplot，而无需复杂的手动数据聚合;
                        
                    
                    
                        
                            PySpark 数据帧上的自定义聚合;
                        
                    
                    
                        
                            使用 pyspark 分组、排名和聚合火花数据框;
                        
                    
                    
                        
                            发送数据而无需提交按钮(Javascript/jQuery);
                        
                    
                    
                        
                            在segue之间传递数据，而无需使用PrepareForSegue;
                        
                    
                    
                        
                            更新select2数据而无需重建控件;
                        
                    
                    
                        
                            从MATLAB矩阵中提取数据而无需for循环;
                        
                    
                    
                        
                            使用await异步获取数据而无需尝试捕获;
                        
                    
                    
                        
                            从Servlet到JSP获取数据而无需转发?;
                        
                    
                    
                        
                            通过telnet发送数据而无需按Enter键;
                        
                    
                    
                        
                            使用pyspark进行条件聚合;
                        
                    
                    
                        
                            Pyspark-多列聚合;
                        
                    
                    
                        
                            使用pyspark进行条件聚合;
                        
                    
                    
                        
                            ListView刷新，而无需notifyDataSetChange;


    
        
            其他开发最新文章
            
                    
                        
                            拒绝显示一个框架，因为它将'X-Frame-Options'设置为'sameorigin';
                        
                    
                    
                        
                            什么是＆QUOT; AW＆QUOT;在部分标志属性是什么意思？;
                        
                    
                    
                        
                            在运行npm install命令时获取'npm WARN弃用'警告;
                        
                    
                    
                        
                            cmake无法找到openssl;
                        
                    
                    
                        
                            从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件;
                        
                    
                    
                        
                            Twitter :: Error :: Forbidden  - 无法验证您的凭据;
                        
                    
                    
                        
                            我什么时候需要一个fb：app_id或者fb：admins？;
                        
                    
                    
                        
                            将.db文件导入R;
                        
                    
                    
                        
                            npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件;
                        
                    
                    
                        
                            拒绝执行内联脚本，因为它违反了以下内容安全策略指令：“script-src'self'”;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.