合并火花数据框中的重复列 [英] Coalesce duplicate columns in spark dataframe

查看：29 发布时间：2021/11/14 21:45:55 scala spark-dataframe coalesce

本文介绍了合并火花数据框中的重复列的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个火花数据框，它可以有重复的列，具有不同的行值，是否可以合并这些重复的列并获得一个没有任何重复列的数据框

I have a spark data frame which can have duplicate columns, with different row values, is it possible to coalesce those duplicate columns and get a dataframe without any duplicate columns

示例:

|name |upload| name| upload1|

| null|  null|alice|    101|  
| null|  null|  bob|    231|   
|alice|   100| null|   null|   
|  bob|    23| null|   null|

应该变成-

|name |upload| upload1|

| alice|  null|  101|  
| bob |  null|   231|   
|alice|   100|  null|   
|  bob|    23|  null|

推荐答案

val DF1 = Seq(
  (None,          None,      Some("alice"), Some(101)), 
  (None,          None,      Some("bob"),   Some(231)),  
  (Some("alice"), Some(100), None,          None),  
  (Some("bob"),   Some(23),  None,          None)).
    toDF("name","upload", "name1", "upload1")

DF1.withColumn("name", coalesce($"name", $"name1")).drop("name1").show

+-----+------+-------+
| name|upload|upload1|
+-----+------+-------+
|alice|  null|    101|
|  bob|  null|    231|
|alice|   100|   null|
|  bob|    23|   null|
+-----+------+-------+

这篇关于合并火花数据框中的重复列的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

合并火花数据框中的重复列 [英] Coalesce duplicate columns in spark dataframe

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

合并火花数据框中的重复列 [英] Coalesce duplicate columns in spark dataframe

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭