scala - 如何将多个dataframe合并

查看:1692
本文介绍了scala - 如何将多个dataframe合并的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

我在计算数据的feature,id 是每个item的唯一标志,在数据库里是主键.
我每次计算feature的时候是一个一个计算的。也就是我得到的
dataframe1 = (id,feature1)
dataframe2 = (id,feature2)
....

我希望把数据最后整合成(id,feature1,feature2,feature3,....)
除了手动join,有没有快捷的办法?(feature有很多大概快100个,我觉得这样太没效率了)

解决方案

map成pairRdd<id,特征json>,union起来,reduce合并json,然后通过map把id添加到json里头变成rdd<json>再通过sqlContext.read().json转回df。

当然你也可以做sql拼装……

这篇关于scala - 如何将多个dataframe合并的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆