scala - 如何将多个dataframe合并
本文介绍了scala - 如何将多个dataframe合并的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
我在计算数据的feature,id 是每个item的唯一标志,在数据库里是主键.
我每次计算feature的时候是一个一个计算的。也就是我得到的
dataframe1 = (id,feature1)
dataframe2 = (id,feature2)
....
我希望把数据最后整合成(id,feature1,feature2,feature3,....)
除了手动join,有没有快捷的办法?(feature有很多大概快100个,我觉得这样太没效率了)
解决方案
map成pairRdd<id,特征json>,union起来,reduce合并json,然后通过map把id添加到json里头变成rdd<json>再通过sqlContext.read().json转回df。
当然你也可以做sql拼装……
这篇关于scala - 如何将多个dataframe合并的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文