如何将 Spark 中的 DataFrame 转换为 HadoopRDD [英] How to convert DataFrame in spark to HadoopRDD

查看:26
本文介绍了如何将 Spark 中的 DataFrame 转换为 HadoopRDD的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我喜欢在 spark 中将数据帧写入 dynamodb.所以我使用 rdd.saveAsHadoopDataset(JobConf).但是 rdd 类型不匹配.它需要 hadoopRDD 类型的 rdd.所以我喜欢将数据帧转换为 rdd.我使用过 df.rdd 这给了我 rdd 但不是 hadoopRDD.我正在使用 spark-scala API.如果有任何更好的方法可以从 spark 将 Dataframe 写入 Dyanmodb,这将有所帮助.

I like to write dataframe in spark to dynamodb. So I am using rdd.saveAsHadoopDataset(JobConf).But the rdd type is mismatch.It needs the rdd of type hadoopRDD.So I like to convert the dataframe to rdd.I had used df.rdd which gives me rdd but not of hadoopRDD. I am using spark-scala API.If is there any better way of writing Dataframe to Dyanmodb from spark that will help.

推荐答案

你不需要转换你的RDD.

You don't need to convert your RDD.

由于 Hadoop API 是围绕键值对构建的,Spark 会自动将 PairRDDFunctions(它增加了额外的功能)包装在 RDD 周围,其中数据存储在 Tuple2 对象中.所以你只需要将你的数据放入一个RDD[(T,V)],然后你就可以使用saveAsHadoopDataset方法了.

Because the Hadoop API structured around key-value pairs, Spark automatically wraps the PairRDDFunctions (which adds additional functionality) around RDDs where the data is stored in Tuple2 objects. So you only need to put your data into an RDD[(T,V)], then you'll have saveAsHadoopDataset method available.

这是一个例子:

import org.apache.hadoop.mapred.JobConf
val tupleRDD : RDD[(Int, Int)] = sc.parallelize(Array((1,2), (3,4), (5,6)))
val jobConf = new JobConf()

设置任何需要的设置.

tupleRDD.saveAsHadoopDataset(jobConf)

这篇关于如何将 Spark 中的 DataFrame 转换为 HadoopRDD的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆