如何在spark中将rdd对象转换为数据帧 [英] How to convert rdd object to dataframe in spark

查看:25
本文介绍了如何在spark中将rdd对象转换为数据帧的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何将 RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) 转换为数据帧 org.apache.spark.sql.DataFrame.我使用 .rdd 将数据帧转换为 rdd.处理后我希望它回到数据框中.我该怎么做?

解决方案

SparkSession 有许多 createDataFrame 方法,它们创建一个 DataFrame 给定 RDD.我想其中一种适用于您的上下文.

例如:

def createDataFrame(rowRDD: RDD[Row], schema: StructType): DataFrame

<块引用>

使用给定的包含行的 RDD 创建一个 DataFrame模式.

How can I convert an RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) to a Dataframe org.apache.spark.sql.DataFrame. I converted a dataframe to rdd using .rdd. After processing it I want it back in dataframe. How can I do this ?

解决方案

SparkSession has a number of createDataFrame methods that create a DataFrame given an RDD. I imagine one of these will work for your context.

For example:

def createDataFrame(rowRDD: RDD[Row], schema: StructType): DataFrame

Creates a DataFrame from an RDD containing Rows using the given schema.

这篇关于如何在spark中将rdd对象转换为数据帧的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆