如何在spark中将rdd对象转换为数据帧 [英] How to convert rdd object to dataframe in spark
问题描述
如何将 RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]
) 转换为数据帧 org.apache.spark.sql.DataFrame
.我使用 .rdd
将数据帧转换为 rdd.处理后我希望它回到数据框中.我该怎么做?
SparkSession
有许多 createDataFrame
方法,它们创建一个 DataFrame
给定 RDD
.我想其中一种适用于您的上下文.
例如:
def createDataFrame(rowRDD: RDD[Row], schema: StructType): DataFrame
<块引用>
使用给定的包含行的 RDD 创建一个 DataFrame模式.
How can I convert an RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]
) to a Dataframe org.apache.spark.sql.DataFrame
. I converted a dataframe to rdd using .rdd
. After processing it I want it back in dataframe. How can I do this ?
SparkSession
has a number of createDataFrame
methods that create a DataFrame
given an RDD
. I imagine one of these will work for your context.
For example:
def createDataFrame(rowRDD: RDD[Row], schema: StructType): DataFrame
Creates a DataFrame from an RDD containing Rows using the given schema.
这篇关于如何在spark中将rdd对象转换为数据帧的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!