Spark:将RDD保存在HDFS中已存在的路径中 [英] Spark: Saving RDD in an already existing path in HDFS

查看:2034
本文介绍了Spark:将RDD保存在HDFS中已存在的路径中的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我可以使用 saveAsTextFile 方法将RDD输出保存到HDFS。如果文件路径已经存在,此方法将引发异常。

我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中。有没有一种方法可以将新的RDD数据附加到已经存在于同一路径中的数据? 一个解决方案

可能的解决方案,自Spark 1.6以来可用的解决方案是使用 DataFrames text 格式和 append mode:

  val outputPath:String = ??? 

rdd.map(_。toString).toDF.write.mode(append).text(outputPath)


I am able to save the RDD output to HDFS with saveAsTextFile method. This method throws an exception if the file path already exists.

I have a use case where I need to save the RDDS in an already existing file path in HDFS. Is there a way to do just append the new RDD data to the data that is already existing in the same path?

解决方案

One possible solution, available since Spark 1.6, is to use DataFrames with text format and append mode:

val outputPath: String = ???

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)

这篇关于Spark:将RDD保存在HDFS中已存在的路径中的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆