如何在HDFS(Spark 2.11)中附加到同一文件 [英] How can I append to same file in HDFS(spark 2.11)

查看：174 发布时间：2020/9/4 4:57:53 apache-spark apache-spark-sql spark-streaming

本文介绍了如何在HDFS(Spark 2.11)中附加到同一文件的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在尝试使用SparkStreaming将流数据存储到HDFS中，但是它会继续在 新文件 中创建，以将其追加到一个文件或几个多个文件中

I am trying to store Stream Data into HDFS using SparkStreaming,but it Keep creating in new file insted of appending into one single file or few multiple files

如果继续创建n个文件，我觉得效率不高

If it keep creating n numbers of files,i feel it won't be much efficient

HDFS文件系统

HDFS FILE SYSYTEM

代码

Code

lines.foreachRDD(f => {
  if (!f.isEmpty()) {
    val df = f.toDF().coalesce(1)
    df.write.mode(SaveMode.Append).json("hdfs://localhost:9000/MT9")
  }
 })

在pom中，我正在使用各自的依赖项:

In my pom I am using respective dependencies:

spark-core_2.11
spark-sql_2.11
spark-streaming_2.11
spark-streaming-kafka-0-10_2.11

如何在HDFS(Spark 2.11)中附加到同一文件 [英] How can I append to same file in HDFS(spark 2.11)

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

如何在HDFS(Spark 2.11)中附加到同一文件 [英] How can I append to same file in HDFS(spark 2.11)

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭