如何附加到 HDFS 中的同一个文件(spark 2.11) [英] How can I append to same file in HDFS(spark 2.11)

查看：30 发布时间：2021/11/14 21:38:02 apache-spark apache-spark-sql spark-streaming

本文介绍了如何附加到 HDFS 中的同一个文件(spark 2.11)的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在尝试使用 SparkStreaming 将流数据存储到 HDFS 中，但它不断在新文件中创建，而不是附加到一个文件或几个文件中

I am trying to store Stream Data into HDFS using SparkStreaming,but it Keep creating in new file insted of appending into one single file or few multiple files

如果一直创建n个文件，我觉得效率不会很高

If it keep creating n numbers of files,i feel it won't be much efficient

HDFS 文件系统

代码

lines.foreachRDD(f => {
  if (!f.isEmpty()) {
    val df = f.toDF().coalesce(1)
    df.write.mode(SaveMode.Append).json("hdfs://localhost:9000/MT9")
  }
 })

在我的 pom 中，我使用了各自的依赖项:

In my pom I am using respective dependencies:

spark-core_2.11
spark-sql_2.11
spark-streaming_2.11
spark-streaming-kafka-0-10_2.11

如何附加到 HDFS 中的同一个文件(spark 2.11) [英] How can I append to same file in HDFS(spark 2.11)

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

如何附加到 HDFS 中的同一个文件(spark 2.11) [英] How can I append to same file in HDFS(spark 2.11)

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭