写入时如何控制Spark作业创建的输出零件文件的数量? [英] How to control the number of output part files created by Spark job upon writing?

查看：237 发布时间：2020/9/4 7:36:05 apache-spark hive apache-spark-sql parquet

本文介绍了写入时如何控制Spark作业创建的输出零件文件的数量?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有几个Spark作业，每天处理数千个文件.文件大小可能从MB到GB.完成工作后，我通常使用以下代码保存

Hi I am having couple of Spark jobs which processes thousands of files every day. File size may very from MBs to GBs. After finishing job I usually save using the following code

finalJavaRDD.saveAsParquetFile("/path/in/hdfs"); OR
dataFrame.write.format("orc").save("/path/in/hdfs") //storing as ORC file as of Spark 1.4

Spark作业会在最终输出目录中创建大量小零件文件.据我了解，Spark为每个分区/任务创建零件文件，如果我错了，请纠正我.我们如何控制Spark创建的零件文件的数量?最后，我想使用这些parquet/orc目录创建Hive表，并且听说在没有大量小文件的情况下Hive运行缓慢.请指导我是Spark的新手.预先感谢.

Spark job creates plenty of small part files in final output directory. As far as I understand Spark creates part file for each partition/task please correct me if I am wrong. How do we control amount of part files Spark creates? Finally I would like to create Hive table using these parquet/orc directory and I heard Hive is slow when we have large no of small files. Please guide I am new to Spark. Thanks in advance.

写入时如何控制Spark作业创建的输出零件文件的数量? [英] How to control the number of output part files created by Spark job upon writing?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

写入时如何控制Spark作业创建的输出零件文件的数量? [英] How to control the number of output part files created by Spark job upon writing?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭