Spark Data Frame 写入镶木地板表 - 更新分区统计数据很慢 [英] Spark Data Frame write to parquet table - slow at updating partition stats

查看：23 发布时间：2021/11/14 23:16:32 apache-spark hive apache-spark-sql spark-dataframe

本文介绍了Spark Data Frame 写入镶木地板表 - 更新分区统计数据很慢的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

当我在所有任务成功后将数据帧中的数据写入镶木地板表(已分区)时，进程卡在更新分区统计信息上.

When I write data from dataframe into parquet table ( which is partitioned ) after all the tasks are successful, process is stuck at updating partition stats.

16/10/05 03:46:13 WARN log: Updating partition stats fast for: 
16/10/05 03:46:14 WARN log: Updated size to 143452576
16/10/05 03:48:30 WARN log: Updating partition stats fast for: 
16/10/05 03:48:31 WARN log: Updated size to 147382813
16/10/05 03:51:02 WARN log: Updating partition stats fast for: 



df.write.format("parquet").mode("overwrite").partitionBy(part1).insertInto(db.tbl)

我的表有 > 400 列和 > 1000 个分区.如果我们可以优化和加速更新分区统计信息，请告诉我.

My table has > 400 columns and > 1000 partitions. Please let me know if we can optimize and speedup updating partition stats.

Spark Data Frame 写入镶木地板表 - 更新分区统计数据很慢 [英] Spark Data Frame write to parquet table - slow at updating partition stats

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

Spark Data Frame 写入镶木地板表 - 更新分区统计数据很慢 [英] Spark Data Frame write to parquet table - slow at updating partition stats

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭