将DAG转换为任务的巨大延迟 [英] Huge delays translating the DAG to tasks

查看:76
本文介绍了将DAG转换为任务的巨大延迟的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

这是我的步骤:

  1. 将spark应用提交到EMR集群
  2. 驱动程序启动,我可以看到Spark-ui(尚未创建阶段)
  3. 驱动程序从s3读取约3000个零件的orc文件,进行一些转换并将其保存回s3
  4. 执行保存应该在spark-ui中创建一些阶段,但是这些阶段要花很长时间才能出现在spark-ui中
  5. 出现阶段并开始执行

为什么我在第4步中遇到了这么大的延迟?在这段时间内,集群显然正在等待,CPU使用率为0%

Why am I getting that huge delay in step 4? During this time the cluster is apparently waiting for something and the CPU usage is 0%

谢谢

推荐答案

尽管有优点,但S3不是文件系统,对于处理复杂的二进制格式(通常在设计时考虑到实际的文件系统)而言,它不是最佳选择.在许多情况下,次要任务(如读取元数据)要比实际数据获取更为昂贵.

Despite its merits S3 is not a file system and it makes it a suboptimal choice for working with complex binary formats which are typically designed with actual file system in mind. In many cases secondary tasks (like reading metadata) are more expensive than the actual data fetching.

这篇关于将DAG转换为任务的巨大延迟的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆