检查点在Apache Spark上有什么作用? [英] What does checkpointing do on Apache Spark?

查看:71
本文介绍了检查点在Apache Spark上有什么作用?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

检查点对Apache Spark有什么作用,它会对RAM或CPU产生任何影响?

What does checkpointing do for Apache Spark, and does it take any hits on RAM or CPU?

推荐答案

来自Apache Streaming 文档-希望对您有所帮助:

From Apache Streaming Documentation - Hope it helps:

流媒体应用程序必须24/7全天候运行,因此必须能够抵抗与应用程序逻辑无关的故障(例如,系统故障,JVM崩溃等).为此,Spark Streaming需要为容错存储系统检查足够的信息,以便可以从故障中恢复.检查点有两种类型的数据.

A streaming application must operate 24/7 and hence must be resilient to failures unrelated to the application logic (e.g., system failures, JVM crashes, etc.). For this to be possible, Spark Streaming needs to checkpoint enough information to a fault- tolerant storage system such that it can recover from failures. There are two types of data that are checkpointed.

  • 元数据检查点-保存定义以下内容的信息:将计算流式传输到HDFS之类的容错存储.这是用于从运行该驱动程序的节点的故障中恢复流应用程序(稍后详细讨论).元数据包括:
    • 配置-用于创建流应用程序.
    • DStream操作-DStream的集合定义流应用程序的操作.
    • 批次不完整
    • 其作业已排队但尚未完成的批处理.

    总而言之,从驱动程序故障中恢复时,主要需要元数据检查点,而如果使用有状态转换,即使是基本功能,也需要数据或RDD检查点.

    To summarize, metadata checkpointing is primarily needed for recovery from driver failures, whereas data or RDD checkpointing is necessary even for basic functioning if stateful transformations are used.

    这篇关于检查点在Apache Spark上有什么作用?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆