checkpointing - IT屋-程序员软件开发技术分享社区

spark流检查点恢复非常非常慢

目标:通过 Spark 流从 Kinesis 读取数据并将数据以 Parquet 格式存储到 S3. 情况:应用程序最初运行良好，运行批次为 1 小时，处理时间平均不到 30 分钟.出于某种原因，可以说应用程序崩溃了，我们尝试从检查点重新启动.处理现在需要永远并且不会继续前进.我们试图以 1 分钟的批处理间隔测试相同的东西，处理运行良好，批处理需要 1.2 分钟才能完成.当我们从检查点恢复时，每 ..

发布时间：2021-11-27 10:21:49 apache-spark amazon-s3 spark-streaming amazon-kinesis checkpointing 其他开发

Spark Streaming 1.6.0 中检查点/WAL 的可靠性问题

说明我们在 Scala 中有一个 Spark Streaming 1.5.2 应用程序，它从 Kinesis Stream 读取 JSON 事件，执行一些转换/聚合并将结果写入不同的 S3 前缀.当前批处理间隔为 60 秒.我们有 3000-7000 个事件/秒.我们正在使用检查点来保护我们免于丢失聚合. 它运行良好有一段时间了，从异常中恢复，甚至集群重新启动.我们最近重新编译了 S ..

发布时间：2021-11-27 10:20:02 scala apache-spark spark-streaming amazon-kinesis checkpointing 其他开发

Apache Flink 将 S3 用于后端状态和检查点

背景我计划使用 S3 来使用 FsStateBackend 存储 Flink 的检查点.但不知何故，我收到了以下错误. 错误 org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: 找不到方案“s3"的文件系统实现.Flink 不直接支持该方案，并且无法加载支持该方案的 Hadoop 文件系统. Flink 版 ..

发布时间：2021-11-12 00:57:31 amazon-s3 apache-flink flink-streaming checkpoint checkpointing 其他开发

检查点在Apache Spark上有什么作用?

检查点对Apache Spark有什么作用，它会对RAM或CPU产生任何影响? 解决方案来自Apache Streaming 文档-希望对您有所帮助: 流媒体应用程序必须24/7全天候运行，因此必须能够抵抗与应用程序逻辑无关的故障(例如，系统故障，JVM崩溃等).为此，Spark Streaming需要为容错存储系统检查足够的信息，以便可以从故障中恢复.检查点有两种类型的数据. ..

发布时间：2021-04-08 20:02:02 hadoop apache-spark pyspark checkpointing 其他开发

Apache Flink将S3用于后端状态和检查点

背景我打算使用S3通过FsStateBackend存储Flink的检查点.但是不知何故我遇到了以下错误. 错误 org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 's3'. The scheme ..

发布时间：2020-11-08 21:08:42 amazon-s3 apache-flink flink-streaming checkpoint checkpointing 其他开发

H2O检查点参数更改错误-但未更改任何参数?

我正在尝试导出“模型"的权重和偏差，而我最初并未使用"export_weights_and_biases = TRUE"来训练模型因此，我想尝试检查模型并尝试在新的"model2"中将export_weights_and_biases = TRUE. 但是，尽管未更改任何参数-并确保 nfolds = 10 与原始“模型"一样，检查点模型仍几乎立即立即返回参数更改错误(H2O版本3. ..

发布时间：2020-07-19 20:17:24 r h2o checkpointing 其他开发

在Spark Streaming中是否需要检查点

我已经注意到，火花流示例也有用于检查点的代码.我的问题是检查点有多重要.如果它具有容错能力，那么在这种流应用程序中多久发生一次错误? 解决方案这完全取决于您的用例.假设您正在运行一个流作业，该作业仅从Kafka中读取数据并计算记录数.如果您的应用程序在一年左右后崩溃，该怎么办? 如果没有备份/检查点，则必须重新计算过去一年中所有有价值的数据，以便您可以继续计数. 如果您有备份/检 ..

发布时间：2020-07-19 20:17:22 scala apache-spark checkpointing 其他开发

Tensorflow中的可变范围

我在有效使用可变范围方面遇到问题.我想为简单循环网络的权重，偏差和内部状态定义一些变量.定义默认图形后，我一次调用get_saver().然后，我使用tf.scan迭代一批样本. import tensorflow as tf import math import numpy as np INPUTS = 10 HIDDEN_1 = 2 BATCH_SIZE = 3 def batch_ ..

发布时间：2020-07-19 20:16:19 python-2.7 tensorflow checkpointing 其他开发

Spark Streaming Checkpoint恢复非常非常慢

目标:从Kinesis中读取数据，并通过火花流以Parquet格式将数据存储到S3中. 情况: 应用程序最初运行良好，可以批量运行1小时，平均处理时间少于30分钟.出于某种原因，可以说应用程序崩溃了，我们尝试从检查点重新启动.现在，该处理将永远进行，并且不会继续进行. 我们尝试以1分钟的批处理间隔测试同一件事，该处理运行良好，并且需要1.2分钟才能完成批处理.从检查点恢复后，每批次大约需要15分 ..

发布时间：2020-07-19 20:16:15 apache-spark amazon-s3 spark-streaming amazon-kinesis checkpointing 其他开发

Spark Streaming 1.6.0中检查点/WAL的可靠性问题

说明我们在Scala中有一个Spark Streaming 1.5.2应用程序，该应用程序从Kinesis Stream读取JSON事件，进行一些转换/聚合并将结果写入不同的S3前缀.当前的批处理间隔为60秒.我们有3000-7000个事件/秒.我们正在使用检查点来防止丢失聚合. 它运行良好已有一段时间，可以从异常中恢复，甚至可以重新启动群集.我们最近重新编译了Spark Strea ..

发布时间：2020-07-19 20:15:10 scala apache-spark spark-streaming amazon-kinesis checkpointing 其他开发

Spark Checkpointing非流式处理-Checkpoint文件可在后续作业运行或驱动程序中使用

来自有趣文章的本文: http://www.lifeisafile .com/Apache-Spark-Caching-Vs-Checkpointing/ "... ...检查点将rdd物理存储到hdfs中并破坏创建它的沿袭.即使在Spark应用程序终止后，检查点文件也不会被删除.检查点文件可用于后续作业运行或驱动程序.对RDD进行检查会导致重复计算，因为该操作将在执行实际的计算工作并写入检 ..

发布时间：2020-07-19 20:15:08 apache-spark checkpointing 其他开发

Keras回调继续跳过保存检查点，声称缺少val_acc

我将运行一些较大的模型，并尝试中间结果. 因此，我尝试在每个时期之后使用检查点来保存最佳模型. 这是我的代码: model = Sequential() model.add(LSTM(700, input_shape=(X_modified.shape[1], X_modified.shape[2]), return_sequences=True)) model.add(Drop ..

发布时间：2020-04-25 10:17:45 python-3.x keras checkpointing 其他开发

停止并重新开始VGG-16的培训

我正在使用预先训练的VGG-16模型进行图像分类.我要添加自定义的最后一层，因为我的分类类别数是10.我正在训练200个时代的模型. 我的问题是:如果我在某个时期随机停止(通过关闭python窗口)培训，有什么办法，比如说时期否. 50，然后从那里继续?我已经阅读过有关保存和重新加载模型的信息，但是我的理解是，该模型仅适用于我们的自定义模型，而不适用于像VGG-16这样的预训练模型. ..

发布时间：2020-04-25 10:03:16 python-3.x machine-learning keras checkpointing vgg-net AI人工智能

码头暂停和恢复使用criu

我正在从此版本的源代码中建立码头服务器： https://github.com/boucher/docker/tree/cr-combined git clone -b cr-combined --single-branch https://github.com/boucher/docker.git cd docker #make build #m ..

发布时间：2017-06-10 19:53:29 docker checkpointing Linux/Unix

checkpointing相关内容