stream-processing相关内容

Akka Stream Kafka 与 Kafka Streams

我目前正在使用 Akka Stream Kafka与 kafka 交互,我想知道与 Kafka Streams 有什么区别. 我知道基于 Akka 的方法实现了响应式规范并处理了 kafka 流似乎缺乏的背压功能. 与 akka 流 kafka 相比,使用 kafka 流有什么优势? 解决方案 你的问题很笼统,我就从我的角度给出一个笼统的答案. 首先,我有两个使用场景: ..

kappa-architecture 和 lambda-architecture 有什么区别

如果 Kappa-Architecture 直接对流进行分析而不是将数据拆分为两个流,那么在像 Kafka 这样的消息系统中,数据存储在哪里?还是可以在数据库中重新计算? 单独的批处理层是否比使用流处理引擎重新计算进行批处理更快? 解决方案 “要考虑的一个非常简单的情况是算法应用于实时数据和历史数据是一致的.那么就是使用相同的代码库来处理显然非常有益历史和实时数据,从而实现用例使 ..

Apache Flink 如何从检查点/保存点恢复状态?

我需要知道 Apache Flink 如何从检查点恢复其状态,因为在运行纯作业与从保存点恢复时,我看不到启动时间和在运算符中看到第一个事件之间的任何区别. 状态是否从检查点/保存点延迟加载? 解决方案 键控状态接口旨在使这种区别变得透明.正如 Dawid 所提到的,状态是在作业启动期间加载的.请注意,加载状态的含义取决于正在使用的状态后端. 在操作符状态的情况下,Checkpo ..
发布时间:2021-11-12 01:18:05 其他开发

Apache Flink - 事件时间窗口

我想在 Apache flink 中创建键控窗口,以便每个键的窗口在键的第一个事件到达后 n 分钟执行.是否可以使用事件时间特性来完成(因为处理时间取决于系统时钟,并且不确定第一个事件何时到达).如果可能,请解释事件时间和水印的分配也给事件,并解释如何在 n 分钟后调用进程窗口函数. 下面是代码的一部分,可以让您了解我目前在做什么: //制作键控事件以便为一个键启动一个窗口KeyedStr ..
发布时间:2021-11-12 01:17:51 Java开发

为什么 Apache Flink 需要 Watermarks 来进行事件时间处理?

谁能正确解释事件时间戳和水印.我从文档中理解它,但不是很清楚.现实生活中的例子或外行定义会有所帮助.另外,如果可以的话,请举一个例子(连同一些可以解释它的代码片段).提前致谢 解决方案 以下示例说明了我们为什么需要水印,以及它们的工作原理. 在这个例子中,我们有一个带时间戳的事件流,这些事件的到达顺序有点乱,如下所示.显示的数字是事件时间时间戳,指示这些事件实际发生的时间.第一个到达 ..
发布时间:2021-11-12 01:01:35 其他开发

实践中(非理论)小批量与实时流之间有什么区别?

实践中(非理论)小批量与实时流之间有什么区别?理论上,我理解小批量是在给定的时间范围内进行批量处理,而实时流更像是在数据到达时做一些事情,但我最大的问题是为什么不使用带有 epsilon 时间范围(例如一毫秒)的小批量或我想了解为什么一个方法比其他方法更有效? 我最近遇到了一个示例,其中小批量 (Apache Spark) 用于欺诈检测,实时流 (Apache Flink) 用于欺诈预防.有 ..

在 Flink 中的操作员之间共享状态

我想知道 Flink 中是否可以在操作员之间共享状态. 例如,我在操作符上按键进行分区,并且我需要在分区 C 内有一个分区 A 的状态(出于任何原因)(图 1.a),或者我需要下游操作符 F 中操作符 C 的状态(图 1.b). 我知道可以将记录广播到所有分区.因此,如果您在记录中包含运算符的内部状态,则可以与下游运算符共享您的内部状态. 然而,这可能是一个昂贵的操作,而不是简单地让 ..
发布时间:2021-11-12 00:58:24 其他开发

流处理器的ArrowCircuit实例可能会阻塞

Control.Arrow.Operations.ArrowCircuit 类用于: 可用于解释同步电路的箭头类型. 我想知道同步在这里是什么意思.我在 Wikipedia 上进行了查找,他们在这里谈论数字电子.我的电子设备很生锈,所以这里有个问题:所谓的异步流处理器这样的实例有什么问题(如果有的话): data StreamProcessor a b =获取(a-> Stream ..

Flink-RocksDB中的localdir配置是什么?

我是flink的新手,并且对状态后端配置有些困惑. 据我所知,RocksDB将应用程序的所有状态保存在文件系统上.我使用s3存储状态,因此我同时配置了 state.checkpoints.dir 和 state.savepoints.dir 指向我的s3存储桶.现在,我发现还有一个与RocksDB存储相关的选项,称为 state.backend.rocksdb.localdir .这是什么目 ..
发布时间:2021-04-08 18:36:53 其他开发

Flink-无法从检查点恢复

我正在使用一个Jobmanager和2个Taskmanager在kubernetes上运行我的集群.我通过在作业运行时杀死taskmanager吊舱之一来测试检查点的机制.我在jobmanager和重新启动的taskmanager上遇到以下异常: Jobmanager例外: java.lang.Exception:创建StreamOperatorStateContext时发生异常.在or ..
发布时间:2021-04-08 18:36:02 其他开发

Apache Flink-事件时间窗口

我想在Apache flink中创建键控窗口,以便每个键的窗口在键的第一个事件到达后的n分钟内执行.是否可以使用事件时间特征来完成(因为处理时间取决于系统时钟,并且不确定第一个事件何时到达).如果可能,请同时说明事件的时间和水印分配给事件,并说明在n分钟后如何调用过程窗口功能. 下面是代码的一部分,可以使您了解我目前正在做什么: //Make keyed eve ..
发布时间:2020-07-10 01:50:19 其他开发

如何重新启动Apache Apex应用程序?

从 apex文档中可以明显看出,使用apache apex启动的应用可以是使用以下命令杀死或关闭: shutdown-app. 但是,当应用程序关闭(关闭/关闭)时,如何从以前的状态重新启动呢? 解决方案 Apache Apex 提供了命令行界面,"apex" (先前称为"dtcli")脚本,以与应用程序进行交互.一旦应用程序关闭或终止,您可以使用以下命令重新启动它: laun ..
发布时间:2020-07-10 01:50:09 其他开发

为什么Apache Flink需要用于事件时间处理的水印?

有人可以正确解释事件时间戳和水印吗?我从文档中了解了此信息,但目前尚不清楚.现实生活中的例子或外行人的定义会有所帮助.另外,如果可能的话,请举一个示例(以及一些可以解释它的代码段).预先感谢 解决方案 下面是一个示例,说明了我们为什么需要水印以及它们如何工作. 在此示例中,我们添加了带有时间戳的事件流,这些事件有时有些乱序,如下所示.显示的数字是事件时间时间戳,指示这些事件实际发生的 ..
发布时间:2020-07-10 01:49:02 其他开发

在实践中,迷你批处理与实时流之间有什么区别(不是理论上的区别)?

在实践中,迷你批处理与实时流之间有什么区别(不是理论上的区别)?从理论上讲,我了解到迷你批处理是在给定的时间范围内进行批处理,而实时流更像是在数据到达时执行某些操作,但是我最大的问题是为什么不使用带有epsilon时间帧(例如一毫秒)的迷你批处理?想了解为什么一个解决方案比其他解决方案有效的原因? 我最近遇到了一个例子,其中迷你批处理(Apache Spark)用于欺诈检测,而实时流处理(A ..

kappa体系结构和lambda体系结构有什么区别

如果Kappa体系结构直接在流上进行分析,而不是将数据分成两个流,那么在像Kafka这样的消息系统中,数据存储在哪里?还是可以在数据库中进行重新计算? 与使用流处理引擎重新计算以进行批处理分析相比,单独的批处理层是否更快? 解决方案 “要考虑的一个非常简单的情况是,当算法应用于 实时数据和历史数据是相同的.那是 使用相同的代码库显然非常有益 历史和实时数据,从而实现用例 使用Ka ..