stream-processing相关内容
我在 Java 中使用过 Kafka Streams.我在 python 中找不到类似的 API.Apache Kafka 是否支持 Python 中的流处理? 解决方案 Kafka Streams 仅作为 JVM 库提供,但至少有两个 Python 实现它 robinhood/faust(截至 2020 年未维护,但 被分叉) wintincode/winton-kafka-st
..
我目前正在使用 Akka Stream Kafka与 kafka 交互,我想知道与 Kafka Streams 有什么区别. 我知道基于 Akka 的方法实现了响应式规范并处理了 kafka 流似乎缺乏的背压功能. 与 akka 流 kafka 相比,使用 kafka 流有什么优势? 解决方案 你的问题很笼统,我就从我的角度给出一个笼统的答案. 首先,我有两个使用场景:
..
我在 Java 中使用过 Kafka Streams.我在 python 中找不到类似的 API.Apache Kafka 是否支持 Python 中的流处理? 解决方案 Kafka Streams 仅作为 JVM 库提供,但至少有两个 Python 实现它 robinhood/faust(截至 2020 年未维护,但 被分叉) wintincode/winton-kafka-st
..
如果 Kappa-Architecture 直接对流进行分析而不是将数据拆分为两个流,那么在像 Kafka 这样的消息系统中,数据存储在哪里?还是可以在数据库中重新计算? 单独的批处理层是否比使用流处理引擎重新计算进行批处理更快? 解决方案 “要考虑的一个非常简单的情况是算法应用于实时数据和历史数据是一致的.那么就是使用相同的代码库来处理显然非常有益历史和实时数据,从而实现用例使
..
我需要知道 Apache Flink 如何从检查点恢复其状态,因为在运行纯作业与从保存点恢复时,我看不到启动时间和在运算符中看到第一个事件之间的任何区别. 状态是否从检查点/保存点延迟加载? 解决方案 键控状态接口旨在使这种区别变得透明.正如 Dawid 所提到的,状态是在作业启动期间加载的.请注意,加载状态的含义取决于正在使用的状态后端. 在操作符状态的情况下,Checkpo
..
我想在 Apache flink 中创建键控窗口,以便每个键的窗口在键的第一个事件到达后 n 分钟执行.是否可以使用事件时间特性来完成(因为处理时间取决于系统时钟,并且不确定第一个事件何时到达).如果可能,请解释事件时间和水印的分配也给事件,并解释如何在 n 分钟后调用进程窗口函数. 下面是代码的一部分,可以让您了解我目前在做什么: //制作键控事件以便为一个键启动一个窗口KeyedStr
..
谁能正确解释事件时间戳和水印.我从文档中理解它,但不是很清楚.现实生活中的例子或外行定义会有所帮助.另外,如果可以的话,请举一个例子(连同一些可以解释它的代码片段).提前致谢 解决方案 以下示例说明了我们为什么需要水印,以及它们的工作原理. 在这个例子中,我们有一个带时间戳的事件流,这些事件的到达顺序有点乱,如下所示.显示的数字是事件时间时间戳,指示这些事件实际发生的时间.第一个到达
..
实践中(非理论)小批量与实时流之间有什么区别?理论上,我理解小批量是在给定的时间范围内进行批量处理,而实时流更像是在数据到达时做一些事情,但我最大的问题是为什么不使用带有 epsilon 时间范围(例如一毫秒)的小批量或我想了解为什么一个方法比其他方法更有效? 我最近遇到了一个示例,其中小批量 (Apache Spark) 用于欺诈检测,实时流 (Apache Flink) 用于欺诈预防.有
..
我想知道 Flink 中是否可以在操作员之间共享状态. 例如,我在操作符上按键进行分区,并且我需要在分区 C 内有一个分区 A 的状态(出于任何原因)(图 1.a),或者我需要下游操作符 F 中操作符 C 的状态(图 1.b). 我知道可以将记录广播到所有分区.因此,如果您在记录中包含运算符的内部状态,则可以与下游运算符共享您的内部状态. 然而,这可能是一个昂贵的操作,而不是简单地让
..
Control.Arrow.Operations.ArrowCircuit 类用于: 可用于解释同步电路的箭头类型. 我想知道同步在这里是什么意思.我在 Wikipedia 上进行了查找,他们在这里谈论数字电子.我的电子设备很生锈,所以这里有个问题:所谓的异步流处理器这样的实例有什么问题(如果有的话): data StreamProcessor a b =获取(a-> Stream
..
我是flink的新手,并且对状态后端配置有些困惑. 据我所知,RocksDB将应用程序的所有状态保存在文件系统上.我使用s3存储状态,因此我同时配置了 state.checkpoints.dir 和 state.savepoints.dir 指向我的s3存储桶.现在,我发现还有一个与RocksDB存储相关的选项,称为 state.backend.rocksdb.localdir .这是什么目
..
我正在使用一个Jobmanager和2个Taskmanager在kubernetes上运行我的集群.我通过在作业运行时杀死taskmanager吊舱之一来测试检查点的机制.我在jobmanager和重新启动的taskmanager上遇到以下异常: Jobmanager例外: java.lang.Exception:创建StreamOperatorStateContext时发生异常.在or
..
我想在Apache flink中创建键控窗口,以便每个键的窗口在键的第一个事件到达后的n分钟内执行.是否可以使用事件时间特征来完成(因为处理时间取决于系统时钟,并且不确定第一个事件何时到达).如果可能,请同时说明事件的时间和水印分配给事件,并说明在n分钟后如何调用过程窗口功能. 下面是代码的一部分,可以使您了解我目前正在做什么: //Make keyed eve
..
最近,发布了Apache flink的稳定版本(1.6.2).我阅读了此说明.但是当我运行以下命令时: ./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000 我收到以下错误: The program finished with the following exception: org.a
..
我们有使用Avro的Kafka流.我需要将其连接到Spark Stream. 我将波纹管代码用作 Lev G 建议. kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}, valueDecoder=MessageSerializer.decode_message) 通过s
..
从 apex文档中可以明显看出,使用apache apex启动的应用可以是使用以下命令杀死或关闭: shutdown-app. 但是,当应用程序关闭(关闭/关闭)时,如何从以前的状态重新启动呢? 解决方案 Apache Apex 提供了命令行界面,"apex" (先前称为"dtcli")脚本,以与应用程序进行交互.一旦应用程序关闭或终止,您可以使用以下命令重新启动它: laun
..
在一个大的json文件中,我想从嵌套列表中删除一些元素,但要保留文档的整体结构. 我的示例是为此输入的(但是实际的大小足以要求流式传输). { "keep_untouched": { "keep_this": [ "this", "list" ] }, "filter_this": [ {"keep" : "true"},
..
有人可以正确解释事件时间戳和水印吗?我从文档中了解了此信息,但目前尚不清楚.现实生活中的例子或外行人的定义会有所帮助.另外,如果可能的话,请举一个示例(以及一些可以解释它的代码段).预先感谢 解决方案 下面是一个示例,说明了我们为什么需要水印以及它们如何工作. 在此示例中,我们添加了带有时间戳的事件流,这些事件有时有些乱序,如下所示.显示的数字是事件时间时间戳,指示这些事件实际发生的
..
在实践中,迷你批处理与实时流之间有什么区别(不是理论上的区别)?从理论上讲,我了解到迷你批处理是在给定的时间范围内进行批处理,而实时流更像是在数据到达时执行某些操作,但是我最大的问题是为什么不使用带有epsilon时间帧(例如一毫秒)的迷你批处理?想了解为什么一个解决方案比其他解决方案有效的原因? 我最近遇到了一个例子,其中迷你批处理(Apache Spark)用于欺诈检测,而实时流处理(A
..
如果Kappa体系结构直接在流上进行分析,而不是将数据分成两个流,那么在像Kafka这样的消息系统中,数据存储在哪里?还是可以在数据库中进行重新计算? 与使用流处理引擎重新计算以进行批处理分析相比,单独的批处理层是否更快? 解决方案 “要考虑的一个非常简单的情况是,当算法应用于 实时数据和历史数据是相同的.那是 使用相同的代码库显然非常有益 历史和实时数据,从而实现用例 使用Ka
..