apache-flink相关内容

如果我给Flink的RocksDB状态后端足够的内存,这与基于堆的状态后端有什么不同?

EmbeddedRocksDBStateBackend与Flink配合使用的一个明显优点是,当内存不足时,它可能会溢出到磁盘。但是,如果我准备给它足够的内存,使它永远不需要使用磁盘,这与使用HashMapStateBackend有什么不同? 推荐答案 主要区别如下: RocksDB状态后端维护状态的序列化格式的开销(通常)比堆上使用的二进制对象格式少得多。因此,对于给定的内存量, ..
发布时间:2022-03-15 10:37:18 其他开发

Flink Kafka Producer中的只有一次语义

我正在尝试使用Kafka Source和Sink测试Flink只需一次的语义: 运行Flink应用程序,只需将消息从一个主题传输到另一个主题,并行度=1,检查点间隔20秒 每隔2秒使用Python脚本生成整数递增的消息。 读取控制台使用者处于READ_COMMITTED隔离级别的输出主题。 手动终止TaskManager 我希望在输出主题中看到整数单调递增,而不考虑TaskMan ..
发布时间:2022-03-15 10:33:48 其他开发

Kubernetes和Native Kubernetes上的Flink部署有何不同

b/wNative Kubernetes和Kubernetes部署的主要区别是什么? 我是Kubernetes的新手,我想了解它们上的Flink部署有何不同。 如果对内部结构有任何了解,将会有很大帮助。 Flink 在Kubernetes session or per-job deployment中,推荐答案不知道它在Kubernetes上运行。在此模式下,Flink的行为与在任 ..
发布时间:2022-03-15 10:30:22 其他开发

Apache Flink中的SlotSharingGroup是什么?

引用:https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/runtime/jobmanager/scheduler/SlotSharingGroup.html 定义:“槽共享单元定义槽内可以一起部署哪些不同的任务(来自不同的作业顶点)。” 有人能详细说明一下吗? 推荐答案 ..
发布时间:2022-03-15 10:27:29 其他开发

Apache Flink-使用数据流中的值动态创建流数据源

我正在尝试使用Apache Flink构建执行以下操作的示例应用程序: 读取股票代码流(例如‘CSCO’,‘fb’)。 对每个符号执行当前价格的实时查找,并将值流式传输以进行下游处理。 *更新为原始帖子* 我将map函数移到单独的类中,没有收到运行时错误消息“MapFunction的实现不再是可序列化的。该对象可能包含或引用了不可序列化的字段”。 我现在面临的问题是,我试 ..
发布时间:2022-03-15 10:23:45 其他开发

Flink Kafka源代码中的并行性导致不执行任何操作

我是一个卡夫卡和闪烁的初学者。 我注意到一些令人不安的事情。当我将Kafka作业的并行度增加到任何大于1的值时,我没有窗口来执行它们的进程。我希望使用并行度来提高分析速度。 查看Apache Flink Web Dashboard中可视化问题的图像示例。 这是完全相同的代码和接收到的完全相同的数据集,区别仅是并行性。在第一个示例中,摄取的数据流经窗口函数,但是当并行度增加时,数据只是堆积在从 ..
发布时间:2022-03-15 10:21:14 其他开发

Apache Flink:数据流API的批处理模式失败,异常`IllegalStateException:排序输入不允许检查点。`

继续:Flink : Handling Keyed Streams with data older than application watermark 基于该建议,我一直在尝试在使用数据流API的同一个Flink应用程序中添加对批处理的支持。 逻辑如下: streamExecutionEnvironment.setRuntimeMode(RuntimeExecutionMode ..
发布时间:2022-03-15 10:17:46 其他开发

Flink:处理数据早于应用程序水印的键控流

我正在使用带有动态源和事件时间键窗口的Flink。应用程序将监听实时数据流、开窗口(事件时间窗口)并处理每个键控流。我还有另一个用例,其中我还需要能够支持对某些密钥流(这些密钥流将是带有事件时间和水印的新密钥流)回填较旧的数据。 鉴于我使用的是Watermark,这会带来问题,因为Flink不支持每个密钥的水印。因此,任何用于回填的键控流最终都将被忽略,因为此流的事件时间将是由实况流维护的& ..
发布时间:2022-03-15 10:14:45 其他开发

Flink表获取类型信息

假设我有一个Flink表CREATE TABLE source(id int, name string) with (...)和一个目标表CREATE TABLE destination(id int, unique_name string) with (...)。unique_name使用内部Flink流程函数中的业务逻辑计算。 因此,我们可以安全地假设源模式将与目标模式完全相同(名称和数 ..
发布时间:2022-03-15 10:11:23 其他开发

从 Cassandra 读取数据以在 Flink 中处理

我必须使用 Flink 作为流引擎来处理来自 Kafka 的数据流.为了对数据进行分析,我需要在 Cassandra 中查询一些表.做这个的最好方式是什么?我一直在 Scala 中寻找此类案例的示例.但是我找不到任何.如何使用Scala作为编程语言在Flink中读取来自Cassandra的数据?阅读&使用 apache flink Java API 将数据写入 cassandra 在同一行还有另一 ..
发布时间:2021-11-28 21:35:58 其他开发

如何将流数据与 Dataflow/Beam 中的大型历史数据集结合起来

我正在研究通过 Google Dataflow/Apache Beam 处理来自网络用户会话的日志,并且需要将用户的日志(流式传输)与上个月的用户会话历史记录结合起来. 我研究了以下方法: 使用 30 天固定窗口:最有可能是一个很大的窗口以适应内存,而且我不需要更新用户的历史记录,只需参考它 使用 CoGroupByKey 连接两个数据集,但两个数据集的窗口大小必须相同(https: ..
发布时间:2021-11-28 18:13:35 Java开发

一个三槽的TaskManager和Apache Flink中的三个一槽的TaskManager是一样的吗

在 Flink 中,根据我的理解,JobManager 可以根据需要将作业分配给具有多个插槽的多个 TaskManager.例如,可以为一个作业分配三个 TaskManager,使用五个槽. 现在,说我执行一个带有三个插槽的 TaskManager(TM),分配给 3G RAM 和一个 CPU. 这和执行三个TaskManager,共享一个CPU,每个都分配1G RAM是完全一样的吗? ..
发布时间:2021-11-17 03:03:21 其他开发

流数据处理和纳秒时间分辨率

我刚刚开始讨论实时流数据处理框架的话题,我有一个问题,目前我还没有找到任何决定性的答案: 通常的怀疑对象(Apache 的 Spark、Kafka、Storm、Flink 等)是否支持以 纳秒(甚至皮秒)的事件时间分辨率处理数据? 大多数人和文档都谈论毫秒或微秒分辨率,但我无法找到明确的答案,如果可能有更多分辨率或问题.我推断唯一具有此功能的框架是 influxData 的 Kapac ..

Flink 和 Storm 之间的主要区别是什么?

Flink 已经与 Spark 相比,在我看来,这是错误的比较,因为它将窗口事件处理系统与微批处理进行了比较;同样,将 Flink 与 Samza 进行比较对我来说也没有多大意义.在这两种情况下,它都会比较实时与批处理事件处理策略,即使在 Samza 的情况下“规模"较小.但我想知道 Flink 与 Storm 相比如何,它在概念上似乎更相似. 我发现 this(幻灯片 #4)将主要区别记录 ..
发布时间:2021-11-14 23:33:49 其他开发

流数据处理和纳秒时间分辨率

我刚刚开始讨论实时流数据处理框架的话题,我有一个问题,目前我还没有找到任何决定性的答案: 通常的怀疑对象(Apache 的 Spark、Kafka、Storm、Flink 等)是否支持以 纳秒(甚至皮秒)的事件时间分辨率处理数据? 大多数人和文档都谈论毫秒或微秒分辨率,但我无法找到明确的答案,如果可能有更多分辨率或问题.我推断唯一具有此功能的框架是 influxData 的 Kapac ..

如何在窗口流媒体etl中显示中间结果?

我们目前在事件存储中实时聚合数据.这个想法是可视化多个时间范围(每月、每周、每天、每小时)和多个名义键的交易数据.我们经常有迟到的数据,所以我们需要考虑到这一点.此外,要求显示“运行"结果,即当前窗口完成之前的值. 目前我们正在使用 Kafka 和 Apache Storm(特别是 Trident,即微批处理)来做到这一点.我们的架构大致如下: (为我丑陋的照片道歉).我们使用 Mon ..