使用Apache Flink进行数据流传输 [英] Using Apache Flink for data streaming

查看:240
本文介绍了使用Apache Flink进行数据流传输的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在构建具有以下要求的应用程序,而我刚开始使用flink.

I am working on building an application with below requirements and I am just getting started with flink.

  • 将数据导入具有50个分区的Kafka中(传入速率-100,000毫秒/秒)
  • 从Kafka读取数据并实时处理每个数据(进行一些计算,与旧数据进行比较等)
  • 将输出存储在Cassandra上

我当时正在寻找一个实时流媒体平台,发现Flink非常适合实时和批量处理.

I was looking for a real time streaming platform and found Flink to be a great fit for both real time and batch.

  • 您认为flink最适合我的用例,还是应该使用Storm,Spark流或其他任何流平台?
  • 我是否需要在google数据流中编写数据管道以在flink上执行我的步骤序列?或者还有其他方法可以执行一系列步骤以进行实时流式传输吗?
  • 假设我的每次计算都花费20毫秒左右,那么我该如何使用flink更好地设计它并获得更好的吞吐量.
  • 我可以使用Redis或Cassandra在flink中获取每次计算的一些数据吗?
  • 我将能够在flink中使用JVM内存中的缓存吗?
  • 我还可以在某个时间段(例如5秒)内基于某个键聚合数据.例如,假设有100条消息传入,而10条消息具有相同的密钥,我可以将具有相同密钥的所有消息归为一组并进行处理.
  • 是否有关于使用flink的最佳做法的教程?

感谢并感谢您的帮助.

推荐答案

鉴于您的任务描述,Apache Flink看起来很适合您的用例.

Given your task description, Apache Flink looks like a good fit for your use case.

通常,Flink提供在Flink内部存储状态. Flink还具有对Windows的完善支持.您可以在Flink网站上阅读博客,并查看

In general, Flink provides low latency and high throughput and has a parameter to tune these. You can read and write data from and to Redis or Cassandra. However, you can also store state internally in Flink. Flink does also have sophisticated support for windows. You can read the blog on the Flink website, check out the documentation for more information, or follow this Flink training to learn the API.

这篇关于使用Apache Flink进行数据流传输的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆