Kafka Storm HDFS/S3 数据流 [英] Kafka Storm HDFS/S3 data flow

查看：33 发布时间：2021/11/14 23:37:05 hdfs apache-kafka apache-storm

本文介绍了Kafka Storm HDFS/S3 数据流的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

目前还不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制).

It is unclear if you can do a fan-out (duplication) in Kafka like you can in Flume.

我想让 Kafka 将数据保存到 HDFS 或 S3，并将该数据的副本发送到 Storm 进行实时处理.Storm 聚合/分析的输出将存储在 Cassandra 中.我看到一些实现将所有数据从 Kafka 流入 Storm，然后从 Storm 流出两个输出.但是，我想消除 Storm 对原始数据存储的依赖.

I'd like to have Kafka save data to HDFS or S3 and send a duplicate of that data to Storm for real time processing. The output of Storm aggregations/analysis will be stored in Cassandra. I see some implementations flowing all data from Kafka into Storm and then two outputs from Storm. However, I'd like to eliminate the dependency of Storm for the raw data storage.

这可能吗?您知道任何此类文档/示例/实现吗?

Is this possible? Are you aware of any documentation/examples/implementations like this?

另外，Kafka 对 S3 存储有很好的支持吗?

Also, does Kafka have good support for S3 storage?

我看到 Camus 用于存储到 HDFS——您是否只是通过 cron 运行此作业以不断将数据从 Kafka 加载到 HDFS?如果作业的第二个实例在前一个实例完成之前开始，会发生什么情况?最后，Camus 会与 S3 一起工作吗?

I saw Camus for storing to HDFS -- do you just run this job via cron to continually load data from Kafka to HDFS? What happens if a second instance of the job starts before the previous has finished? Finally, would Camus work with S3?

谢谢——我很感激！

Kafka Storm HDFS/S3 数据流 [英] Kafka Storm HDFS/S3 data flow

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

Kafka Storm HDFS/S3 数据流 [英] Kafka Storm HDFS/S3 data flow

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭