Apache Flume - 数据流

Flume是一个用于将日志数据移动到HDFS的框架.通常,事件和日志数据由日志服务器生成,这些服务器上运行Flume代理.这些代理从数据生成器接收数据.

这些代理中的数据将由称为收集器的中间节点收集.就像代理商一样,Flume中可以有多个收集器.

最后,来自所有这些收集器的数据将被聚合并推送到集中存储,例如HBase或HDFS.下图解释了Flume中的数据流.

Flume DataFlow

多跳流

在Flume中,可以有多个代理,在到达最终目的地之前,事件可能会通过多个代理.这称为多跳流.

扇出流量

从一个源到多个通道的数据流被称为扇出流.它有两种类型 :

  • 复制 : 数据流将在所有已配置的通道中复制数据.

  • 多路复用 : 数据流将数据发送到事件标题中提到的选定通道.

扇入流

将数据从多个来源传输到一个通道的数据流称为扇入流.

故障处理

在Flume中,对于每个事件,发生两个事务:一个在发送方,一个在接收方.发送者将事件发送给接收者.收到数据后不久,接收方提交自己的交易并向发送方发送"已接收"信号.收到信号后,发送方提交其交易. (发送者在接收到来自接收者的信号之前不会提交其交易.)