Apache Flume - 简介

什么是Flume?

Apache Flume是一种工具/服务/数据提取机制,用于收集聚合和传输大量流数据,如日志文件,事件(等等... )从各种来源到集中式数据存储.

Flume是一种高度可靠,分布式和可配置的工具.它主要用于将各种Web服务器的流数据(日志数据)复制到HDFS.

Apache Flume

Flume的应用

假设电子商务Web应用程序想要分析来自特定区域的客户行为.为此,他们需要将可用的日志数据移动到Hadoop进行分析.在这里,Apache Flume开始拯救我们.

Flume用于将应用服务器生成的日志数据以更高的速度移动到HDFS中.

Flume的优点

以下是使用Flume&minus的优点;

  • 使用Apache Flume我们可以将数据存储到任何集中存储(HBase,HDFS).

  • 当传入数据的速率超过数据速率时可以写入目的地,Flume充当数据生产者和集中存储之间的中介,并在它们之间提供稳定的数据流.

  • Flume提供上下文路由的功能.

  • Flume中的交易是基于渠道的,其中维护了两个交易(一个发件人和一个收件人)对于每条消息.它保证了可靠的消息传递.

  • Flume可靠,容错,可扩展,易于管理和可定制.

Flume的特点

Flume的一些显着特征如下 :

  • Flume有效地将多个Web服务器的日志数据提取到集中存储(HDFS,HBase).

  • 使用Flume,我们可以立即将来自多个服务器的数据导入Hadoop.

  • 除了日志文件外,Flume还用于导入大量事件数据由Facebook和Twitter等社交网站以及亚马逊和Flipkart等电子商务网站制作.

  • Flume支持大量的源和目的地类型./p>

  • Flume支持多跳流,扇入扇出流,上下文路由等.

  • Flume可以水平缩放.