flume简介架构

2019/2/22 星期五

flume简介架构

flume 的官方网站在哪里？
http://flume.apache.org/
http://www.apache.org/dyn/closer.cgi/flume/1.5.0/apache-flume-1.5.0-bin.tar.gz

创新互联专注于大余网站建设服务及定制，我们拥有丰富的企业做网站经验。热诚为您提供大余营销型网站建设，大余网站制作、大余网页设计、大余网站官网定制、小程序制作服务，打造大余网络公司原创品牌,更为您提供大余网站排名全网营销落地服务。

数据采集工具 flume 介绍
一、什么是Flume?
flume 作为cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为Flume OG（original generation），属于cloudera。但随着FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在Flume OG 的最后一个发行版本0.94.0 中，日志传输不稳定的现象尤为严重，为了解决这些问题，
2011 年10 月22 号，cloudera 完成了Flume-728，对Flume 进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为Flume NG（next generation）；改动的另一原因是将Flume 纳入apache 旗下，cloudera Flume 改名为Apache Flume。

flume 的特点：
flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume 提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase 等)的能力。

flume 的数据流由事件(Event)贯穿始终。 //这个flume处理的数据流就是一个event 整个过程
事件（event）是Flume 的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event 由Agent 外部的Source 生成，当Source 捕获事件后会进行特定的格式化，然后Source 会把事件推入(单个或多个)Channel 中。你可以把Channel 看作是一个缓冲区，它将保存事件直到Sink 处理完该事件。Sink 负责持久化日志或者把事件推向另一个Source

flume 的可靠性
当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume 提供了三种级别的可靠性保障，从强到弱依次分别为end-to-end（收到数据agent首先将event 写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送），
Store on failure（这也是scribe 采用的策略，当数据接收方crash 时，将数据写到本地，待恢复后，继续发送），
Besteffort（数据发送到接收方后，不会进行确认）。

flume 的可恢复性：
还是靠Channel。推荐使用FileChannel，事件持久化在本地文件系统里(性能较差)。

flume 的一些核心概念：
Agent 使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent 中包含多个sources 和sinks。
//agent有source+channel+sink组成
Client 生产数据，运行在一个独立的线程。客户端
Source 从Client 收集数据，传递给Channel。//从数据生成器接收数据，以flume event形式传递给一个或多个channel。
Channel 连接sources 和sinks ，这个有点像一个队列。//临时存放source传递过来的event数据，缓存到sink消费为止。是source和sink之间的桥梁。
Sink 从Channel 收集数据，运行在一个独立线程。 //存储数据到hdfs/hbase,从channel提取数据(event),分发到目的地。sink的目的地可以是两个agent，也可以是中央存储。
Events 可以是日志记录、avro 对象等。//一个数据单元，消息头和消息体组成

flume架构
Flume 以agent 为最小的独立运行单位。一个agent 就是一个JVM。单agent由Source、Sink 和Channel 三大组件构成，注意一个agent可以有多个source,sink和channel。如下图：
flume简介架构

值得注意的是，Flume 提供了大量内置的Source、Channel 和Sink 类型。不同类型的Source,Channel 和Sink 可以自由组合。组合方式基于用户设置的配置文件，非常灵活。比如：
Channel 可以把事件暂存在内存里，也可以持久化到本地硬盘上。
Sink 可以把日志写入HDFS, HBase，甚至是另外一个Source 等等。
Flume支持用户建立多级流，也就是说，多个agent 可以协同工作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes，这也正是 NB 之处。//多级流是一个特点如下图所示:
flume简介架构

flume优点小结：
1.存储数据到任何中央数据库
2.进入数据速率大于写出速率，可以起到缓存作用，保证流的平稳。
3.提供文本式路由
4.支持事务。
5.可靠、容错、可伸缩、可定制、可管理

高级组件解释：
[interceptor]：拦截器，在source和channel监控数据。
[channel选择器] ：在多通道情况下，采用哪个通道来传递数据。有两种类型通道选择器
a.Default channel selectors:
在通道中复制每个事件。
b.Multiplexing channel selectors:
通过判断event的header信息，决定通道来发送事件。
[sink processor]：沉槽处理器，从sink组中选择一个特定的sink进行调用。可以为sink创建容灾路径或者在多个sink之间实现负责均衡。
[collector]：在agent后方运行。
[multi-hop]：多级跳转，从sink到agent
[fan-out]：从一个source到channel
[fan-in]：从多个source 到一个channel。

3大组件的详细解释：（source channel sink）
Source
是数据的收集端，负责将数据捕获后进行特殊的格式化，将数据封装到事件（event）里，然后将事件推入Channel中。
Flume提供了各种source的实现，包括Avro Source、Exce Source、Spooling Directory Source、NetCat Source、Syslog Source、Syslog TCP Source、Syslog UDP Source、HTTP Source、HDFS Source，etc。如果内置的Source无法满足需要， Flume还支持自定义Source。
//详细解释如下 //先详细笔记中的案例分析
（1）Avro Source：Avro 可以发送一个给定的文件给 Flume，Avro 源使用 AVRO RPC 机制。//用的多
（2）Spooling Directory Source：Spool 监测配置的目录下新增的文件，并将文件中的数据读取出来。需要注意两点：
1) 拷贝到 spool 目录下的文件不可以再打开编辑。
2) spool 目录下不可包含相应的子目录
（3）Exce Source：EXEC 执行一个给定的命令获得输出的源,如果要使用 tail 命令，必选使得 file 足够大才能看到输出内容
（4）Syslog TCP Source：Syslogtcp 监听 TCP 的端口做为数据源
（5）HTTP Source：JSONHandler
（6）HDFS Source：hadoop的source

Channel
是连接Source和Sink的组件，大家可以将它看做一个数据的缓冲区（数据队列），它可以将事件暂存到内存中也可以持久化到本地磁盘上，直到Sink处理完该事件。
Flume对于Channel，则提供了Memory Channel、JDBC Chanel、File Channel，etc。
MemoryChannel可以实现高速的吞吐，但是无法保证数据的完整性。
MemoryRecoverChannel在官方文档的建议上已经建义使用FileChannel来替换。
FileChannel保证数据的完整性与一致性。在具体配置不现的FileChannel时，建议FileChannel设置的目录和程序日志文件保存的目录设成不同的磁盘，以便提高效率。

sink
是Flume Sink取出Channel中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。
Flume也提供了各种sink的实现，包括HDFS sink、Logger sink、Avro sink、File Roll sink、Null sink、HBase sink，etc。
Flume Sink在设置存储数据时，可以向文件系统中，数据库中，hadoop中储数据，在日志数据较少时，可以将数据存储在文件系中，并且设定一定的时间间隔保存数据。在日志数据较多时，可以将相应的日志数据存储到Hadoop中，便于日后进行相应的数据分析

参考链接为：https://www.cnblogs.com/qingyunzong/p/8994494.html

网站名称：flume简介架构
网站路径：http://kswsj.cn/article/jiopsj.html

关于创新互联

flume简介架构

2019/2/22 星期五

flume简介架构

其他资讯