flume+kafka+storm运行的示例分析

这篇文章主要介绍flume+kafka+storm运行的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

10年积累的网站制作、网站建设经验，可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你，你也不认识我。但先网站制作后付款的网站建设流程，更有蓟州免费网站建设让你可以放心的选择与我们合作。

概述

在基于Hadoop平台的很多应用场景中，我们需要对数据进行离线和实时分析，离线分析可以很容易地借助于Hive或者mr来实现统计分析，但是对于实时的需求Hive和mr就不合适了。实时应用场景可以使用Storm，它是一个实时处理系统，它为实时处理类应用提供了一个计算模型，可以很容易地进行编程处理。为了统一离线和实时计算，一般情况下，我们都希望将离线和实时计算的数据源的集合统一起来作为输入，然后将数据的流向分别经由实时系统和离线分析系统，分别进行分析处理，这时我们可以考虑将数据源（如使用Flume收集日志）直接连接一个消息中间件，如Kafka，可以整合Flume+Kafka，Flume作为消息的Producer，生产的消息数据（日志数据、业务请求数据等等）发布到Kafka中，然后通过订阅的方式，使用Storm的Topology作为消息的Consumer，在Storm集群中分别进行如下两个需求场景的处理：
直接使用Storm的Topology对数据进行实时分析处理
整合Storm+HDFS，将消息处理后写入HDFS进行离线分析处理

flume+kafka+storm相结合，此时，flume作为数据来源收集数据，kafka作为消息队列，起缓冲作用，storm从kafka拉取数据分析处理。做软件开发的都知道模块化思想，这样设计的原因有两方面：
一方面是可以模块化，功能划分更加清晰，从“数据采集--数据接入--流式计算--数据输出/存储”

flume+kafka+storm运行的示例分析

1）.数据采集
负责从各节点上实时采集数据，选用cloudera的flume来实现
2）.数据接入
由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用apache的kafka
3）.流式计算
对采集到的数据进行实时分析，选用apache的storm
4）.数据输出
对分析后的结果持久化，暂定用MySQL
另一方面是模块化之后，假如当Storm挂掉了之后，数据采集和数据接入还是继续在跑着，数据不会丢失，storm起来之后可以继续进行流式计算；

数据来源flume

Kafka生产的数据，是由Flume的Sink提供的，这里我们需要用到Flume集群，通过Flume集群将Agent的日志收集分发到 Kafka。我们根据情况选择合适的source，这里我用的是exec，channel是memory，sink当然就是kafkasink。详细配置如下：

flume+kafka+storm运行的示例分析

flume到kafka

flume到kafka的传输过程如下图：

flume+kafka+storm运行的示例分析

kafka的配置跟之前搭建的没有什么改动。

测试flume到kafka

flume和kafka配置好以后，先启动flume集群，这里是后台运行：

flume-ng agent -n agent -c /usr/local/apache-flume-1.6.0-bin/conf -f /usr/local/apache-flume-1.6.0-bin/conf/flume-test.conf -Dflume.root.logger=DEBUG,console &

然后启动zookeeper：

./zkServer.sh start

接着启动kafka集群，这里是后台运行：

./kafka-server-start.sh ../config/server.properties &

然后向监控的文件里输入数据：

echo 'hello world' >> topic-test.txt

接着在kafka集群上创建消费者，测试flume到kafka是否联通，当然也可以使用kafka监控工具查看：

我们可以事先创建好topic，当然我们也可以自动创建topic，设置kafka auto.create.topics.enable属性为true，默认就为true。

./kafka-console-consumer.sh --zookeeper master:2181 --from-beginning --topic topic1
这边输出'hello world'则表明flume到kafka连接成功。

storm读取kafka数据分析编程

首先搭建好storm集群，启动nimbus、supervisor、ui

然后topology编程，我这里是java编程的一个小例子：

主类

package com.kafka_storm;
import java.util.HashMap;
import java.util.Map;
import storm.kafka.BrokerHosts;
import storm.kafka.KafkaSpout;
import storm.kafka.SpoutConfig;
import storm.kafka.ZkHosts;
import storm.kafka.bolt.KafkaBolt;
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.spout.SchemeAsMultiScheme;
import backtype.storm.topology.TopologyBuilder;
import backtype.storm.utils.Utils;
public class StormKafkaTopo {   
    public static void main(String[] args) throws Exception { 
     // 配置Zookeeper地址
        BrokerHosts brokerHosts = new ZkHosts("master:2181");
        // 配置Kafka订阅的Topic，以及zookeeper中数据节点目录和名字
        //这里需要注意的是，spout会根据config的后面两个参数在zookeeper上为每个kafka分区创建保存读取偏移的节点，如：/zkroot/topo/partition_0。
        SpoutConfig spoutConfig = new SpoutConfig(brokerHosts, "topic1", "/zkkafkaspout" , "kafkaspout");
        
        // 配置KafkaBolt中的kafka.broker.properties(可以参考kafka java编程)
        Config conf = new Config();  
        Map map = new HashMap(); 
        // 配置Kafka broker地址       
        map.put("metadata.broker.list", "master:9092");
        // serializer.class为消息的序列化类
        map.put("serializer.class", "kafka.serializer.StringEncoder");
        conf.put("kafka.broker.properties", map);
        // 配置KafkaBolt生成的topic
        conf.put("topic", "topic2");
         
        //默认情况下，spout下会发射域名为bytes的binary数据，如果有需要，可以通过设置schema进行修改。
        spoutConfig.scheme = new SchemeAsMultiScheme(new MessageScheme());  
        TopologyBuilder builder = new TopologyBuilder();   
        builder.setSpout("spout", new KafkaSpout(spoutConfig));  
        builder.setBolt("bolt", new SenqueceBolt()).shuffleGrouping("spout"); 
        builder.setBolt("kafkabolt", new KafkaBolt()).shuffleGrouping("bolt");        
 
        if (args != null && args.length > 0) {  
            conf.setNumWorkers(3);  
            StormSubmitter.submitTopology(args[0], conf, builder.createTopology());  
        } else {  
   
            LocalCluster cluster = new LocalCluster();  
            cluster.submitTopology("Topo", conf, builder.createTopology());  
            Utils.sleep(100000);  
            cluster.killTopology("Topo");  
            cluster.shutdown();  
        }  
    }  
}

消息处理

package com.kafka_storm;
import java.io.UnsupportedEncodingException;
import java.util.List;
import backtype.storm.spout.Scheme;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
/**
 * 使用KafkaSpout时需要子集实现Scheme接口，它主要负责从消息流中解析出需要的数据
 * @author lenovo
 *
 */
public class MessageScheme implements Scheme { 
     
    /* (non-Javadoc)
     * @see backtype.storm.spout.Scheme#deserialize(byte[])
     */
    public List

关于创新互联

flume+kafka+storm运行的示例分析

其他资讯