使用Flume消费Kafka数据到HDFS

2023-10-24 03:25:03

		1.概述

对于数据的转发，Kafka是一个不错的选择。Kafka能够装载数据到消息队列，然后等待其他业务场景去消费这些数据，Kafka的应用接口API非常的丰富，支持各种存储介质，例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic，也是有组件可以去集成消费的。下面笔者将为大家介绍如何使用Flume快速消费Kafka Topic数据，然后将消费后的数据转发到HDFS上。

2.内容

在实现这套方案之间，可以先来看看整个数据的流向，如下图所示：

业务数据实时存储到Kafka集群，然后通过Flume Source组件实时去消费Kafka业务Topic获取数据，将消费后的数据通过Flume Sink组件发送到HDFS进行存储。

2.1 准备基础环境

按照上图所示数据流向方案，需要准备好Kafka、Flume、Hadoop（HDFS可用）等组件。

2.1.1 启动Kafka集群并创建Topic

Kafka目前来说，并没有一个批量的管理脚本，不过我们可以对kafka-server-start.sh脚本和kafka-server-stop.sh脚本进行二次封装。代码如下所示：

#! /bin/bash

Kafka代理节点地址, 如果节点较多可以用一个文件来存储

hosts=(dn1 dn2 dn3)

打印启动分布式脚本信息

mill=date "+%N"
tdate=date "+%Y-%m-%d %H:%M:%S,${mill:0:3}"

echo [$tdate] INFO [Kafka Cluster] begins to execute the $1 operation.

执行分布式开启命令

function start()
{
for i in $KaTeX parse error: Expected 'EOF', got '#' at position 47: …>do{smill:0:3}"` ssh hadoop@KaTeX parse error: Expected 'EOF', got '#' at position 23: …>"stdate] INFO [Kafka Broker $i] begins to execute the startup operation.;kafka-server-start.sh $KAFKA_HOME/config/server.properties>/dev/null" & sleep 1 done }$

执行分布式关闭命令

function stop()
{
for i in $KaTeX parse error: Expected 'EOF', got '#' at position 47: \dots>do{smill:0:3}"` ssh hadoop@ KaTeX parse error: Expected 'EOF', got '#' at position 23: \dots>"stdate] INFO [Kafka Broker $i] begins to execute the shutdown operation.;kafka-server-stop.sh>/dev/null;" & sleep 1 done}$

查看Kafka代理节点状态

function status()
{
for i in $KaTeX parse error: Expected 'EOF', got '#' at position 47: \dots>do{smill:0:3}"` ssh hadoop@ KaTeX parse error: Expected 'EOF', got '#' at position 23: \dots>"stdate] INFO [Kafka Broker $i] status message is :;jps | grep Kafka;" & sleep 1 done}$

判断输入的Kafka命令参数是否有效

case “$1” in
start)
start
;;
stop)
stop
;;
status)
status
;;
*)
echo “Usage: $0 {start|stop|status}”
RETVAL=1
esac

启动Kafka集群后，在Kafka集群可用的情况下，创建一个业务Topic，执行命令如下：

# 创建一个flume_collector_data主题
kafka-topics.sh --create --zookeeper dn1:2181,dn2:2181,dn3:2181 --replication-factor 3 --partitions 6 --topic flume_collector_data

2.2 配置Flume Agent

然后，开始配置Flume Agent信息，让Flume从Kafka集群的flume_collector_data主题中读取数据，并将读取到的数据发送到HDFS中进行存储。配置内容如下：

# ------------------- define data source ----------------------
# source alias
agent.sources = source_from_kafka  
# channels alias
agent.channels = mem_channel  
# sink alias
agent.sinks = hdfs_sink

define kafka source

agent.sources.source_from_kafka.type = org.apache.flume.source.kafka.KafkaSource
agent.sources.source_from_kafka.channels = mem_channel
agent.sources.source_from_kafka.batchSize = 5000

set kafka broker address

agent.sources.source_from_kafka.kafka.bootstrap.servers = dn1:9092,dn2:9092,dn3:9092

set kafka topic

agent.sources.source_from_kafka.kafka.topics = flume_collector_data

set kafka groupid

agent.sources.source_from_kafka.kafka.consumer.group.id = flume_test_id

defind hdfs sink

agent.sinks.hdfs_sink.type = hdfs

specify the channel the sink should use

agent.sinks.hdfs_sink.channel = mem_channel

set store hdfs path

agent.sinks.hdfs_sink.hdfs.path = /data/flume/kafka/%Y%m%d

set file size to trigger roll

agent.sinks.hdfs_sink.hdfs.rollSize = 0
agent.sinks.hdfs_sink.hdfs.rollCount = 0
agent.sinks.hdfs_sink.hdfs.rollInterval = 3600
agent.sinks.hdfs_sink.hdfs.threadsPoolSize = 30
agent.sinks.hdfs_sink.hdfs.fileType=DataStream
agent.sinks.hdfs_sink.hdfs.writeFormat=Text

define channel from kafka source to hdfs sink

agent.channels.mem_channel.type = memory

channel store size

agent.channels.mem_channel.capacity = 100000

transaction size

agent.channels.mem_channel.transactionCapacity = 10000

然后，启动Flume Agent，执行命令如下：

# 在Linux后台执行命令
flume-ng agent -n agent -f $FLUME_HOME/conf/kafka2hdfs.properties &

2.3 向Kafka主题中发送数据

启动Kafka Eagle监控系统（执行ke.sh start命令），填写发送数据。如下图所示：

然后，查询Topic中的数据是否有被写入，如下图所示：

最后，到HDFS对应的路径查看Flume传输的数据，结果如下图所示：

3.Kafka如何通过Flume传输数据到HBase

3.1 创建新主题

创建一个新的Topic，执行命令如下：

# 创建一个flume_kafka_to_hbase主题
kafka-topics.sh --create --zookeeper dn1:2181,dn2:2181,dn3:2181 --replication-factor 3 --partitions 6 --topic flume_kafka_to_hbase

3.2 配置Flume Agent

然后，配置Flume Agent信息，内容如下：

# ------------------- define data source ----------------------
# source alias
agent.sources = kafkaSource
# channels alias
agent.channels = kafkaChannel
# sink alias
agent.sinks = hbaseSink

set kafka channel

agent.sources.kafkaSource.channels = kafkaChannel

set hbase channel

agent.sinks.hbaseSink.channel = kafkaChannel

set kafka source

agent.sources.kafkaSource.type = org.apache.flume.source.kafka.KafkaSource

set kafka broker address

agent.sources.kafkaSource.kafka.bootstrap.servers = dn1:9092,dn2:9092,dn3:9092

set kafka topic

agent.sources.kafkaSource.kafka.topics = flume_kafka_to_hbase

set kafka groupid

agent.sources.kafkaSource.kafka.consumer.group.id = flume_test_id

set channel

agent.channels.kafkaChannel.type = org.aprache.flume.channel.kafka.KafkaChannel

channel queue

agent.channels.kafkaChannel.capacity=10000

transaction size

agent.channels.kafkaChannel.transactionCapacity=1000

set hbase sink

agent.sinks.hbaseSink.type = asynchbase

hbase table

agent.sinks.hbaseSink.table = flume_data

set table column

agent.sinks.hbaseSink.columnFamily= info

serializer sink

agent.sinks.hbaseSink.serializer=org.apache.flume.sink.hbase.SimpleAsyncHbaseEventSerializer

set hbase zk

agent.sinks.hbaseSink.zookeeperQuorum = dn1:2181,dn2:2181,dn3:2181

3.3 创建HBase表

进入到HBase集群，执行表创建命令，如下所示：

hbase(main):002:0> create 'flume_data','info'

3.4 启动Flume Agent

接着，启动Flume Agent实例，命令如下所示：

# 在Linux后台执行命令
flume-ng agent -n agent -f $FLUME_HOME/conf/kafka2hbase.properties &

3.5 在Kafka Eagle中向Topic写入数据

然后，在Kafka Eagle中写入数据，如下图所示：

3.6 在HBase中查询传输的数据

最后，在HBase中查询表flume_data的数据，验证是否传输成功，命令如下：

hbase(main):003:0> scan 'flume_data'

预览结果如下所示：

4.总结

至此，Kafka中业务Topic的数据，经过Flume Source组件消费后，再由Flume Sink组件写入到HDFS，整个过程省略了大量的业务编码工作。如果实际工作当中不涉及复杂的业务逻辑处理，对于Kafka的数据转发需求，不妨可以试试这种方案。

5.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

另外，博主出书了《Kafka并不难学》，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。

联系方式：
邮箱：smartloli.org@gmail.com
Twitter： https://twitter.com/smartloli
QQ群（Hadoop - 交流社区1）： 424769183
QQ群（Kafka并不难学）： 825943084
温馨提示：请大家加群的时候写上加群理由（姓名＋公司/学校），方便管理员审核，谢谢！

热爱生活，享受编程，与君共勉！

公众号：

作者：哥不是小萝莉［关于我］［犒赏］

出处：http://www.cnblogs.com/smartloli/

转载请注明出处，谢谢合作！

分类: hadoop, java, kafka 标签: kafka, flume, hdfs 好文要顶关注我收藏该文

哥不是小萝莉
关注 - 0
粉丝 - 620 +加关注 1 0 « 上一篇： Kafka并不难学
» 下一篇： Kafka性能测试实例

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 大数据系列(3)之zookeeper集群搭建
下一篇 > Flume将 kafka 中的数据转存到 HDFS 中

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

使用Flume消费Kafka数据到HDFS

1.概述

2.内容

2.1 准备基础环境

2.1.1 启动Kafka集群并创建Topic

Kafka代理节点地址, 如果节点较多可以用一个文件来存储

打印启动分布式脚本信息

执行分布式开启命令

执行分布式关闭命令

查看Kafka代理节点状态

判断输入的Kafka命令参数是否有效

2.2 配置Flume Agent

define kafka source

set kafka broker address

set kafka topic

set kafka groupid

defind hdfs sink

specify the channel the sink should use

set store hdfs path

set file size to trigger roll

define channel from kafka source to hdfs sink

channel store size

transaction size

2.3 向Kafka主题中发送数据

3.Kafka如何通过Flume传输数据到HBase

3.1 创建新主题

3.2 配置Flume Agent

set kafka channel

set hbase channel

set kafka source

set kafka broker address

set kafka topic

set kafka groupid

set channel

channel queue

transaction size

set hbase sink

hbase table

set table column

serializer sink

set hbase zk

3.3 创建HBase表

3.4 启动Flume Agent

3.5 在Kafka Eagle中向Topic写入数据

3.6 在HBase中查询传输的数据

4.总结

5.结束语

热爱生活，享受编程，与君共勉！

公众号：

作者：哥不是小萝莉 ［关于我］［犒赏］

出处：http://www.cnblogs.com/smartloli/

转载请注明出处，谢谢合作！

相关文章

作者：哥不是小萝莉［关于我］［犒赏］