数据平台 数据采集全流程刨析 面试准备tip - 20181227

数据平台

  1. 为什么建设数据平台?
    当公司业务多元化,有多条业务线,如oms、wms、bms、tms、erp、oa十几种业务系统,导致需求变化多。

数据生命周期:
产生(业务系统库mysql,tms,日志存储),
传输(中间件Kafka),
入库(HDFS --> hive + hbase),
'统计、分析、挖掘'(Spark、Flink)

基础平台的稳定性。

  1. 架构1.0版本

在这里插入图片描述

初期单纯的是,MySQL通过Sqoop1/Datax[Sqoop1启map job,要走yarn流程;DataX性能较高,类似Flume,可以实现异构数据源之间高效的数据同步功能],将数据写入HDFS/Hive中。
log日志则是Flume采集,将数据写入HDFS。
之后,通过airflow[调度分析平台,python + shell脚本


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部