数据平台 数据采集全流程刨析 面试准备tip - 20181227
数据平台
- 为什么建设数据平台?
当公司业务多元化,有多条业务线,如oms、wms、bms、tms、erp、oa十几种业务系统,导致需求变化多。
数据生命周期:
产生(业务系统库mysql,tms,日志存储),
传输(中间件Kafka),
入库(HDFS --> hive + hbase),
'统计、分析、挖掘'(Spark、Flink)
基础平台的稳定性。
- 架构1.0版本

初期单纯的是,MySQL通过Sqoop1/Datax[Sqoop1启map job,要走yarn流程;DataX性能较高,类似Flume,可以实现异构数据源之间高效的数据同步功能],将数据写入HDFS/Hive中。
log日志则是Flume采集,将数据写入HDFS。
之后,通过airflow[调度分析平台,python + shell脚本
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
