BI 主要环节 ETL 相关知识
BI架构-BI 主要环节 ETL 相关知识
主要功能 :将源系统的数据加载到数据仓库 及数据集市层中; 主要问题体现: 复杂的源数据环境,包括繁多的数据种类、巨大的加载数据量、错综复杂的数据关系和参差不齐的数据质量 常见术语 ETL:数据抽取、转换、加载(Extract/Transform/Load) EXF:抽取的文件(Extract File) CIF:共用接口文件(Common Interface File) PLF:预加载文件(Preload File) LDF:加载文件(Load File) DW:数据仓库(Data Warehouse) DM:数据集市(Data Mart) GC:共用接口文件组(CIF Group),将一对EX(抽取)和CV(变换)程序组合的程序 GE:实体组(Entity Group),将TR(转换)和LD(加载)程序组合的程序 ETL 功能架构:
由上图 可以看出 架构可分为三个部分 1、管理调度 根据目标数据表的更新周期和源数据就绪时间,制定日常数据的ETL的时刻表。管理员通过ETL工具的作业调度功能进行运行时刻设置,使得ETL工具自动在规定条件满足时启动相应的ETL作业。每个目标数据表ETL过程对应一组顺序执行的实体作业(包括转换作业和加载作业)形成的一个 序列(Sequence),每个CIF(共用接口文件)的ETL过程则对应一组顺序执行CIF作业(包括抽取作业和变换作业)形成的一个序列。这些ETL作业将其中的每个步骤,即抽取、变换、转换、加载等ETL功能模块有机地联系起来。而作业调度是将CIF逻辑的作业和实体逻辑的作业按照GC(CIF组)与GE(实体组)的对应关系联系起来,从而控制该ETL过程的运作 2、应用功能 ETL应用模块层次中包含实现每个ETL步骤的程序及对这些步骤进行归并及设定依赖性的程序,即 抽取(Extract)、变换(Convert)、转换(Transform)、加载(Load)程序。每个模块实现一个特定的功能,详述如下: 数据抽取(Extract) 数据变换(Convert/Clean) 数据转换(Transform) 数据加载(Load) 每个阶段之间以数据文件作为接口,即数据抽取(Extract)阶段读取数据源产生EXF数据,数据变换(Converting/Cleansing)阶段读取EXF数据产生CIF数据,数据转换(Transform)阶段读取CIF数据产生LDF数据(如果有预加载过程还可能产生中间PLF数据),数据加载(Load)阶段读取LDF数据加载到数据仓库或数据集市。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
