【大数据之路】数据模型篇 《二》阿里巴巴数据整合及管理体系 【搬运小结】
文章目录
- 数据模型篇 《二》阿里巴巴数据整合及管理体系
- 概述
- 定位及价值
- 体系架构
- 规范定义
- 名词术语
- 指标体系
- 1.基本原则
- 1.1组成体系之间的关系
- 1.2命名约定
- 1.3 算法
- 2.操作细则
- 2.1 算法派生指标的种类
- 模型设计
- 指导理论
- 模型层次
数据模型篇 《二》阿里巴巴数据整合及管理体系
面对爆炸式增长的数据,阿里巴巴内部使用OneData方法体系对数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性。
概述
定位及价值
建设统一的、规范化的数据接入层(ODS)和数据中间层(DWD 和DWS),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设,即数据公共层建设。降低数据互通成本,释放计算、存储、人力等资源。
体系架构
业务板块:根据业务的属性划分出几个相对独立的业务板块。
规范定义:结合行业的数据仓库建设经验,设计出的一套数据规范命名体系。
模型设计:以维度建模理论为基础,构建一致性的维度和事实(进行规范定义)。
规范定义
名词术语
| 名词术语 | 解释 |
|---|---|
| 数据域 | 指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不可拆分的行为事件,在业务过程之下,可以定义指标;维度是指度量的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域 |
| 业务过程 | 指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件 |
| 时间周期 | 用来明确数据统计的时间范围或者时间点,如最近30天、自然周、截至当日等 |
| 修饰类型 | 是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、pc端等修饰词 |
| 修饰词 | 指除了统计维度以外指标的业务场景限定抽象。如在日志域的访问终端类型下,有修饰词pc端、无线端等 |
| 度量/原子指标 | 基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额 |
| 维度 | 维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容) |
| 维度属性 | 维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性 |
| 派生指标 | 派生指标:一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标 |
指标体系
1.基本原则
1.1组成体系之间的关系
派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到。
1.2命名约定
命名所用术语。指标命名,尽量使用英文简写,其次是英文,当指标英文名太长时,可考虑用汉语拼音首字母命名。
原子指标。英文名:动作+度量;中文名:动作+度量。原子指标必须挂靠在某个业务过程下。
派生指标。英文名:原子指标英文名+时间周期修饰词(3位,例如_1 d)+序号(4位,例如_001);中文名:时间周期修饰词 + [其他修饰词] +原子指标。
业务线的业务动作(部分示例)
| 数据域 | 业务过程举例 |
|---|---|
| 商品管理 | 商品上架、下架、商品名称修改、商品类目修改 |
| 用户行为跟踪 | 商品浏览、店铺浏览、网页区块点击 |
| 供应链管理 | 采购、发货、入库 |
数据域
| 数据域 | 业务过程举例 |
|---|---|
| 会员和店铺域 | 注册、登录、装修、开店、关店等 |
| 商品域 | 发布、上架、下架、重发、SKU存量等 |
| 日志域 | 曝光、浏览、点击等 |
| 交易域 | 加购、下单、支付、退款、确认收货等 |
| 客服和销售域 | 拜访、培训、leads管理等 |
| 工具和服务域 | 商品收藏、淘金币领用、优惠券领用、服务市场订购等 |
| 互动域 | 发帖、回帖、评论等 |
| 信用风控域 | 评价、申诉、投诉、纠纷、买家保障、认证等 |
| 采购分销域 | 商品采购(供应链管理) |
常用的时间周期修饰词
| 中文名 | 英文名 |
|---|---|
| 最近1天 | 1d |
| 最近7天 | 1w |
| 最近30天 | 1m |
| 180天以前 | bh |
| 自然周 | cw |
| 自然月 | cm |
| 自然季度 | cq |
| 截至当日 | td |
| 年初截至当日 | sd |
| 零点截至当前 | tt |
| 财年 | fy |
| 最近1小时 | 1h |
| 准实时 | ts |
| 未来7天 | f1w |
| 未来4周 | f4w |
1.3 算法
原子指标、修饰词、派生指标的算法说明必须让各种使用人员看得明白,包括:
·算法概述一一算法对应的用户容易理解的阐述。
·举例一一通过具体例子帮助理解指标算法。
· SQL算法说明一一对于派生指标给出SQL的写法或者伪代码。
2.操作细则
2.1 算法派生指标的种类
派生指标可以分为三类:事务型指标、存量型指标和复合型指标。按照其特性不同,有些必须新建原子指标,有些可以在其他类型原子指标的基础上增加修饰词形成派生指标。
·事务型指标:是指对业务活动进行衡量的指标。例如新发商品数、重发商品数、新增注册会员数、订单支付金额,这类指标需维护原子指标及修饰词,在此基础上创建派生指标。
·存量型指标:是指对实体对象(如商品、会员)某些状态的统计。例如商品总数、注册会员总数,这类指标需维护原子指标及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截至当前某个时间"。
·复合型指标:是在事务型指标和存量型指标的基础上复合而成的。例如浏览U№下单买家数转化率,有些需要创建新原子指标,有些则可以在事务型或存量型原子指标的基础上增加修饰词得到派生指标
模型设计
指导理论
公共层设计理念遵循维度建模思想,基于维度数据模型总线架构,构建一致性的维度和事实。
模型层次
阿里巴巴的数据团队把表数据模型分为三层:操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS)。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
