5.2 离线数仓—DWS层交易域汇总表的设计实现

离线数仓—DWS层交易域汇总表的设计实现

  • 前言
  • 一、交易域用户商品粒度订单汇总表
    • 1.用户商品粒度订单表的说明
    • 2.最近1日汇总表
      • 2.1 建表语句
      • 2.2 首日数据装载
      • 2.3 每日数据装载
    • 3.最近n日汇总表
      • 3.1 建表语句
      • 3.2 数据装载
  • 二、交易域用户商品粒度退单汇总表
    • 1.最近1日汇总表
      • 1.1 首日数据装载
      • 1.2 每日数据装载
    • 2.最近n日汇总表
      • 2.1 建表语句
      • 2.2 数据装载
  • 三、交易域用户粒度订单汇总表
    • 1. 最近1日汇总表
      • 1.1 建表语句
      • 1.2 首日数据装载
      • 1.3 每日数据装载
    • 2. 最近n日汇总表
      • 2.1 建表语句
      • 2.2 数据装载
  • 四、交易域用户粒度加购汇总表
    • 1. 最近1日汇总表
      • 1.1建表语句
      • 1.2首日装载
      • 1.3 每日装载
    • 2. 最近1日汇总表
      • 2.1建表语句
      • 2.2数据装载
  • 五、交易域用户粒度支付汇总表
    • 1.最近1日汇总表
      • 1.1 建表语句
      • 1.2 首日数据装载
      • 1.3 每日数据装载
    • 2.最近n日汇总表
      • 2.1 建表语句
      • 2.2 数据装载
  • 六、交易域省份粒度订单汇总表
    • 1.最近1日汇总表
      • 1.1 建表语句
      • 1.2 首日数据装载
      • 1.3 每日数据装载
    • 2.最近n日汇总表
      • 2.1 建表语句
      • 2.2 数据装载
  • 七、交易域用户粒度退单汇总表
    • 1.最近1日汇总表
      • 1.1 建表语句
      • 1.2 首日数据装载
      • 1.3 每日数据装载
    • 2.最近n日汇总表
      • 2.1 建表语句
      • 2.2 数据装载
  • 八、交易域优惠券粒度订单最近n日汇总表
    • 1.建表语句
    • 2.数据装载
  • 九、交易域活动粒度订单最近n日汇总表
    • 1.建表语句
    • 2.数据装载


前言

前面使用了一个例子简单说明了DWS层的分析和设计,接下来真正进行DWS层的设计和实现。
首先进行交易域汇总表的设计。

一、交易域用户商品粒度订单汇总表

1.用户商品粒度订单表的说明

为什么要建用户商品粒度订单表?
原因:在上一节中说过,是为了增加表的公用性。

2.最近1日汇总表

2.1 建表语句

DROP TABLE IF EXISTS dws_trade_user_sku_order_1d;
CREATE EXTERNAL TABLE dws_trade_user_sku_order_1d
(`user_id`                   STRING COMMENT '用户id',`sku_id`                    STRING COMMENT 'sku_id',`sku_name`                  STRING COMMENT 'sku名称',`category1_id`              STRING COMMENT '一级分类id',`category1_name`            STRING COMMENT '一级分类名称',`category2_id`              STRING COMMENT '一级分类id',`category2_name`            STRING COMMENT '一级分类名称',`category3_id`              STRING COMMENT '一级分类id',`category3_name`            STRING COMMENT '一级分类名称',`tm_id`                     STRING COMMENT '品牌id',`tm_name`                   STRING COMMENT '品牌名称',`order_count_1d`            BIGINT COMMENT '最近1日下单次数',`order_num_1d`              BIGINT COMMENT '最近1日下单件数',`order_original_amount_1d`  DECIMAL(16, 2) COMMENT '最近1日下单原始金额',`activity_reduce_amount_1d` DECIMAL(16, 2) COMMENT '最近1日活动优惠金额',`coupon_reduce_amount_1d`   DECIMAL(16, 2) COMMENT '最近1日优惠券优惠金额',`order_total_amount_1d`     DECIMAL(16, 2) COMMENT '最近1日下单最终金额'
) COMMENT '交易域用户商品粒度订单最近1日汇总事实表'PARTITIONED BY (`dt` STRING)STORED AS ORCLOCATION '/warehouse/gmall/dws/dws_trade_user_sku_order_1d'TBLPROPERTIES ('orc.compress' = 'snappy');

语句说明:
表中sku_name这些进行了维度退化的操作,order_original_amount_1d、activity_reduce_amount_1d这些字段是为了适应更多的需求,目前来看用不到,后面用到了再回来看

2.2 首日数据装载

假设2020-06-14是数仓的第一天,因为在业务数据库中可能有多天的业务数据,所以在DWD层中可能存在2020-06-13、2020-06-12、2020-06-11等等日期的数据,所以首日装载时,要对这些历史数据也要进行处理。
装载语句如下:

set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table dws_trade_user_sku_order_1d partition(dt)
selectuser_id,id,sku_name,category1_id,category1_name,category2_id,category2_name,category3_id,category3_name,tm_id,tm_name,order_count_1d,order_num_1d,order_original_amount_1d,activity_reduce_amount_1d,coupon_reduce_amount_1d,order_total_amount_1d,dt
from
(selectdt,user_id,sku_id,count(*) order_count_1d,sum(sku_num) order_num_1d,sum(split_original_amount) order_original_amount_1d,sum(nvl(split_activity_amount,0.0)) activity_reduce_amount_1d,sum(nvl(split_coupon_amount,0.0)) coupon_reduce_amount_1d,sum(split_total_amount) order_total_amount_1dfrom dwd_trade_order_detail_incgroup by dt,user_id,sku_id
)od
left join
(selectid,sku_name,category1_id,category1_name,category2_id,category2_name,category3_id,category3_name,tm_id,tm_namefrom dim_sku_fullwhere dt='2020-06-14'
)sku
on od.sku_id=sku.id;

2.3 每日数据装载

每日数据装载时,不用考虑多个分区的问题,把当天的数据放到当天的分区即可。
装载语句如下:

insert overwrite table dws_trade_user_sku_order_1d partition(dt='2020-06-15')
selectuser_id,id,sku_name,category1_id,category1_name,category2_id,category2_name,category3_id,category3_name,tm_id,tm_name,order_count,order_num,order_original_amount,activity_reduce_amount,coupon_reduce_amount,order_total_amount
from
(selectuser_id,sku_id,count(*) order_count,sum(sku_num) order_num,sum(split_original_amount) order_original_amount,sum(nvl(split_activity_amount,0)) activity_reduce_amount,sum(nvl(split_coupon_amount,0)) coupon_reduce_amount,sum(split_total_amount) order_total_amountfrom dwd_trade_order_detail_incwhere dt='2020-06-15'group by user_id,sku_id
)od
left join
(selectid,sku_name,category1_id,category1_name,category2_id,category2_name,category3_id,category3_name,tm_id,tm_namefrom dim_sku_fullwhere dt='2020-06-15'
)sku
on od.sku_id=sku.id;

注意说明:
1)在一天中,可能一个用户对一件商品下了多个订单,可能会出现一个订单使用了优惠券,一个订单没有使用优惠券的情况,没有使用优惠券时split_activity_amount的值为null,进行sum求和的结果也为null,所以要对上面的字段进行处理,活动优惠字段也一样。

sum(nvl(split_activity_amount,0)) activity_reduce_amount

3.最近n日汇总表

3.1 建表语句

DROP TABLE IF EXISTS dws_trade_user_sku_order_nd;
CREATE EXTERNAL TABLE dws_trade_user_sku_order_nd
(`user_id`                    STRING COMMENT '用户id',`sku_id`                     STRING COMMENT 'sku_id',`sku_name`                   STRING COMMENT 'sku名称',`category1_id`               STRING COMMENT '一级分类id',`category1_name`             STRING COMMENT '一级分类名称',`category2_id`               STRING COMMENT '二级分类id',`category2_name`             STRING COMMENT '二级分类名称',`category3_id`               STRING COMMENT '三级分类id',`category3_name`             STRING COMMENT '三级分类名称',`tm_id`                      STRING COMMENT '品牌id',`tm_name`                    STRING COMMENT '品牌名称',`order_count_7d`             STRING COMMENT '最近7日下单次数',`order_num_7d`               BIGINT COMMENT '最近7日下单件数',`order_original_amount_7d`   DECIMAL(16, 2) COMMENT '最近7日下单原始金额',`activity_reduce_amount_7d`  DECIMAL(16, 2) COMMENT '最近7日活动优惠金额',`coupon_reduce_amount_7d`    DECIMAL(16, 2) COMMENT '最近7日优惠券优惠金额',`order_total_amount_7d`      DECIMAL(16, 2) COMMENT '最近7日下单最终金额',`order_count_30d`            BIGINT COMMENT '最近30日下单次数',`order_num_30d`              BIGINT COMMENT '最近30日下单件数',`order_original_amount_30d`  DECIMAL(16, 2) COMMENT '最近30日下单原始金额',`activity_reduce_amount_30d` DECIMAL(16, 2) COMMENT '最近30日活动优惠金额',`coupon_reduce_amount_30d`   DECIMAL(16, 2) COMMENT '最近30日优惠券优惠金额',`order_total_amount_30d`     DECIMAL(16, 2) COMMENT '最近30日下单最终金额'
) COMMENT '交易域用户商品粒度订单最近n日汇总事实表'PARTITIONED BY (`dt` STRING)STORED AS ORCLOCATION '/warehouse/gmall/dws/dws_trade_user_sku_order_nd'TBLPROPERTIES ('orc.compress' = 'snappy');

3.2 数据装载

说明:假如第一天日期是2020-06-14,实际上数仓dws_trade_user_sku_order_1d这个表中可能有以前的数据,但是这里没有区分首日数据装载和每日数据装载,因为即使有以前的数据,算出来也没有什么意义,所以不去计算之前的数据(而且也没想到什么好的方法能一下计算出来以前的所有数据)

insert overwrite table dws_trade_user_sku_order_nd partition(dt='2020-06-14')
selectuser_id,sku_id,sku_name,category1_id,category1_name,category2_id,category2_name,category3_id,category3_name,tm_id,tm_name,sum(if(dt>=date_add('2020-06-14',-6),order_count_1d,0)),sum(if(dt>=date_add('2020-06-14',-6


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部