大数据什锦_ORCPARQUET_按列存储_Columnar VS Row-based

文章目录

  • 概述
  • Columnar VS Row-based
  • ORC和PARQUET
    • ORC
    • Parquet
  • 实验准备
    • 创建数据库
    • 创建表和加载数据
    • 比较表的大小
  • 存储格式+压缩
    • ORC
    • PARQUET

概述

本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式,比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。

这里不讲解对于Hive的使用。

Columnar VS Row-based

  • 行存储和列存储的存储区别
    在这里插入图片描述

  • 优缺点比较

    • 按行存储:
      优点:insert和update更加容易
      缺点:查询某几列时,所有数据也都会被读取
    • 按列存储:
      优点:查询时只有涉及到的列会被读取;投影很高效;任何列都能作为索引
      缺点:insert/update会比较麻烦
  • 不同存储格式的


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部