OLAP ——Druid简介

2023-10-04 00:19:32

背景

特性

基本概念

设计原则

数据格式

数据摄入

数据查询

适用场景

背景

Druid是一个分布式的支持实时分析的数据存储系统。通俗点说：就是一个高性能实时分析数据库。2011年，由美国广告技术公司MetaMarkets创建，并于2012年开源。官网地址是：http://druid.io/。目前Druid已基于Apache License 2.0协议开源，正在由Apache孵化，代码托管于Github。最新官网地址为：https://druid.apache.org/

（注意：阿里曾开源过一个项目叫做Druid是一个数据库连接池。与这里讲的Driud仅仅是名字一样而已，并没有什么关联。）

特性

1.快速查询

内存化的数据存储提高了druid的查询速度，提供了快速的聚合能力以及快速OLAP查询能力，多租户的设计，是面向用户分析应用最理想的方式。druid的数据聚合粒度可以是1分钟，5分钟，1小时或者1天等。

2.实时数据注入

druid支持实时流式数据的注入，并提供了数据的事件驱动，保证在实时和离线环境下事件的时效性和统一性。典型的 Lambda 架构，不改变历史数据，实时接入实时数据。

3.可扩展的PB级存储

可扩展的分布式架构，druid集群可以很方便的扩容到PB的数据量，每秒百万级别的数据注入。即便在加大数据规模的情况下，也能保证其时效性。druid可以按照时间范围把聚合数据进行分区处理。

4.云原生架构，高容错性：

druid既可以运行在商业的硬件上，也可以运行在云上。它可以从多种数据系统中注入数据，包括hadoop，spark，kafka，storm和samza等。

基本概念

设计原则

1.快速查询（Fast Query） : 部分数据聚合（Partial Aggregate） + 内存化（In-Memory） + 索引（Index）

2.水平拓展能力（Horizontal Scalability）:分布式数据（Distributed data）+并行化查询（Parallelizable Query）

3.实时分析（Realtime Analytics）：Immutable Past , Append-Only Future

数据格式

druid在数据摄入之前，首先需要定义一个数据源也就是Datasource，这个dataSource的结构是时间列（TimeStamp），维度列（Dimension）和指标列（Metric）。

时间列：druid会将时间相近的一些数据聚合在一起，查询的时候指定时间范围。

维度列：作为标识一些统计的维度，比如各种类型。

指标列：就是用于聚合和计算的列，包括count，sum等等。

数据摄入

druid提供了两种数据摄入方式，实时和批处理。

数据查询

druid支持两种查询，原生和sql

适用场景

根据Druid的特性可知，druid适合的数据场景：

查询多修改很少
查询以聚合或分组为主
快速查询
需要支持离线和实时的数据源·

具体的业务场景：

用户行为分析
服务性能指标实时监测
数字营销
商业智能/ OLAP

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

OLAP ——Druid简介

背景

特性

基本概念

设计原则

数据格式

数据摄入

数据查询

适用场景

相关文章