【大数据离线开发】2.1、大数据起源之背景知识
Hadoop的起源与背景知识
2.1 什么是大数据
大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5个特征(IBM提出):
-
l Volume (大量)
-
l Velocity(高速)
-
l Variety (多样)
-
l Value (价值)
-
l Veracity(真实性)
大数据的典型案例:
-
l 电商网站的商品推荐
问题一:大量的订单如何存储?
问题二:大量的订单如何计算?
注意:可能运用推荐算法(协同过滤、ALS、逻辑回归)

-
基于大数据的天气预报
问题一:大量的天气的数据如何存储?
问题二:大量的天气的数据如何计算?

核心的问题:
- 数据的存储----------------分布式的文件系统:HDFS(Hadoop Distributed File System)
- 数据的计算----------------分布式的计算:Mapreduce、Spark(RDD:弹性分布式数据集)
2.2 OLTP与OLAP
- OLTP:On-Line Transaction Processing(联机事务处理过程)。也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理(insert、update、delete),例如银行交易。
典型案例:银行转账

- OLAP:On-Line Analytic Processing(联机分析处理过程)。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果;Hadoop、Spark看成是一种数据仓库的解决方案。
典型案例:商品推荐

- OLTP和OLAP的区别:

2.3 数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是
单个数据存储,出于分析性报告和决策支持目的而创建。

1、传统方式:搭建数据仓库(Data warehouse)来解决大数据的问题
2、数据仓库就是一个数据库(Oracle、MySQL、MS)
- 一般只做select
- 大数据也是一般只做查询(分析)
3、搭建数据仓库的过程:画图
- Hadoop、Spark中的一些组件

- 黑色字体是传统的数据处理方式
- 红色字体是现在大数据的数据处理方式
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
