大数据库课程(项目1 绪论)

项目1 绪论

  • 项目背景
    • 随着互联网、物联网及云计算等技术的快速兴起,人类社会中数据的增长方式与以往任何时期都有了巨大的不同。不仅数据规模越来越大,数据形式越来越复杂,数据的更新速度越来越快,数据与人们生活的密切程度也越来越高。据美国互联网数据中心研究,仅仅互联网上的数据每年就呈现50%左右的增长。
    • 除此之外,全世界的工业设备、交通工具、生活电器、移动终端,也都随时测量和传递着有关震动、位置、温度、湿度乃至人类之间相互联系的变化情况,海量数据已成为目前数据信息最明显的标签之一。
    • 人类已经进入了一个“大数据”时代,数据的规模更加庞大,数据的种类不再单一,快速查询、定位并提供数据的要求也越来越高,与此紧密相关的数据存储与传统的数据存储相比亦发生了巨大变化。
  • 项目目标
    • 为后续更好地学习大数据存储的相关知识,本项目将通过大数据简介及大数据存储技术的介绍,让读者对大数据技术体系及大数据存储技术有一定的了解,为真正生产环境中的存储技术选型奠定好架构设计的基础。
  • 项目分析
    • (1)学习大数据的概念特征
    • (2)学习大数据的应用领域和大数据技术体系
    • (3)学习大数据存储技术,了解分布式数据库的概念与分类
  • 大数据简介
    • 任务描述
      • 大数据存储是大数据技术体系中的一部分。
      • 为此,了解大数据的概念、特征和应用领域,熟悉大数据技术体系,是理解大数据存储技术的前提和基础。
    • 大数据的概念

     

      • “大数据”一词早在上世纪80年代就已提出,并于2009年开始成为IT行业的流行词汇,但作为一个较为抽象的概念,至今业界还没有对“大数据”给出一个确切、统一的定义。
      • 维基百科在合理的时间内,无法运用传统的数据库管理工具或数据处理软件,完成捕获、管理和处理等功能的大型而复杂的数据集
      • 麦肯锡:大数据是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。
      • Gartner:大数据是指需要借助新的处理模式才能拥有更强的决策力、洞察发现力和流程优化能力的具有海量、多样化和高增长率等特点的信息资产。
    • “大数据方向”
      • 1、大数据架构方向

       

      • 2、大数据开发方向

       

      • 3、数据挖掘与分析方向

       

    • 为什么大数据会被广泛应用
      • (1)底层硬件的支撑
      • (2)数据生产方式
    • 大数据四个特点
      • 数据规模大
      • 数据种类多
      • 处理速度快
      • 价值密度低
    • 大数据的工作环节
      • 大数据

       

      • 数据采集
      • 数据存储
      • 数据计算
      • 数据挖掘与分析
      • 数据应用
      • 数据安全
    • 大数据的应用领域(扩展阅读可能用的到)
      • 目前,大数据已渗透到各行业和各业务职能领域。
      • 电商行业:通过海量的商品交易数据,不仅可以统计出消费热点、客户的消费习惯、消费特点、影响消费的因素等,还能预测出消费趋势、流行趋势等。
      • 医疗行业:在疫情追踪、溯源与预警、辅助医疗救治、助力资源合理配置及辅助决策中得到广泛应用,提升各地疫情防控工作效率。为防控“战役”提供了重要支持。
      • 交通行业:通过提前预测道路交通情况,为出行提供优化方案,在助力交通部门提高道路交通把控能力,防止和缓解交通拥堵等方面起到了极为重要的作用。
    • 大数据技术体系
      • 大数据的技术体系,就是以从各种类型海量数据中快速获取有价值的信息为目的,由大量在大数据领域涌现出的数据采集、存储、处理和呈现等相关技术所组成的相互联系的技术整体。

 

    • 大数据的发展历程
      • 发展示意流程过程

 

      • 大数据三驾马车
        • 分布式文件系统 GFS
        • 大数据分布式计算框架 MapReduce
        • NoSQL数据库系统 BigTable
        • 大数据的发展历程

 

 

  • 大数据的存储技术
    • 任务描述
      • 数据可以存储在文件、数据库或数据仓库中。
      • 为此,首先解释3种数据存储的方式,然后对数据库存储中常用的分布式数据库进行简要介绍。
    • 数据存储简介
      • 1. 基于文件系统的数据存储
        • 文件系统是操作系统用于在分区上、存储设备上负责组织、存取与管理文件的机构,主要由3部分组成:与文件管理有关软件、被管理的文件以及实施文件管理所需的数据结构。
        • 其中,被管理的文件,即数据,是以文件的形式存储在各存储设备上并由操作系统统一管理
        • 分布式文件系统架构图

         

      • 2. 基于数据库的数据存储(关系型数据库与非关系型数据库区别)
        • 数据库(Database)就是按照一定的数据结构数据的组织形式或数据之间的联系)进行组织、存储和管理数据的仓库。通过数据库提供的多种方式可以方便地管理数据库里的数据
        • 关系型数据库
          • 指采用了关系模型来组织数据的数据库,以由行和列所组成的二维表格的形式存储数据。
        • 非关系型数据库
          • 指那些非严格关系型的、分布式的、不保证遵循ACID原则的数据库
        • 关系型数据库与非关系型数据库是人类社会在处理数据不同阶段而出现的不同产物,分别适用于不同的场景。

         

      • 3. 基于数据仓库的数据存储
        • 数据仓库存储的主要是历史数据,并通过维度表用于对数据的分析。数据仓库通过系统的分析、整理和组织大量的历史数据,以联机分析处理(OLAP)和数据挖掘等各种方法,帮助决策者快速有效的从大量数据中,分析出有价值的信息,以实现辅助决策,构建商业智能。
        • 面向主题
        • 集成
        • 相对稳定
        • 反应历史变化
    • 分布式数据库简介
      • 1. 分布式数据库及其管理系统
        • 分布式数据库是在传统集中式数据库的基础上发展而来的,是针对大数据存储管理而快速发展起来的关键技术,是数据库技术和网络技术不断发展、互相融合、互相促进的结果。
        • 其基本思想是借助计算机网络技术,将海量数据分散存储在网络中的不同存储节点,并通过分布式计算技术,将这些分散的物理存储单元连接起来组成一个逻辑上统一的数据库,从而在获取更大存储容量的同时,实现更高的并发访问量。
        • 分布式数据库管理系统是一种专门为分布式数据库所设计的,用于建立、使用和维护分布式数据库的大型软件,通过借助存储引擎和计算引擎,对分布式数据库进行统一的管理,以保证分布式数据库的安全性和完整性。
      • 2. NoSQL数据库的特点
        • NoSQL(NotOnly SQL,可意为“不仅仅是SQL”)数据库,是对不同于传统的关系数据库的统称。
        • 灵活的数据模型
        • 可扩展性强
        • 高可用性
        • 高并发性
      • 3. NoSQL数据库的分类
        • 在大数据的储存与处理上,NoSQL具备传统关系型数据库无法比拟的性能优势。随着人们对非关系型数据库的日益重视,目前已开发出众多性能优秀的NoSQL数据库产品。
        • 键值数据库
          • Redis、SimpleDB
        • 列族数据库
          • HBase、BigTable
        • 文档数据库
          • MongoDB、CruchDB
        • 图形数据库
          • Neo4J、GraphDB
    • 小结
      • 人类已经进入了一个“大数据”时代,数据的规模更加庞大,数据的种类不再单一,快速查询、定位并提供数据的要求也越来越高,与此紧密相关的数据存储与传统的数据存储相比亦发生了巨大变化。
      • 首先介绍了大数据的概念、特征、应用领域和技术体系。
      • 再根据数据的存储方式介绍了大数据技术体系中的存储技术。
        • 分布式数据库的概念
        • 分布式数据库的特点
        • 分布式数据库的分类


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部