大数据入门(一)
大数据入门(一)
内容目录
- 大数据入门(一)
- 一、大数据是什么?
- 二、大数据有何特点❔
- 三、大数据:发展现状与未来趋势❔
- 四、大数据常见应用❔
- 五、大数据有那些技术❔
一、大数据是什么?
1.1 数据是什么❔
数据是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
1.2 大数据是什么❔
大数据的定义目前还没有统一的定义,目前常提到的定义有两种:
“大数据”(Big data)研究机构Gartner给出了这样的定义————“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所————一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
二、大数据有何特点❔
- 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
- 种类(Variety):数据类型的多样性;
- 速度(Velocity):指获得数据的速度;
- 可变性(Variability):妨碍了处理和有效地管理数据的过程。
- 真实性(Veracity):数据的质量。
- 复杂性(Complexity):数据量巨大,来源多渠道。
- 价值(value):合理运用大数据,以低成本创造高价值。
三、大数据:发展现状与未来趋势❔
我国大数据经过多年高速发展,呈现良好的发展态势。
一、产业规模高速增长,2021年大数据产业规模增加到1.3万亿元,复合增速超过30%;
二、创新能力不断增强,2021年我国大数据领域论文量占全球31%,大数据相关专业受理总数占全球超50%;
三、生态体态持续优化,2021年大数据市场主体量超18万家。
四、市场前景认可广,我国大数据领域投融资金超过800亿元,再创历史新高。
五、政策方面,中央、地方发布一系列支持文件,对大数据产业。数字技术、数据要素市场、数据安全等方面进行了重点部署。
六、人才方面,高校教育方面,147所“双一流”高效中87所已经开设了大数据专业,占比达59%;
七、资金方面,多省通过设立专项资金或采取税收优惠政策等方式,对大数据企业、应用进行定向扶持和培育。
大数据发展至今,可以分为以下5个领域:
- 数据存储与计算
- 数据管理
- 数据流通
- 数据应用
- 数据安全
这面是引用***《中国大数据产业发展指数报告 北京大数据研究院》***中有关大数据产业发展指数:

《十三届全国人大常委会专题讲座第十四讲》 有关 大数据:发展现状与未来趋势
《大数据行业报告》:下载地址
《2022大数据白皮书 中国信息通信研究院》:下载地址
《中国大数据产业发展指数报告 北京大数据研究院》:下载地址
四、大数据常见应用❔
对于大多数人来说,大数据很陌生,其实大数据在我们身边无处不在:
示例一: 电商
电商是最早利用大数据技术实现商品精准营销的行业,通过客户的消费产生的大量行为数据,电商平台就可以依据客户消费习惯提前备货,极大的缩短了物流运输时间,提高用户体验等。
示例二:交通
可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划。
可以利用大活数据来实现即时信号灯调度,提高已有线路运行能力。这就是为什么现在通过导航软件,等红绿灯的次数或时间大大缩短的原因。
示例三:社会治安
近些年,大数据技术应用到社会治安上,大大提高了网络治安能力,提高了网络环境质量。比如:基于各种犯罪信息的大数据分析,警察可以定位那些犯罪概率的人群,对那些实施网络环境破坏、在实施犯罪行为发生之前就可以做好一定预测、进而极大的提高了警察破案率。
… …
五、大数据有那些技术❔
| 组件名 | 说明 |
|---|---|
| HDFS(Hadoop) | 分布式文件存储系统,也是其它大数据组件的存储基础 |
| Zookeeper | 分布式协调组件,用于维护配置信息、命名、提供分布式同步和提供组服务。 |
| Hbase | 一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 |
| Phoenix | Phoenix是建立在HBase之上,用户能够通过 JDBC API对HBase操作。 |
| Hive | 数据仓库软件有助于查询和管理驻留在分布式存储中的大型数据集。Hive 定义了一种简单的类似 SQL 的查询语言,称为 HiveQL |
| Flume | Flume 是一个分布式、可靠且可用的系统,用于有效地收集、聚合大量日志数据并将其从许多不同的来源移动到集中式数据存储中。 |
| Sqoop | Hadoop和关系数据库服务器之间传送数据的工具 |
| Kafka | Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 |
| Spark | 基于内存的实时计算引擎 |
| Flink | Flink 是一个开源系统,用于表达、声明、快速和高效的数据分析。它将分布式类 MapReduce 平台的可扩展性和编程灵活性与并行数据库中的效率、核外执行和查询优化功能相结合。 |
| Flink-CDC | 实现数据的实时同步 |
| DataX | 各种异构数据源之间高效的数据同步功能.。实现数据库之间的数据迁移。 |
| . . . . . . | . . . . . . |
在之后的文章当中,会持续向大家分享关于以上组件的学习总结。
💗如果对您有帮助,记得点赞、收藏+关注 。💗
如存在相关问题,记得评论交流。
学习本就枯燥,您的支持也是我学习的动力,一起学习,共同进步!!!非常感谢!!😀
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
