智能数据挖掘技术——第一课(基本概念)
目录
一、应用
二、起因
三、数据挖掘
1、什么是数据挖掘
2、数据挖掘的过程
3、数据挖掘任务的分类
4、多学科的融合
5、大数据的发展历程
6、应用实例
一、应用
1、内容推荐(微信朋友圈广告,短视频)
2、自动驾驶(百度起步较早)
3、人脸识别(无人售卖)
4、资源调度(规划路线,热点图)
二、起因
1、计算机、互联网发展
2、传统纸质数据转换为电子数据
3、数据量急速增长导致的一些问题
(1)数据过量,难以消化
(2)数据真假难以辨别
(3)数据安全难以保证
(4)数据形式不一致、难以统一处理
4、随之数据库技术的迅速发展,对于发现数据中存在的关系和规则以此来根据现有数据预测未来1发展趋势。

三、数据挖掘
1、什么是数据挖掘
从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据分析方法与处理大量数据的复杂算法相结合
广义:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
相关名词:从数据库中知识发现(KDD)、知识提取、数据/模式分析、数据考古
2、数据挖掘的过程
数据挖掘是一个反复迭代的人机交互处理过程。该过程经历多个步骤,很多决策由用户提供 。
数据预处理(耗时最久)、数据挖掘和结果的解释评估(三部分)

3、数据挖掘任务的分类
描述性挖掘任务:刻画数据的一般特性(聚类、关联)
预测性挖掘任务:在当前的数据上进行推断,以进行预测(分类、回归或预测)
4、多学科的融合
数据挖掘是多学科交叉的产物。

(1)数据量大(GP到PB要求算法可伸缩、数据无法放入内存)
(2)维度高(成百上千属性的数据,维度即特征数的增加,计算复杂度迅速提高)
(3)类复杂(相较于传统,数据挖掘需要应对不同领域的不同类型数据)
数据科学的数据驱动方法强调从数据中直接发现模式和关系,特别是从大量数据中,通常不需要广泛的领域知识,成功案例为——深度学习。
数据产生方式的变革促成大数据时代的来临。

5、大数据的发展历程

关键技术:分布式存储,分布式处理
相关工具:RapidMiner、SAS Data Mining、Matlab等
6、应用实例
(1)谷歌基于检索词条的数学模型分析来判断传染源位置(相关度达97%)
(2)Netflix根据用户喜好和操作分析制作《纸牌屋》电影
(3)Farecast预测当前机票价格
(4)UPS根据车辆上的传感器进行路线规划以及车辆信息回传
(5)军情六处(数据挖掘底层技术)依据大数据对于恐怖袭击进行排查和预警(热点图,筛选)
(6)推荐和协同过滤系统,该系统进行用户个性化推荐,这个问题或者其中一个组成部分可以被视为预测问题,因此可以应用数据挖掘技术。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
