数据分析与挖掘理论-数据预处理
数据预处理
- 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。
- 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域,
- 分为数据清洗、数据集成、数据变换和数据规约。
数据清洗
- 删除无关数据、重复数据、平滑噪声数据、处理缺失值和异常值。
- 缺失值处理
- 插补
- 删除
- 在数据量很少的情况下,这是利用数据为代价换取完备,是不合理的。
- 插值模型
- 拉格朗日插值法(scipy实现)
- 牛顿插值法(scipy未实现)
- 异常值处理
- 删除
- 视作缺失值
- 平均值处理
- 不处理
- 缺失值处理
数据集成
- 多数据源数据仓库化。
- 实体识别
- 同名异义
- 异名同义
- 单位不统一
- 冗余属性识别
- 同一属性多次出现
- 同一属性命名不一致导致重复
- 实体识别
数据变换
- 规范化处理数据,便于使用。
- 简单函数变换
- 常用来将不具有正态分布的数据变换成具有正态分布的数据。
- 规范化
- 最小-最大规范化
- 零-均值规范化(使用最多)
- 小数定标规范化
- 连续属性离散化
- 等宽法
- 等频法
- 聚类
- 属性构造
- 推导属性
- 小波变换
- 新型数据分析工具
- 简单函数变换
数据规约
- 降低错误数据对建模的影响,减少存储成本
- 属性规约
- 数值规约
- 直方图
- 聚类
- 抽样
- 参数回归
相关库函数的使用,可以查看我的博客
- 我的博客
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
