数据探索
- 一般而言,数据探索是样本数据集采集到后的第一步。
- 指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。
- 常见的数据探索角度分为数据质量分析和数据特征分析。
数据质量分析
- 数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。
- 主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值)
- 缺失值
- 异常值
- 出现原因
- 分析方法
- 统计量分析(最大值最小值圈定范围)
- 正态分布分析
- 箱型图分析
- 一致性分析
数据特征分析
- 质量分析的下一步。
- 通过图表、特征量进行特征分析。
- 分布分析
- 揭示数据的分布特征和分布类型
- 定量数据分布分析
- 定性数据分布分析
- 对比分析
- 统计量分析
- 周期性分析
- 贡献度分析
- 相关性分析
- 散点图
- 散点图矩阵
- 相关系数
- Pearson相关系数
- Spearman秩相关系数
- 判定系数
关于数据探索库函数的使用,可以参考我的博客
关于数据探索测试脚本的使用,可以参考我的Github
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!