数据分析与挖掘理论-数据探索

数据探索

  • 一般而言,数据探索是样本数据集采集到后的第一步。
  • 指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。
  • 常见的数据探索角度分为数据质量分析和数据特征分析。

数据质量分析

  • 数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。
  • 主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值)
    • 缺失值
      • 出现原因
        • 无法获取信息
        • 遗漏信息
        • 属性值不存在
      • 分析方法
        • 统计分析
      • 解决方法
        • 删除缺失值记录
        • 可能值插补
        • 不做处理
    • 异常值
      • 出现原因
        • 获取的数据问题
      • 分析方法
        • 统计量分析(最大值最小值圈定范围)
        • 正态分布分析
        • 箱型图分析
    • 一致性分析
      • 出现原因
        • 数据来源问题
      • 分析方法
        • 比对

数据特征分析

  • 质量分析的下一步。
    • 通过图表、特征量进行特征分析。
      • 分布分析
        • 揭示数据的分布特征和分布类型
        • 定量数据分布分析
          • 分组合理
          • 直方图
        • 定性数据分布分析
          • 饼图
          • 条形图
      • 对比分析
        • 绝对数比较
        • 相对数比较
      • 统计量分析
        • 集中趋势度量
        • 离中趋势度量
      • 周期性分析
        • 周期性时序图
      • 贡献度分析
        • 80比例提升
      • 相关性分析
        • 散点图
        • 散点图矩阵
        • 相关系数
          • Pearson相关系数
          • Spearman秩相关系数
          • 判定系数

关于数据探索库函数的使用,可以参考我的博客

  • 我的博客

关于数据探索测试脚本的使用,可以参考我的Github

  • 我的GitHub


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部