数据预处理(Data Preparation)基础知识总结 The Complete Guide to Data Preparation
作者:禅与计算机程序设计艺术
1.简介
数据预处理(Data Preparation)是数据科学中最重要的一环,也是经验丰富的数据科学家所需要掌握的内容。然而,由于初学者往往对数据的结构、规律不熟悉,导致很难将数据转化成可用于机器学习等数据分析任务中的输入。因此,如何清晰地、正确地准备好数据成为一个必不可少的技能。本文将会详细阐述“数据脏数据”(Dirty data)、“重复数据”(Duplicate data)、“缺失数据”(Missing data)、“离群点数据”(Outlier data)、“多重共线性”(Multicollinearity)、“变量交叉”(Variable interaction)、“标准化数据”(Normalization of data)、“标称化数据”(Nominalization of data)、“编码转换”(Encoding conversion)、“拆分目标变量”(Splitting target variable into dependent and independent variables) 等数据预处理过程中的关键概念。
本文通过图表、示意图、公式及代码实例来向读者展示这些处理方法,并对这些处理方法产生的影响进行深入剖析,帮助读者理解这些处理方法背后的原理及应用场景。
2.基本概念和术语
数据预处理是指从原始数据中提取有效信息,对其进行转换、清洗、加工、过滤等操作,形成用于机器学习的输入形式的过程。数据预处理的目的就是为了有效地让数据能够被分析模型所接受,实现数据科学领域的价值。以下是一些常用的相关术语:
- 实体
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
