数学建模(3.1)统计问题1认识数据与预处理

数学建模学习笔记(3.1)统计问题

认识数据与预处理

主要内容:

1.统计学原理,数理统计

2.回归分析,线性模型

3.多元统计分析,机器学习,数据挖掘

4.时间序列分析

spss操作请进传送门:
spss建立数据集

认识数据

1.获取数据

美赛中经常要求选手自己收集并处理数据,而收集到合理且准确地数据是建立一个优秀的数学模型的重要基石。

2.理解数据结构

2.1结构化数据
结构化数据其实就是已经经过预处理和一定规律的排列组合的表格数据(可以被excel或者spss存储并处理的数据)
ps:所有的统计算法只能适用于结构化数据

2.2非机构化数据
类似音频,图片等数据。如果想处理非结构化数据必须首先转换为结构化数据后再进行处理

3.结构
表格中的行列意义

3.1变量(列)
指标,特征,属性

3.2样本(行)
观测,记录,实验对象

4.结构化
将杂乱的数据进行处理和整理,变成结构化数据。

ps:一定要分清变量和样本,进行正确的排列

pps:在大多数的统计分析,数据处理题中,大部分的时间都是在寻找数据,然后对数据进行各式各样的预处理,变成一个极具代表性和研究价值的结构化数据表,然后套用算法进行求解。

5.变量
5.1变量的取值类型(value)

5.2变量的测量类型(character)

5.2.1名义
数据某性质的代表符号,数字的不同仅代表数据的不同性质,无法进行计算
eg: 性别:0, 1

5.2.2有序
同样是数据某性质的代表,但是数字间的数字存在程度联系
eg:满意度:1, 2, 3, 4

5.2.3度量
数据本身测量出的数据属性,是真实值,可以进行运算
eg:身高:175, 180, 178

在数据处理软件(spss)中标记数据的测量类型可以防止在一些运算中出现错误的,没有意义的运算而不知道
若软件进行了定性数据的加减乘除运算软件会立即报错。类似,保险(手动滑稽)

预处理

数据预处理是统计建模中较为核心的部分
在数学模型的评比中占有5分的分值,非常重要
一定要做预处理,一定要做预处理,一定要做预处理,重要事情说三遍
而且优秀的预处理能够极大的减轻随后的工作量,并提高数据和模型的代表性

1.数据编码以及转换
编码主要用于将符号转换为数字
主要对于定性数据进行处理,例如将性别:male ,female转化为0,1;

数据转换
对数据进行合适变换可以使得数据的特征更加明显,并且易于处理

2.缺失值填补,异常值处理

2.1缺失值填补

2.1.1exclude(直接删除)
暴力快捷危险,仅建议头铁党使用,且在样本量较大情况下使用
缺失值阈值为30%,并且尽量删除行数据,不要删除列数据

2.1.2average(平均值)
利用相关性
事实证明没有太大影响,强迫症患者和建模追求较高同学建议使用加权平均值
或者通过分析使得该点值在更具代表性数据集的平均值

2.1.3相关性
通过两个数据的相关性,对两列数据进行排序,通过另一数据的位置确定缺失数据的位置,取上下位置的值取平均值。

2.1.4随机填补法
从数据集中随机抽取一个数据进行填补
虽然听起来很扯,但是统计学家还是能证明这个方法的靠谱性

2.2异常值处理
异常值通常有两种
一是在数据中突然超出数据很多的超大值和超小值
二是在数据中的不合理值,例如满分120的成绩出现分数为121的值
一般来说直接删去即可,一些情况下也可以进行填补

3.数据去量纲化
统一尺度,将不同单位的数据变成衡量标准统一,可以进行比较的数据
数据标准化处理

4.数据概化
名义——有序——尺度(定量)
低级——中级——高级
适合高级数据算法一定适用于低级数据,但适用低级数据的算法不一定适用于高级数据。
但是寻求政策,建议等要求通常只关注与数据的大致趋势,需要比较概化的数据
eg:决策树


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部