kaggle入门-泰坦尼克

机器学习流程

初探数据

导入数据:pd.read_csv
观察数据:head()、info()、describe()

数据可视化

画子图plt.subplot2grid((2,3),(1,0))
两行三列中第二行第一列的位置

每列按照unique值统计数量画条形图:df.col_name.values_counts().plot(kind=“bar”)
在这里插入图片描述
在此基础上观察某X于Y之间的联系

df.col_name[df.col_namevalues][df.col_namevalues].value_counts()

在这里插入图片描述
在这里插入图片描述
统计描述
groupby
在这里插入图片描述
统计每个特征值的频数
df.col_name.value_counts()
在这里插入图片描述

数据预处理

缺失值处理:

(1)占比高且且不重要:舍弃
(2)占比低
a. 连续变量 离散化 增加nan类
b. 非连续变量 增加nan类
在这里插入图片描述
(3)其他方法
a. 拟合得到缺失值
b. 平均值代替

例子:随机森林拟合缺失值age

在这里插入图片描述

独热编码

perfix加前缀
dummies_col_name=pd.get_dummies(df[“col_name”],perfix=“col_name”)

在这里插入图片描述

数据归一化

import sklearn.preprocessing as preprocessing
scaler=preprocessing.StandardScaler()
scaler.fit
scaler.fit_transfrom

在这里插入图片描述

模型训练

例子:逻辑回归
linear_model.LogisticRegression
在这里插入图片描述

模型预测

测试集做与训练集一样的操作
缺失值处理 独热编码 归一化
在这里插入图片描述

clf.predict
在这里插入图片描述

模型优化

创建baseline 之后的改进

系数关联分析

在这里插入图片描述

交叉验证:

方便优化调试
在这里插入图片描述

bad case

找出bad case尝试优化
在这里插入图片描述

特征工程

加tricks
离散化
组合变量构造新变量

特征工程之后拟合越来越好,分辨欠拟合以及过拟合

学习曲线

上图:过拟合test以及train之间gap很大
下图:欠拟合
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型融合

bagging:类似于随机森林
多个模型同时做决策,多数法则,有效缓解过拟合

数据集上入手,每次从数据集的subset中训练模型,每个模型都不一样,多数法则做决策,缓解过拟合

在这里插入图片描述

流程总结

在这里插入图片描述

参考 https://blog.csdn.net/han_xiaoyang/article/details/49797143


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部