零基础入门数据挖掘之心电图分类 Task5 建模融合

2023-11-24 21:47:38

此次学习是整个学习的最后一节。收获颇丰！感谢datawhale提供的平台！

模型融合

在前面的特征工程中，特征融合也是一个重要的环节，而对于模型的融合也是一个相当重要的环节。俗话说：三个臭皮匠顶个诸葛亮

常见的模型融合有以下三大类型的方法

简单的加权融合：这部分比较好理解，光看名字就可以理解例如
回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting)
综合：排序融合(Rank averaging)，log融合
stacking/blending：本次blog主要学习这个给方法
boosting/bagging ：在前面的学习提到了

stacking

参考链接

stacking：stacking是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练，从而得到完整的stacking模型。stacking的方法在各大数据挖掘比赛上都很风靡，模型融合之后能够小幅度的提高模型的预测准确度。
如图所示
在这里插入图片描述
第一层，我们采用RF、ET、GBDT、XGB四种模型，分别对训练样本进行预测，然后将预测结果作为下一层的训练样本
具体过程：

划分training data为K折，为各个模型的训练打下基础；
针对各个模型RF、ET、GBDT、XGB，分别进行K次训练，每次训练保留K分之一的样本用作训练时的检验，训练完成后对testing data进行预测，一个模型会对应5个预测结果，将这5个结果取平均；
最后分别得到四个模型运行5次之后的平均值，同时拼接每一系列模型对训练数据集的预测结果带入下一层；
第二层：将上一层的四个结果带入新的模型，进行训练再预测。第二层的模型一般为了防止过拟合会采用简单的模型。
具体训练过程：将四个预测结果，拼接上各个样本的真实label，带入模型进行训练，最终再预测得到的结果就是stacking融合之后的最终预测结果了。

blending

Blending方式和Stacking方式很类似，相比Stacking更简单点，两者区别是：
Blending是直接准备好一部分10%留出集只在留出集上继续预测，用不相交的数据训练不同的 Base Model，将它们的输出取（加权）平均。实现简单，但对训练数据利用少了
blending 的优点是：比stacking简单，不会造成数据穿越（所谓数据穿越，就比如训练部分数据时候用了全局的统计特征，导致模型效果过分的好），generalizers和stackers使用不同的数据，可以随时添加其他模型到blender中。
缺点在于：blending只使用了一部分数据集作为留出集进行验证，而stacking使用多折交叉验证，比使用单一留出集更加稳健。

一些其他方法

利用stacking的原理，将特征放进模型中预测，并将预测结果变换并作为新的特征加入原有特征中再经过模型预测结果（Stacking变化）
代码如下

def Ensemble_add_feature(train,test,target,clfs):# n_flods = 5# skf = list(StratifiedKFold(y, n_folds=n_flods))train_ = np.zeros((train.shape[0],len(clfs*2)))test_ = np.zeros((test.shape[0],len(clfs*2)))for j,clf in enumerate(clfs):'''依次训练各个单模型'''# print(j, clf)'''使用第1个部分作为预测，第2部分来训练模型，获得其预测的输出作为第2部分的新特征。'''# X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test]clf.fit(train,target)y_train = clf.predict(train)y_test = clf.predict(test)## 新特征生成train_[:,j*2] = y_train**2test_[:,j*2] = y_test**2train_[:, j+1] = np.exp(y_train)test_[:, j+1] = np.exp(y_test)# print("val auc Score: %f" % r2_score(y_predict, dataset_d2[:, j]))print('Method ',j)train_ = pd.DataFrame(train_)test_ = pd.DataFrame(test_)return train_,test_

from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()data_0 = iris.data
data = data_0[:100,:]target_0 = iris.target
target = target_0[:100]x_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.3)
x_train = pd.DataFrame(x_train) ; x_test = pd.DataFrame(x_test)#模型融合中使用到的各个单模型
clfs = [LogisticRegression(),RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]New_train,New_test = Ensemble_add_feature(x_train,x_test,y_train,clfs)clf = LogisticRegression()
# clf = GradientBoostingClassifier(learning_rate=0.02, subsample=0.5, max_depth=6, n_estimators=30)
clf.fit(New_train, y_train)
y_emb = clf.predict_proba(New_test)[:, 1]print("Val auc Score of stacking: %f" % (roc_auc_score(y_test, y_emb)))

总结

通过此次完整的学习流程，明白了如何利用阿里平台进行竞赛和学习。也通过开源datawhale活动获得了许多知识。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 零基础入门心电图心跳信号多分类预测挑战赛赛题理解
下一篇 > 零基础入门心电图心跳信号多分类预测挑战赛-赛题理解

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

零基础入门数据挖掘之心电图分类 Task5 建模融合

模型融合

stacking

blending

一些其他方法

总 结

相关文章

总结