python学习总结7.22

**

集成算法与随机森林

**

01集成算法-随机森林

Bagging模型

  • 全称:bootstrap aggregation
  • 最典型的代表就是随机森林
  • 随机:数据采样随机,特征选择随机
  • 森林:很多个决策树并行放在一起

02特征重要性衡量

随机森林优势

  • 能够处理很高维度(feature很多)的数据,并且不用做特征选择
  • 在训练完后,它能够给出哪些feature比较重要
  • 容易做成并行化方法,速度比较快
  • 可以进行可视化展示,便于分析

03提升模型

Ensemble learning

  • 目的:让机器学习效果更好
  • Bagging:训练多个分类取平均
  • Boosting:从弱学习器开始加强,通过加权来进行训练
  • Stacking:聚合多个分类或回归模型(可以分阶段来做)
    Boosting模型
  • 典型模型:AdaBoost,Xgboost
  • Adaboost会根据前一次的分类效果调整数据权重
  • 解释:如果某一个数据在这次分错了,那么在下一次我就会给它更大的权重
  • 最终的结果:每个分类器根据自身的准确性来确定各自的权重,再合体

04堆叠模型

Stacking模型

  • 堆叠:
  • 可以堆叠各种各样的分类器(KNN、SVM、RF等等)
  • 分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果训练


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部