决策树、随机森林之四，关于提升（一）

2023-08-25 17:08:27

关于提升

之前，关于随机森林的做法是：通过有放回的重采样生成出若干颗决策树 $\bigl(\begin{smallmatrix} \\ T_{1} \\ T_{2} \\ \cdot \cdot \cdot \\ T_{m} \end{smallmatrix}\bigr)$ ，从中取一个平均得到森林，这个randomforest实际是对这m颗树取平均得到的，它没有哪棵树更重要哪颗树不重要这种说法。

那么能不能换一种思路，给出这些树的权值，比如 $\bigl(\begin{smallmatrix} \\ {\alpha_{1} T_{1}} \\ {\alpha_{2}T_{2}} \\ \cdot \cdot \cdot \\ {\alpha_{m}T_{m}} \end{smallmatrix}\bigr)$ ，并不是简单的取平均而是加权，我们把这样一种方式叫做提升。用图来说明：

提升的概念

提升是一个机器学习技术，可以用于回归和分类，它每一步产生一个弱预测模型（如决策树），并加权累加到模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升（ Gradient boosting）。

梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合（基函数）；提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。

提升的理论意义：如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器。（所谓的弱分类器可能就是准确率50%多一丢丢。如果存在弱分类器，那么一定存在对应的强分类器。也就是说如果一个问题有办法解决，那么一定存在一个好办法解决它。）

提升算法

给定输入向量x和输出变量y组成的若干训练样本 $\left ( x_{1}, y_{1}} \right ),\left ( x_{2}, y_{2}} \right )\cdot \cdot \cdot \left ( x_{n}, y_{n}} \right ),$ 目标是找到近似函数 $\hat{F}(\vec{x})$ ,使得损失函数 $L(y,F(x))$ 的损失值最小（损失函数就是均方误差）。

$L(y,F(x))$ 的典型定义为： $L(y,F(\vec{x}))=\frac{1}{2}(y-F(\vec{x}))^{2}\cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (1)$

$L(y,F(\vec{x}))=\left |y-F(\vec{x}) \right |\cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (2)$

假定最有函数为 $F^{*}(\vec{x})=arg\underset{F}{min}E_{(x,y)}\left [ L(y,F(\vec{x}) \right ]$ ，这个函数的意思是 $F(\vec{x})$ 取到何值时能使 $E_{x,y}()$ 最小，此时 $F(\vec{x})$ 即为 $F^{*}(\vec{x})$ 。或者说是我们找一个分类器F，使得期望最小，则这个F就是最优的分类器。相当于是期望风险最小化。

假定 $F(x)$ 是一族基函数 $f_{i}(x)$ 的加权和，即 $F(\vec{x})=\sum_{i=1}^{M}\gamma_{i}f_{i}(x)+const$

如果用式（1），y相当于服从高斯分布。

对提升算法做推导：

梯度提升方法寻找最优解F（x），使得损失函数在训练集上的期望最小。方法如下：

1）给定常函数 $F_{0}(x)$ (其本质即对样本求期望)：

$F_{0}(\vec{x})=arg\underset{\gamma }{min}\sum_{i=1}^{n}L(y_{i},\gamma )$

2）以贪心的思路扩展得到 $F_{m}(x)$ ：

$F_{m}(\vec{x})=F_{m-1}(\vec{x})+arg\underset{f\in H}{min}\sum_{i=1}^{n}L(y_{i},F_{m-1}(\vec{x})+f(\vec{x_{i}}))$

梯度近似：

贪心法在每次选择最优基函数f时仍然困难，因此使用梯度下降的方法近似计算，即

$F_{m}(\vec{x})=F_{m-1}(\vec{x})-\gamma _{m}\sum_{i=1}^{n}\bigtriangledown _{f}L(y_{i},F_{m-1}(\vec{x_{i}}))$

其中 $\gamma$ 为梯度下降的步长，使用线性搜素求最优步长（每次下降一点点）。

换种思路理解

假设有 $(x_{1},y_{1}),(x_{2},y_{2})\cdot \cdot \cdot \cdot \cdot (x_{n},y_{n})$ 这样一个样本，总能得到一个决策树（暂先把它叫做 $T_{0}$ ）,对 $T_{0}$ 输入 $x_{0}$ 总能得到一个预测值 $\hat{y}_{0}$ ，这个决策树就是 $x_{i}$ 的一个函数。

即，对于样本值能得到一组预测值 $(x_{1},\hat{y}_{1}),(x_{2},\hat{y}_{2})\cdot \cdot \cdot \cdot \cdot (x_{n},\hat{y}_{n})$ ， $y_{i}-\hat{y}_{i}$ 就是真残差，如何残差值均为0，就说这颗决策树在训练样本上都很好。

对每一个 $x_{i}$ 都有一个 $y_{i}-\hat{y}_{i}$ ，于是便又可以构成一颗决策树（其本质是让 $\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})$ 做损失函数）：

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 关于随机
下一篇 > 如何从列表中随机选择一个项目？

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce