XGBoost原理和公式推导

2023-11-24 12:36:31

XGBoost的模型： $\hat{y_i}=\sum_{k=1}^{K}f_k(x_i)$
其中 $f_k \in F$ ， $F=f(x)=w_{q(x)}$ ，每个 $f_{k}$ 对应于一个独立的树结构 $q$ 和叶子权重 $w$ 。 $w_{i}$ 代表第 $i$ 个结点的分数， $w_{q(x)}$ 是对样本 $x$ 的打分，即模型预测值。

目标（损失）函数：
$L=\sum_{i=1}^{n}l(\hat{y_i},y_i)+\sum_{k=1}^{T}\Omega (f_k)$ 其中， $\Omega (f)=\gamma T+\frac{\lambda}{2} {\left\| w \right\|}^2$ ，T是树中叶子节点的个数，该项中包含了两个部分，一个是叶子结点的总数，一个是叶子结点得到的 $L_2$ 正则化项。这个额外的正则化项能够平滑每个叶节点的学习权重来避免过拟合。目标函数中前一项为损失函数，后一项为正则化项，表示所有树的复杂度之和。

类似于GBDT算法，XGBoost同样使用加法模型，第 $t$ 步的预测值为： $\hat{y}_i^{(t)}=\hat{y}_i^{(t-1)}+f_t(x_i)$
第 $t$ 步的损失为：
$L^{(t)}=\sum_{i=1}^{n}l(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega(f_t)$
对损失函数使用二阶泰勒近似展开，类似于：
$f(x+\Delta x) \simeq f(x)+f'(x) \Delta x + f''(x) \Delta x^2$
损失函数变换为：
$L^{(t)} \simeq \sum_{i=1}^{n}[l(y_i,\hat{y}_i^{(t-1)})+g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)]+\Omega(f_t)$
其中， $g_i= \partial_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)}),h_i= \partial^2_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)})$ 。

移除常数项：
$\hat{L}^{(t)}=\sum_{i=1}^{n}(g_if_t(x_i)+ \frac{1}{2}h_i f_t^2(x_i))+\Omega(f_t)$

定义 $I_j=\left \{ i|q(x_i) =j\right \}$ 表示叶子节点 $j$ 中的样本集合。
$\hat{L}^{(t)}=\sum_{j=1}^{T}[(\sum_{i \in I_j} g_i) w_j+ \frac{1}{2}(\sum_{i \in I_j} h_i+ \lambda )w_j^2] + \gamma T$
对 $w$ 求导得叶子节点 $j$ 最优 $w_j^*$ ：
$\sum_{i\in I_j}g_i+w_j(\sum_{i \in I_j}h_i+\lambda) = 0$
$w_j^*=-\frac{\sum_{i \in I_j}g_i}{\sum_{i \in I_j}h_i+\lambda}$
带入目标函数求得损失的最优值：
$\hat{L}^{{t}}(q)=-\frac{1}{2}\sum_{j=1}^{T}\frac{(\sum_{i \in I_j}g_i)^2}{\sum_{i \in I_j}h_i+\lambda}+\gamma T$
划分节点后的损失减少为：
$L_{split}=\frac{1}{2}(\frac{(\sum_{i \in I_L}g_i)^2}{\sum_{i \in I_L}h_i+\lambda} + \frac{(\sum_{i \in I_R}g_i)^2}{\sum_{i \in I_R}h_i+\lambda} - \frac{(\sum_{i \in I}g_i)^2}{\sum_{i \in I}h_i+\lambda})$
其中， $I=I_l+I_R$ 。

论文原文：
Chen, T., & Guestrin, C. (2016, August). Xgboost: A scalable tree boosting system. In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794).

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

XGBoost原理和公式推导

相关文章