权重更新优化器总结

2023-11-24 05:05:16

权重更新优化器总结

在上吴恩达的深度学习课程时，学习了很多权重更新的方式，但当时学习的时候比较蒙，可能当时理解了，后面又忘了为什么这么用。这两天又看到一些资料，正好整理总结一下。

在这里插入图片描述
我们先计算一下反向传播的公式，具体详细过程就不再讲解了/
以上图为例，现在我们更新权重 $w_{11}^{(2)}$ ,更新公式如下所示：
$w_{11}^{(2)}(new) = w_{11}^{(2)}(old) - learning\_rate\times gradient$

在实际训练时数据集的量是非常庞大的，我们不能保证数据一次性全部载入内存，因此只能分批次训练。

如果使用整个样本集进行训练，损失梯度会指向全局最优的方向，如下图所示。
在这里插入图片描述
因此在进行梯度传播时我们不能总是保证梯度朝着最优的方向前进。如果使用分批次样本进行求解损失梯度则会指向当前批次最优的方向，但是这个方向从全局来说不一定是最优的方向。如下图所示：

为了解决这个问题我们就要使用到优化器(optimizer)，常见的优化器主要有一下几个：

SGD
SGD + Momentum
Adagrad
RMSProp
Adam
它们的目的就是为了使网络收敛的更快。

1. SGD优化器(Stochastic Gradient Descent)

SGD也就是我们常说的随机梯度下降方法。
$W_{t+1} = W_t - \alpha· g(W_t)$
缺点：

易受样本噪声影响，比如说样本集中有样本的标签标注错误，那么这就会影响梯度下降的方向，可能会使下降方向很大程度上偏离最优方向。
可能陷入局部最优解。每一批数据都是随机进行分批次训练，因此在可能存在在某一个批次下其方向与最优方向相背，去了另一个较低点，如下图红线部分所示：

为了解决这个问题，我们就要用到另一个优化方法：SGD + Momentum

2. SGD + Momentum

$v_t = \eta ·v_{t-1}+\alpha ·g(w_t)$ $w_{t+1} = w_t - v_t$ 其中 $\alpha$ 为学习率， $g(w_t)$ 为时刻t对参数 $w_t$ 的损失梯度， $\eta(0.9)$ 为动量系数。
这么做的意义：
在这里插入图片描述
这个方法可以有效抑制样本噪声的干扰。

3. Adagrad

计算公式：
$s_t = s_{t-1} + g(w_t)·g(w_t)$ $w_{t+1} = w_t - \frac{\alpha}{\sqrt{s_t+\varepsilon}}·g(w_t)$ 其中 $\alpha$ 为学习率， $g(w_t)为t$ 时刻对参数 $w_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为0的小数。

从公式我们可以看出 $s_{t}$ 实际上是对前面的梯度求和，这就会使得 $s_{t}$ 的值不断增大，在第二个式子中 $\frac{\alpha}{\sqrt{s_t+\varepsilon}}$ 的值会不断减小，就会达到一种学习率自己调节的效果。
但是这样也会出现另一个缺点：刚开始的时候学习率下降的太快，可能还没有收敛就停止了训练。
为了解决这个问题我们可以使用RMSProp优化器(自适应学习率)。

4. RMSProp优化器(自适应学习率)

其实这个优化器就是在Adagrad第一个式子的基础上添加了两个控制因子。
$s_t = \eta·s_{t-1} + (1-\eta)·g(w_t)·g(w_t)$ $w_{t+1} = w_t - \frac{\alpha}{\sqrt{s_t+\varepsilon}}·g(w_t)$ 其中 $\alpha$ 为学习率， $g(w_t)为t$ 时刻对参数 $w_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为0的小数， $\eta(0.9)$ 控制衰减速度。

5.Adam优化器(自适应学习率)

计算公式:
$m_t = \beta_1·m_{t-1} + (1-\beta_1)·g(w_t) \space\space\space\space\space\space\space\space\space\space\space\space\space 一阶动量$ $v_t = \beta_2·v_{t-1} + (1-\beta_2)·g(w_t)·g(w_t) \space\space\space\space\space\space\space\space\space\space\space\space\space 二阶动量$ $\hat{m_t} = \frac{m_t}{1-\beta_1^t}$ $\hat{v_t} = \frac{v_t}{1-\beta_2^t}$ $w_{t+1} = w_t - \frac{\alpha}{\hat{v_t}+\varepsilon}\hat{m_t}$ 其中 $\alpha$ 为学习率， $g(w_t)为t$ 时刻对参数 $w_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为0的小数， $\beta_1(0.9)，\beta_2(0.999)$ 控制衰减速度。

在实际应用中一般会选择SGD、SGD+Momentum、Adam这几个优化器。
最后附上几个优化器的优化效果。：
在这里插入图片描述
我们可以看出这几个优化器的优化路径和速度，大家可以比较一下。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 机器学习算法模型之神经网络
下一篇 > 小程序使用wx.redirectTo跳转时隐藏返回首页按钮

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

权重更新优化器总结