机器学习之二（读书笔记）

2023-11-22 11:27:18

四、Gradient Descent（梯度下降）

$\theta ^{\ast } = arg\underset{\theta}{min } L(\theta )$
L:loss function
$\theta$ :parameters
梯度下降步骤：
1.选取两个参数{ $\theta_{1},\theta _{2}$ }
2.随意选取一个初始位置 $\theta^{0} = \begin{bmatrix} \theta _{1}^{0}\\ \theta _{2}^{0} \end{bmatrix}$
3.通过梯度下降得到新的位置 $\theta^{1}$ ，即
$\begin{bmatrix} \theta _{1}^{1}\\ \theta _{2}^{1} \end{bmatrix} = \begin{bmatrix} \theta _{1}^{0}\\ \theta _{2}^{0} \end{bmatrix} - \eta \begin{bmatrix} \partial L(\theta _{1}^{0})/\partial\theta _{1}\\ \partial L(\theta _{2}^{0})/\partial\theta _{2} \end{bmatrix}$ ，其中 $\eta$ 为learning rate，后面为对Loss function的偏微分；
4.同样的步骤得到 $\theta^{2}$ 、 $\theta^{3}$ … $\theta^{n}$
$\begin{bmatrix} \theta _{1}^{2}\\ \theta _{2}^{2} \end{bmatrix} = \begin{bmatrix} \theta _{1}^{1}\\ \theta _{2}^{1} \end{bmatrix} - \eta \begin{bmatrix} \partial L(\theta _{1}^{1})/\partial\theta _{1}\\ \partial L(\theta _{2}^{1})/\partial\theta _{2} \end{bmatrix}$
…
Gradient（一个vector）： $\triangledown L(\theta ) = \begin{bmatrix} \partial L(\theta_{1} )/\partial \theta _{1}\\ \partial L(\theta_{2})/\partial \theta _{2} \end{bmatrix}$
则 $\theta ^{1} = \theta ^{0} - \eta \triangledown L(\theta ^{0})$ ，以此类推。
在这里插入图片描述

***Granient Descent tips:
Tip 1:Tuning your learning rates
learning rate 的大小会影响loss，如果参数过多没办法直接可视化loss function，这个时候可以画出不同learning rate对update loss时loss的变化：（常用框架里有自动调整的方法，参考ReduceLROnPlateau）
在这里插入图片描述

不同的参数应该给不同的learning rate
有一些自动的方法可以帮助我们调learning rate：

Adagrad（自适应梯度算法）
每一个参数的learning rate都让它除上之前算出来的微分值的root mean square（均方根）。
传统的Gradient Descent 和Adagrad对比：

在这里插入图片描述

其中， $\sigma ^{t}$ 是过去所有偏微分g的值的root mean square（均方根）。
具体操作：
假设 $w ^{0}$ 的那点的微分是 $g^{0}$ ，它的learning rate是 $\eta ^{0}/\sigma^{0}$ ， $\sigma^{0}$ 是过去所有微分值的root mean square，即 $\sqrt{(g^{0})^{2}}$ ，以此类推，如下图：
在这里插入图片描述

总结一下Adargad式子：
在这里插入图片描述

使用Adargad方法都后期会update越来越慢，慢到令人发指，还有别的方法比如Adam方法，是最稳定的。

疑问？在梯度下降中Gradient越大，update越快，但是使用Adagrad时，微分值越大，分子g表示update越快，分母却使update步伐越小（解释说，分母是为了造成反差的效果）。可看作一次微分/二次微分， $g^{t}$ 一次微分，下面的分母可看作二次微分（一般在使用Adagrad时计算二次微分会比较复杂，我们可用一次微分去估计二次微分，即取几个点计算 $\sqrt{(firstderivative)^{2}}$ ）
在这里插入图片描述

**Tip 2：Stochastic Gradient Descent （随机梯度下降法）
make the training faster
以Regression的Loss function为例Gradient Descent的做法（计算所有的loss然后才update参数）：
在这里插入图片描述

Stochastic Gradient Descent 的做法：
在这里插入图片描述

1.随机选取（也可按顺序选取）一个example $x^{n}$
2.计算（某一个example的）loss：
$L^{n} = (\hat{y}^{n} - (b + \sum w_{i}x_{i}^{n}))^{2}$
3.计算对某一个example，它的loss的Gradient，再update参数：
$\theta ^{i} = \theta ^{i - 1} - \eta \triangledown L^{n}(\theta ^{i - 1} )$
在这里插入图片描述

**Tip 3：Feature Scaling（特征缩放）
以Regression为例：
$y = b + w_{1} x_{1}+ w_{2}x_{2}$ 中有两个input的feature： $x_{1}$ 和 $x_{2}$ ，我们希望它们分布的range一样，可做scaling（归一化思想）：
在这里插入图片描述

Feature Scaling的做法（有很多，这是其中一种常见局部化做法）：
假设我有r个example， $x^{1},x^{2},......,x^{r},......x^{R}$ ，每一笔example里都有一组feature，例如 $x^{1}$ 的feature： $x_{1}^{1},x_{2}^{1}......$
1.feature scaling 就是对每一个dimension i 计算mean，即 $m_{i}$ ，和计算它的deviation（偏离），即 $\sigma_{i}$ ；
2.然后对r个example的第i个component减掉所有data的第i个component的mean，再除掉所有data的第i个component的standard deviation；
3.做完以上，所有的dimension的mean就会为0，而variance就会是1
在这里插入图片描述

Formal Derivation：
取一个点，再取以这个点为圆心的圆，选择这个圆的最低点作为下一个点，以此类推…

补充知识点：
Taylor Series
任何一个function h(x)，如果它在 $x = x_{0}$ 这一点是infinitely differentiable（无限可微），那么可把h(x)写成：
$\sum_{k = 0}^{\infty }\frac{h^{(k)}(x_0)}{k!}(x-x_0)^{k}$

$=h(x_0) +{h}'(x_0)(x-x_0)+\frac{{h}''(x_0)}{2!}(x-x_0)^{2}+...$
当x接近 $x_0$ 时以上可写成：
$h(x)\approx h(x_0) +{h}'(x_0)(x-x_0)$
以上只考虑一个variable，如果考虑好几个参数，即Multivariable Taylor Series:
$h(x,y)\approx h(x_0,y_0) +\frac{\partial h(x_0,y_0)}{\partial x}(x-x_0)+\frac{\partial h(x_0,y_0)}{\partial y}(y-y_0)$

在这里插入图片描述

根据Multivariable Taylor Series改写loss function：
$L(\theta ) \approx L(a,b) + \frac{\partial L(a,b)}{\partial \theta _1}(\theta _1-a)+ \frac{\partial L(a,b)}{\partial \theta _2}(\theta _2-b)$
其中s,u,v都是常数，化简为：
在这里插入图片描述

为了让 $L(\theta)$ 最小，应该让 $(\Delta \theta _1,\Delta \theta _2)$ 与(u,v)反向并成正比，即：
在这里插入图片描述

以上验证了gradient descent。

Gradient Descent的限制
a.会卡在local minimum的位置；
b.也可能会卡在不是local minimum的位置，比如saddle point（鞍点），此时的微分也为0；
c.也有可能卡在微分值很小接近于0的位置，此时可能在高原位置

本文是对blibli上李宏毅机器学习2020的总结，如有侵权会立马删除。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Probabilistic Robotics读书笔记（一）
下一篇 > iPhone8的诞生不能没有它-晶振

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

机器学习之二（读书笔记）

四、Gradient Descent（梯度下降）

相关文章