[深度学习]吴恩达笔记——第二周

2023-08-08 00:46:42

一、神经网络表示

在这里插入图片描述

1. $w^{[1]}$ 是（4，3）的原因：第一层 $a^{[1]}$ 有4个节点，输入有3个特征

2. $w^{[2]}$ 是（1，4）的原因：输出层只有1个节点， $a^{[1]}$ 层有4个节点

二、神经网络的输出

在这里插入图片描述

输入单个特征向量 $x$ ，得到神经网络的预测输出

三、多个样本的向量化

在这里插入图片描述

四、激活函数

1.sigmoid函数

在这里插入图片描述
$a=\frac{1}{1+e^{-z}}$

2.tanh函数（双曲正切函数）

在这里插入图片描述
$a=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$
对于隐藏层神经元来说，激活函数选用tanh函数的效果往往比sigmoid函数的效果要好，因为这使得函数的输出介于-1和1之间，导致输出的平均值更接近0。而在有些时候，是可能需要通过平移所有数据，使得数据的均值为0的。使用tanh函数同样导致了类似的数据中心化的效果，这使得下一层的学习更方便。

对于输出层神经元来说，激活函数选用sigmoid函数的效果更好，因为如果输出结果想要表示一个概率的大小，输出的值处于0到1之间显然更合理

sigmoid函数和tanh函数共有的缺点：

当输入值（z）非常大或非常小时，函数的梯度会变得非常小（梯度消失），会导致梯度下降算法的速度变慢。

3.ReLU函数（修正线性单元函数）

一个解决梯度消失问题的选择就是ReLU函数
在这里插入图片描述
$a = ma x (0, z)$
只要输入值为正时，函数的导数永远都是1；当输入值为负时，函数的导数为0
当输入值为0时，函数的导数是没有定义的，但在实际编程中，z=0.00000000000…出现的概率是很低的。在实际中可以直接给z=0时的函数的导数赋值为1或者0。

现如今，ReLU函数已成为大多数情况下激活函数的默认选择，当不清楚隐藏层神经元该选用什么激活函数时，大多数人会选用ReLU函数

ReLU函数的缺点：

当输入值为负时，函数的导数全为0。但在实际中，有足够多的神经元的输入值是大于0，所以ReLU函数对于大多数训练样本来说，训练速度还是快的

4.Leaky ReLU函数

在这里插入图片描述
$a = ma x (0.01 z, z)$
对于常数0.01来说，可以设成学习函数的另一个参数，通过训练得到最优值

五、激活函数为什么需要是非线性的？

在这里插入图片描述
如果激活函数是线性的，那神经网络的输出就只是输入的线性组合，那么无论神经网络的隐藏层有多少层，都将变得没有意义。

只有一个情况下可以使用线性激活函数： $a = z$
在回归问题中，预测的输出值是一个实数，比如说预测房地产价格，那么输出层神经元的激活函数或许可以选用线性激活函数
在这里插入图片描述

六、激活函数的导数

1.sigmoid函数

在这里插入图片描述

2.tanh函数

在这里插入图片描述

3.ReLU函数

在这里插入图片描述

4.Leaky ReLU

在这里插入图片描述

七、神经网络的梯度下降法

在这里插入图片描述

正向传播的公式：

在这里插入图片描述

反向传播的公式：

在这里插入图片描述
keepdims=true用于防止python输出（n，）类型的数组，保证python输出的是矩阵。这个工作也可以通过reshape来实现。

八、反向传播公式的推导过程

1.Logistic回归

在这里插入图片描述
$L (a, y) = - y l o g a - (1 - y) l o g (1 - a)$
$da=\frac{dL}{da}=-y\frac{1}{a}+(1-y)\frac{1}{1-a}=-\frac{y}{a}+\frac{1-y}{1-a}$
当激活函数选用sigmoid函数时：
$a=sigmoid(z)=\frac{1}{1+e^{-z}}$
于是：
$\frac{da}{dz}=-\frac{1}{(1+e^{-z})^2}(1+e^{-z})' \\ \\=-\frac{1}{(1+e^{-z})^2}(-e^{-z}) \\ \\=\frac{e^{-z}}{(1+e^{-z})^2} \\ \\=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}} \\ =\frac{1}{1+e^{-z}}\frac{1+e^{-z}-1}{1+e^{-z}} \\ =\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}}) \\ =a(1-a)$
$dz=\frac{dL}{dz}=\frac{dL}{da}\frac{da}{dz}=(-\frac{y}{a}+\frac{1-y}{1-a})[a(1-a)]=a-y$
$dw=\frac{dL}{da}\frac{da}{dz}\frac{dz}{dw}=(a-y)x=dz·x$
$db=\frac{dL}{da}\frac{da}{dz}\frac{dz}{db}=(a-y)=dz$

2.双层神经网络

在这里插入图片描述

最后一层输出层的激活函数是sigmoid函数，与Logistics回归类似，因此反向传播也与Logistics回归类似，请注意，最后一层输出层的输入 $x$ 实际上是前一层的输出 $a^{[1]}$ ：
$dz^{[2]}=a^{[2]}-y$
$dW^{[2]}=dz^{[2]}·a^{[1]^T}$
$db^{[2]}=dz^{[2]}$
而前一层的导数根据链式法则进行求解：
$dz^{[1]}=\frac{dL}{da^{[2]}}\frac{da^{[2]}}{dz^{[2]}}\frac{dz^{[2]}}{da^{[1]}}\frac{da^{[1]}}{dz^{[1]}}$
$=dz^{[2]}·\frac{dz^{[2]}}{da^{[1]}}·\frac{da^{[1]}}{dz^{[1]}}$
$W^{[2]^T}dz^{[2]}*g^{[1]'}(z^{[1]})，*意味着矩阵逐元素相乘得到新的矩阵$
$dW^{[1]}=dz^{[1]}·x^T$
$db^{[1]}=dz^{[1]}$
需要注意各矩阵间的维度关系

九、L2正则化

正则化是为了防止神经网络过拟合
在这里插入图片描述

$\frac{\lambda}{2m}\sum_{l=1}^{L}||w^{[l]}||_F^2=\frac{\lambda}{2m}(||w^{[1]}||_F^2+||w^{[2]}||_F^2+...+||w^{[L]}||_F^2)$
这块东西对 $w^{[1]}$ 求导，除 $w^{[1]}$ 外全为0了：
$\frac{\partial \frac{\lambda}{2m}||w^{[1]}||_F^2}{\partial w^{[1]}}=\frac{\lambda}{2m}\frac{\partial w^{[1]^{T}}w^{[1]}}{\partial w^{[1]}}=\frac{\lambda}{2m}2w^{[1]}=\frac{\lambda}{m}w^{[1]}$

参考矩阵求导：
$\frac{\partial x^Tx}{\partial x}=2x$
在这里插入图片描述
从直觉上来看，正则化参数 $\lambda$ 使得权重矩阵 $w^{[l]}$ 被设置为接近0的值，基本上使得某些隐藏层的神经元的影响降低，从而将这个大规模的过拟合的神经网络简化成了深度大但每层神经元数量小的网络，使得其偏向于高偏差状态，但 $\lambda$ 还可以取到中间值，使这个网络达到中间刚好的状态。

在这里插入图片描述
$z$ 相对变小，使得激活函数会相对呈现更接近线性的性质，使整个神经网络会更接近线性函数而不是一个极度复杂的非线性函数，因此不会发生过拟合。

十、dropout正则化

在这里插入图片描述
$a^{[3]}$ 再除以 keep-prob 的原因： $a^{[3]}$ 中有20%的元素被归零了，为了不影响 $z^{[4]}$ 的期望值

dropout的缺点：成本函数 $J$ 不再被明确定义，不再能通过 $pl o t$ 成本函数 $J$ 的数值变化曲线来观察每次迭代后成本函数是否有在下降。
解决方法：先关闭dropout，运行代码，plot成本函数，确保它在每次迭代都单调递减。再加入dropout。

十一、成本函数优化算法

1.batch梯度下降法

2.随机梯度下降法

永远不会收敛，会一直在最小值附近波动

3.mini-batch梯度下降法

在这里插入图片描述

4.动量梯度下降法（Momentum）

在这里插入图片描述
$V_{dw}=\beta V_{dw}+(1-\beta)dw$
$V_{db}=\beta V_{db}+(1-\beta)db$
$W:=W-\alpha V_{dw}$
$b:=b-\alpha V_{db}$

4.RMSprop（root,mean,square）

在这里插入图片描述
$S_{dw}=\beta S_{dw}+(1-\beta)(dw)^2$
$S_{db}=\beta S_{db}+(1-\beta)(db)^2$
$W:=W-\alpha \frac{dw}{\sqrt{S_{dw}}}$
$b:=b-\alpha \frac{db}{\sqrt{S_{db}}}$

5.Adam（Adapt moment estimation）

RMSprop和Adam优化算法是少有的被证明适用于不同的深度学习结构的算法

Adam算法实际上是将Momentum算法和RMSprop算法结合在一起
在这里插入图片描述
Momentum部分：
$V_{dw}=\beta_1 V_{dw}+(1-\beta_1)dw$
$V_{db}=\beta_1 V_{db}+(1-\beta_1)db$
RMSprop部分：
$S_{dw}=\beta_2 S_{dw}+(1-\beta_2)(dw)^2$
$S_{db}=\beta_2 S_{db}+(1-\beta_2)(db)^2$
偏差修正：
$V_{dw}^{corrected}=\frac{V_{dw}}{1-\beta_1^t}$
$V_{db}^{corrected}=\frac{V_{db}}{1-\beta_1^t}$
$S_{dw}^{corrected}=\frac{S_{dw}}{1-\beta_2^t}$
$S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}$
权重更新：
$W:=W-\alpha \frac{V_{dw}^{corrected}}{\sqrt{S_{dw}^{corrected}}+\epsilon}$
$b:=b-\alpha \frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\epsilon}$
超参数：
在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 求助帖;RxtxFAX怎样通过调用传真服务器的串口COM1,COM2,通过电话线座机号发送传真?
下一篇 > 吴恩达的人脸检测

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

[深度学习]吴恩达笔记——第二周

一、神经网络表示

1. w [ 1 ] w^{[1]} w[1]是（4，3）的原因：第一层 a [ 1 ] a^{[1]} a[1]有4个节点，输入有3个特征

2. w [ 2 ] w^{[2]} w[2]是（1，4）的原因：输出层只有1个节点， a [ 1 ] a^{[1]} a[1]层有4个节点

二、神经网络的输出

三、多个样本的向量化

四、激活函数

1.sigmoid函数

2.tanh函数（双曲正切函数）

sigmoid函数和tanh函数共有的缺点：

3.ReLU函数（修正线性单元函数）

ReLU函数的缺点：

4.Leaky ReLU函数

五、激活函数为什么需要是非线性的？

六、激活函数的导数

1.sigmoid函数

2.tanh函数

3.ReLU函数

4.Leaky ReLU

七、神经网络的梯度下降法

正向传播的公式：

反向传播的公式：

八、反向传播公式的推导过程

1.Logistic回归

2.双层神经网络

九、L2正则化

十、dropout正则化

十一、成本函数优化算法

1.batch梯度下降法

2.随机梯度下降法

3.mini-batch梯度下降法

4.动量梯度下降法（Momentum）

4.RMSprop（root,mean,square）

5.Adam（Adapt moment estimation）

相关文章

1. $w^{[1]}$ 是（4，3）的原因：第一层 $a^{[1]}$ 有4个节点，输入有3个特征

2. $w^{[2]}$ 是（1，4）的原因：输出层只有1个节点， $a^{[1]}$ 层有4个节点