反向传播算法(BP)

2023-11-22 21:58:53

1 概述

反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义就是计算偏导数 $\frac{\partial C}{\partial\omega_{jk}^{l}}$ 和 $\frac{\partial C}{\partial b_{j}^{l}}$ 。为了计算这些只，引入中间变量 $\delta_j^l$ ，它表示在第 $l$ 层的第 $j$ 个神经元上的误差。反向传播将给出误差计算的流程，然后将其关联到 $\frac{\partial C}{\partial\omega_{jk}^{l}}$ 和 $\frac{\partial C}{\partial b_{j}^{l}}$ 上。因此，切确的说它应该叫做误差反向传播。由于人工神经网络的输出结果与实际结果存在误差，即计算估计值与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层。

2 定义

定义第 $l$ 层的第 $j$ 个神经元上的误差为 $\delta_j^l$ ，则有：
$\delta_j^l=\frac{\partial C}{\partial z_j^l}$
然后用下一层的误差 $\delta^{l+}$ 表示成当前层的误差 $\delta^l$ ：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$
有了上述公式，我们可以将反向传播算法显式的表达出来：

输入样本 $x$ ，为输入层设置对应的激活值 $\alpha^l$ ；
前向传播：对于每一层 $l = 1, 2, . . ., L$ ，计算加权输出 $z$ 和激活值 $\alpha$ ：
$z^l=\omega^l\alpha^{l-1}+b^l \\ \alpha^l=\sigma(z^l)$
输出层误差 $\delta^L$ ：
$\delta^L=\frac{\partial C}{\partial \alpha}\bigodot \sigma(z)$
反向误差传播：对每一层， $L = L - 1, L - 2, . . ., 2$ ，计算：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$
输出：代价函数的梯度由 $\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l$ 和 $\frac{\partial C}{\partial b_j^l}=\delta_j^l$ 给出。

3原理推导

在这里插入图片描述
如图所示，变量解释如下：

$\omega_{jk}^{l}$ ：是指从 $l - 1$ 层的第 $k$ 个神经元到第 $l$ 层的第 $j$ 个神经元的权重；
$b_l^j$ ：是指第 $l$ 层的第 $j$ 个神经元的偏置；
$z_j^l$ ：是指第 $l$ 层的第 $j$ 个神经元的加权输入；
$\alpha_j^l$ ：是指第 $l$ 层的第 $j$ 个神经元的加权激活值。
变量之间的关系如下：
$z_j^{l+1}=\sum_k\omega_{jk}^{l+1}\alpha_k^l+b_j^{l+1}$
指第 $l + 1$ 层的第 $j$ 个神经元的加权输入等于上一层所有激活值乘以对应第 $l$ 层对应神经元到第 $l + 1$ 层的第 $j$ 个神经元的权重加上第 $l + 1$ 层的第 $j$ 个神经元的偏置。
$\alpha_j^l=\sigma(z_j^l)$
指第 $l$ 层的第 $j$ 个神经元的激活值等于第 $l$ 层的第 $j$ 个神经元的带权输入在激活函数上的作用值。

误差计算

即：
$\delta^L=\frac{\partial C}{\partial \alpha}\cdot \sigma^{\prime}(z)$
证明：
因为 $\delta_j^l=\frac{\partial C}{\partial z_j^l}$
即第 $;$ 层的第 $j$ 个神经元的误差等于代价函数对第 $l$ 层的第 $j$ 个神经元带权输入的偏导数。这是因为带权输入直接与实际的输入相关联，如果带权输入产生了 $\Delta z_j^l$ 的变化，那么激活值则由 $\sigma(z_j^l)$ 变为 $\sigma(z_j^l+\Delta z_j^l)$ 。这个变化会向⽹络后⾯的层进⾏传播，最终导致整个代价产生 $\frac{\partial C}{\partial z_j^l}\Delta z_j^l$ 的变化，因此由此启发使用 $\frac{\partial C}{\partial z_j^l}$ 来表征误差。根据链式法则：
$\delta_j^l=\frac{\partial C}{\partial z_j^l}=\frac{\partial C}{\partial \alpha_j^l}\frac{\partial \alpha_j^l}{\partial z_j^l}=\frac{\partial C}{\partial \alpha_j^l}\sigma^{\prime}{z_j^l}$
这是对于一个神经元而言的，那么推广之，得到公式：
$\delta^L=\frac{\partial C}{\partial \alpha}\sigma^{\prime}(z)$

误差传播

即：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$
证明：
因为 $\delta_j^l=\frac{\partial C}{\partial z_j^l}$
由链式法则:
$\delta_j^l=\sum_k \frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial \alpha_j^l}\frac{\partial \alpha_j^l}{\partial z_j^l}=\sum_k \delta_k^{l+1} \frac{\partial(\omega_{kj}^{l+1}\alpha_j^l+b_k^{l+1})}{\partial \alpha_j^l}\sigma^{\prime}(z_j^l)=\sum_k \delta_k^{l+1} \omega_{kj}^{l+1}\sigma^{\prime}(z_j^l)$
最后推广到矩阵形式，得到：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$

代价函数对权重的偏导数

即：
$\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l$
证明：
$\frac{\partial C}{\partial\omega_{jk}^{l}}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial\omega_{jk}^{l}}=\delta_j^l\frac{\partial(\omega_{jk}^l\alpha_k^{l-1}+b_j^l)}{\partial\omega_{jk}^{l}}=\delta_j^l\alpha_k^{l-1}$

代价函数对偏置的偏导数

即：
$\frac{\partial C}{\partial b_j^l}=\delta_j^l$
证明：
由链式法则，并且已知 $z^l=\omega^l\alpha^{l-1}+b^l$ ，得到：
$\frac{\partial C}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l} =\delta_j^l\frac{\partial(\omega_{jk}^l\alpha_k^{l-1}+b_j^l)}{\partial b_j^l}=\delta_j^l$

感谢阅读。

如果觉得文章对你有所帮助，欢迎打赏哦～
在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > pdf 转 word
下一篇 > Oracle根据执行计划进行优化

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce