【深度学习】神经网络中几个常用的求导公式

2023-06-26 00:11:33

‍‍

亲爱的朋友们，多多有一段时间没有更新啦，主要是我在学习transformers突然开始思考几个神经网络相关的基本问题（模型结构越写越复杂，调包效果越来越好，是否还记得为什么而出发呢？），读者朋友也可以看看是否可以自如回答：

什么是链式法则？
什么是Jacobin矩阵？
Jacobin有什么用处？
梯度的定义是什么？
方向导数和梯度的关系是什么？
神经网络中张量反向传播有什么特点？
哪些特性保证了神经网络中高效的梯度计算？

我将我的总结神经网络中的数学基础写到了一起放到了github，做成了一个网站，当然网站中也会逐渐加入之前写的transformer推送内容：

https://erenup.github.io/deeplearningbasics/

还会持续更新，欢迎大家star或者提交issue/request～谢谢。

本来想一篇推送更新完，但考虑到大家时间有限，没法一次看完，于是个人觉得把最常用的章节挑出来更新一下，本文公式较多，排版尽可能简单化啦。

完整内容请查阅网站～

1. 矩阵乘以列向量求

可以看作函数将输入经过变换得到输出,那么Jacobian矩阵

那么

由于 if else 0，所以有

2. 3. 向量等于自身,求

因为所以

所以,将其放在链式法则中进行矩阵乘法时候不会改变其他矩阵。

4. 对向量中每个元素进行变换, 求

由于所以

所以是一个diagonal matrix 且

矩阵乘以一个diagonal矩阵也就是每个元素进行幅度变换，因此链式法则中的矩阵乘以相当于和做elementwise 乘法。

5. ，求

我们开始引入更复杂的情况，因为神经网络中往往包含多次链式法则的引用，这里我们假设已经知道，直接求。

假设神经网络的损失函数是标量，我们想计算的是损失函数对参数的梯度。我们可以想象神经网络这个函数输入是一个形状的参数，输出是一个标量，结合上一章节Jacobian知识我们可以知道形状和一样，所以在神经网络训练的时候可以将参数减轻去参数的梯度乘以学习率。

根据链式法则，我们需要求出。这个三维的张量不方便表示且十分复杂，因此我们先只看对求导。

所以只有时候非零

所以

所以得到

6.

7.

假设神经网络到达softmax之前的输出为,为分类数量，那么

所以

结语

本来对于矩阵求导还有些发怵的我，在熟练以上几个公式之后发现神经网络反向传播的求导也不是那么遥不可触。希望能对大家有帮助。

觉得不错帮点个赞、转发、在看吧。谢谢

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808，加入微信群请扫码：

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 【Python】五种Pandas图表美化样式汇总
下一篇 > 我的华为P30pro手机升级了鸿蒙系统！

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【深度学习】神经网络中几个常用的求导公式

1. 矩阵乘以列向量求

2.

3. 向量等于自身,求

4. 对向量中每个元素进行变换, 求

5. ，求

6.

7.

相关文章