LSTM 单元的理解

2023-12-08 05:30:38

从RNN说起

所谓的RNN就是想要记住一些过去的信息，所以它具有环（loops）的形式，如下所示

上面的模块A 的输入为xt ，输出为ht ，记忆体现在它将当前步的信息又送入下一步中，如果我们沿时间轴来看，RNN长这样

这一结构考虑了过去的信息，但是随着时间间隔的增大，RNN其实记不住太久之前发生的信息了

比如上图中的t+1 时刻的输出可能与t0,t1 时刻的输入相关，但是由于时间间隔太大，RNN无法为它们建立起连接。（这也叫做长距离依赖 ）

LSTM它来了

LSTM的设计就是为了避免长距离依赖的问题，lstm的结构也是和上面RNN一样的链式结构，只是将模块A替换成了一个更加复杂的模块

乍一眼确实复杂，一步步解开就清楚了。 LSTM中的创新在于引入了cell这个状态，cell 的状态是一个向量，是有多个数字构成。

可以理解为这就像是长期记忆，如果你不对状态进行修改，它就会直接一直往后传递。但是记忆总会有所改变吧，所以需要增加一些修正记忆的模块，这里就是加入一些“门”的概念，门就是让一些信息能通过，一些信息被门给过滤了

比如说通过sigmoid层输出一个数值都在0到1之间的向量，将这个向量和cell状态进行向量的逐点相乘（这就是个信息过滤的操作），在lstm中有三个这样的“门”结构。输入假设（仅为说明模型参数计算，输入为什么这样，可以参考下一篇解释。）假设现有一个样本,Shape=(13,5),时间步是13,每个时间步的特征长度是5（比如一个句子分为13个词组成，每个词用维度为5的特征向量表示）。形象点,我把一个样本画了出来:

每个时间步经过LSTM后,得到的中间隐向量是10维(意思是5->10维),13个时间步的数据进去得到的是(13*10)的数据. 每个时间步对应神经元个数(参数个数)一样.也就是算一个LSTM中神经元个数,算一个时间步中参与的神经元个数即可.下面将对LSTM每个计算部分进行神经元分析.

遗忘门

就像一个人的记忆有限，首先你需要遗忘掉一些信息，才能记住新的信息，所以遗忘门首先出现了

根据上一时刻的输出状态h t-1 和当前时刻的输入xt ，我们需要确定有多少长期记忆Ct-1 需要抹掉，这个遗忘的比率就是

图中公式的

是上一个状态的隐向量(已设定隐向量长度为10),

为当前状态的输入(长度为5),那么

的长度就是10+5=15了.

和

为该层的参数. 该层输出是中间隐向量的长度(10),经过

激活前后的长度不变.只需要考虑

里面的操作得到10维特征即可.

是(1,15)的向量,与

相乘得到(1,10)的向量,根据矩阵相乘规律,得到

是(15,10)的矩阵,得到(1,10)矩阵后,与该门层偏置相加,偏置也应该有相同的形状,即

是(1,10)的矩阵. 即:该层神经元为:

输入门

忘了点东西总要再补充点进去，因此输入门紧接其后

当前时刻接收到的信息可以表示为

但是一次性都记住太吃力了，所以也要有选择地记住，选择的比率就是

那么将选择记忆的比率乘以当前时刻接收到的信息就是本次要放进cell里的信息了。也就是有选择地保留一些过去的信息

，然后有选择地记住一些当前的信息

，即

上面这个式子就是记忆的遗忘和补充的过程了。可以看到,这里公式和前面的一样的,

和

都是激活函数,不影响参数个数. 同理这过程的神经元个数是:

更新过程

公式中的四个值,均是前面计算得到的结果,因此该过程没有参数需要学习.

输出门

记忆更新完后就到了输出的时候了

在这里我们同样不能直接把cell中所有记忆都输出，仍然是有选择输出，这个选择率的计算和上面一样的

经过选择后输出的记忆就是选择率乘以cell中的记忆了

一样的公式,神经元个数一样.即个数为:

LSTM小结

1、过程：可以类比为人记忆的容量有限，每个时刻遗忘掉一些旧的知识，再输入（记住）一些新的知识，最后根据需要输出一些知识（就像考试一样有选择地输出）。 2、上一次的状态 h(t-1)是怎么和下一次的输入 x(t) 结合（concat）起来的？ concat，直白的说就是把 二者直接拼起来 ，比如 x是28位的向量，h(t-1)是128位的，那么拼起来就是156位的向量。 3、cell 权重共享。

三个绿色的大框，代表三个 cell 对吧，但是实际上，它只是代表了 一个 cell 在不同时序时候的状态 ，所有的数据只会通过一个 cell，然后不断更新它的权重。 2、一层的 LSTM 的参数有多少个？参数的数量是由 cell 的数量决定的，这里只有一个 cell，所以参数的数量就是这个 cell 里面用到的参数个数。把公式(1),(2),(3)的神经元加起来,就是该LSTM的神经元个数了.

其实,我们可以把这个问题一般化,不看这个例子,假设你一个时间步的特征长度是n,经过该LSTM得到的长度是m,这样就可以算出该LSTM层的神经元个数为:

加上输出的时候的激活函数的参数，假设是10个类的话，就是m*10的 W 参数和10个bias 参数 5、cell 和 ht的理解。 cell 最上面的一条线的状态即 s(t) 代表了 长时记忆 ，而下面的 h(t)则代表了 工作记忆或短时记忆。 长期状态由Tanh函数激活，然后通过输出门过滤后得到短期状态，而用来输入到全连接层计算模型输出的是短期状态。 h t 一方面往上传递去计算当前时刻的模型输出，另一方面顺时间传递去计算下一个隐状态h t-1。

LSTM的变种

Peephole LSTM：无论计算遗忘、输入、还是输入的选择率时都要考虑cell的状态
耦合遗忘门和输入门：就是遗忘率和输入率总和为1

GRU： 遗忘和输入合并 为更新，c ell状态和隐藏状态合并

参考链接： 1、 https://colah.github.io/posts/2015-08-Understanding-LSTMs/ 2、 https://zhuanlan.zhihu.com/p/340486028 3、 https://www.cnblogs.com/wushaogui/p/9176617.html 4、 https://www.cnblogs.com/Luv-GEM/p/10788849.html

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 长短时期记忆（LSTM）及门控循环单元（GRU）网络结构
下一篇 > 关于解决一些游戏白屏但是有声音问题的方法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

LSTM 单元的理解

从RNN说起

LSTM它来了

遗忘门

输入门

输出门

LSTM小结

LSTM的变种

相关文章