白话强化学习笔记

2023-08-18 17:59:59

白话强化学习笔记
- Q与V
- - 从Q到V
  - 从V到Q
  - 从V到V
  - 小结
- 蒙地卡罗
- - 算法
  - 平均香蕉
  - 蒙地卡罗MC更新公式
- 时序差分TD估算状态V值
- - 算法流程
  - 更新公式
- Qlearning
- - TD之于Q值估算
  - SARSA
  - Qlearning
  - 总结
- DQN
- - 算法流程
  - 总结
  - 代码
- Double DQN与Dueling DQN
- - 经验回放（Experience replay）
  - 固定Q目标（Fixed Q-targets）
  - Double DQN
  - Dueling DQN
- 策略梯度（Policy Gradient）
- - 直观感受PG算法
- Actor-Critic
- - TD-error
- PPO
- - AC问题一：离散到连续
  - AC问题二：数据浪费
  - Important-sampling
  - N步更新

白话强化学习笔记

白话强化学习

Q与V

Q：评估动作的价值。它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望。
V：评估状态的价值。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。
VQVQVQVQ：状态—动作—状态—动作…

下面讲的都是从后向前更新

从Q到V

从动作反推状态

一个状态的V值，就是这个状态下的所有动作的Q值，在策略下的期望。
$v_{\pi}(s)=\sum_{a\in{A}}\pi(a|s)q_{\pi}(s,a)$

$v_{\pi}(s)$ ：V值
$\pi(a|s)$ ：策略
$q_{\pi}(s,a)$ ：Q值

从V到Q

从状态反推动作
$q_{\pi}(s,a)=R_s^a+\gamma\sum_{s'}P_{ss^,}^av_{\pi}(s')$

$q_{\pi}(s,a)$ ：Q值
$R_s^a$ ：奖励
$\gamma$ ：折扣率
$P_{ss^,}^a$ ：状态转移概率
$v_{\pi}(s^,)$ ：V值
这里不需要关注策略，这里是环境的状态转移概率决定的。
当我们选择A，并转移到新的状态时，就能获得奖励，我们必须把这个奖励也算上！

从V到V

把公式代进去就可以了。
$v_{\pi}(s)=\sum_{a\in{A}}\pi(a|s)(R_s^a+\gamma\sum_{s^,\in{S}}P_{ss'}^av_{\pi}(s'))$

小结

V就是子节点的Q的期望！但要注意V值和策略相关。
Q就是子节点的V的期望！但要注意，记得把R计算在内。

蒙地卡罗

算法

（小猴子走迷宫）
根据策略往前走，一直走到最后，期间什么都不用算，需要记录每一个状态转移，获得多少奖励r即可
从终点往回走，一边走一边计算G值。G值等于上一个状态的G值(记作G’),乘以一定的折扣 $\gamma$ ，再加上r
进行多次试验后，有可能会经过某个状态多次，通过回溯，也会有多个G值；
平均每个状态的G值，这就是我们需要求的V值。

但蒙地卡罗有一个比较大的缺点，就是每一次游戏，都需要先从头走到尾，再进行回溯更新。如果最终状态很难达到，那小猴子可能每一次都要转很久很久才能更新一次G值。

平均香蕉

有两条长度分别为A，B的香蕉(并假设：A>B)。如果我要知道他们平均有多长。

我只需要把A切成和B长；然后把多出来的那一节，再切一半，接到B就可以了。

这时候，我们称那条加长了的B香蕉为平均香蕉。
$V_{new}=\frac{V_{old}-G}{N}+V_{old}$
甚至可以不用记录N，把 $\frac{1}{N}$ 设置成一个固定的数（超参数），这个值就是学习率。

也就是说，每一次G都会引导V增加一些或者减少一些，而这个V值慢慢就会接近真正的V值。

蒙地卡罗MC更新公式

$V(S_t){\leftarrow}V(S_t)+\alpha[G_t-V(S_t)]$

$G_t$ ：新来的G
右边的 $V(S_t)$ ：原来的平均值

蒙地卡罗有一些缺点：

相对动态规划，会有点不那么准。因为蒙地卡罗每一次的路径都是不一样的。
如果环境的状态空间非常大，或者最终状态只有非常小的概率达到。那么蒙地卡罗算法将会很难处理。

时序差分TD估算状态V值

算法流程

小猴子每走1步，看一下这个路口的V值，还有获得的奖励r
回到原来的路口，把刚刚看到的V值和奖励r进行运算，估算出V值

可以把TD看成是这样一种情况：从A状态，经过1步，到B状态。什么都不管就当B状态是最终状态了。

但B状态本身就带有一定的价值，也就是V值。其意义就是从B状态到最终状态的总价值期望。

但是有一个问题，一开始B状态也是没有值的，怎么办：多走几次，整个系统就会慢慢建立起来了。

更新公式

$V(S_t){\leftarrow}V(S_t)+\alpha[R_{t+1}+{\gamma}V(S_{t+1})-V(S_t)]$

与MC的区别：

MC公式里更新目标是 $G_t$ 。
TD公式里更新目标换成 $R_{t+1}+{\gamma}V(S_{t+1})$ 。

TD更厉害的是，在很多时候，并不需要一直到最后，可以先用后面的估算，然后调整当前状态。

Qlearning

TD之于Q值估算

问题转换

$V(S_{t+1})$ 的意义是，在 $S_{t+1}$ 到最终状态获得的奖励期望值。

$Q(S_t,A_t)$ 的意义是，在 $Q(S_t,A_t)$ 到最终状态获得的奖励期望值。

所以可以把 $V(S_{t+1})$ 看成是下山途中的一个路牌，这个路牌告诉我们下山到底还有多远，然后加上R这一段路，就知道 $Q(S_t,A_t)$ 离山脚有多长的路。

但在实际操作的时候，会有一个问题。在这里我们要估算两个东西，一个是V值，一个是Q值。

人们想出的办法就是，用下一个动作的Q值，代替V值。（这边的解释去看看博客的图）

因为从状态 $S_{t+1}$ 到动作 $A_{t+1}$ 之间没有奖励反馈，所以我们直接用 $A_{t+1}$ 的Q值，代替 $S_{t+1}$ 的V值。
麻烦的解决

麻烦来了：关键是马可洛夫链不是链，是树！

在 $S_{t+1}$ 下，可能有很多动作 $A_{t+1}$ 。不同动作的Q值自然是不同的。所以 $Q(S_{t+1},A_{t+1})$ 并不能等价于 $V(S_{t+1})$ 。

虽然不相等，但不代表不能用其中一个来代表 $V(S_{t+1})$ 。
采用方法

在相同策略下产生的动作 $A_{t+1}$ 。这就是SARSA。

选择能够产生最大Q值的动作 $A_{t+1}$ 。这就是Qlearning。

SARSA

$Q(S,A){\leftarrow}Q(S,A)+\alpha[R+{\gamma}Q(S',A')-Q(S,A)]$

其实SARSA和前面说的TD估算V值几乎一模一样，只不过挪了一下，从V改成Q了。

注意，这里的 $A_{t+1}$ 是在同一策略产生的。也就是说， $S_t$ 选 $A_t$ 的策略和 $S_{t+1}$ 选 $A_{t+1}$ 是同一个策略。这也是SARSA和Qlearning的唯一区别。

Qlearning

$Q(S,A){\leftarrow} Q(S,A)+\alpha[R+{\gamma} \mathop{\max}\limits_{\alpha} Q(S',A')-Q(S,A)]$

道理其实也很简单：因为需要找的是能获得最多奖励的动作，Q值就代表我们能够获得今后奖励的期望值。所以我们只会选择Q值最大的，也只有最大Q值能够代表V值。

总结

Qlearning和SARSA都是基于TD的。不过在之前的介绍中，用TD估算状态的V值。而Qlearning和SARSA估算的是动作的Q值。
Qlearning和SARSA的核心原理，是用下一个状态 $S_{t+1}$ 的V值，估算Q值。
既要估算Q值，又要估算V值会显得比较麻烦。所以用下一状态下的某一个动作的Q值，来代表 $S_{t+1}$ 的V值。
Qlearning和SARSA唯一的不同，就是用什么动作的Q值替代 $S_{t+1}$ 的V值。
SARSA 选择的是在 $S_t$ 同一个策略产生的动作。Qlearning 选择的是能够产生最大的Q值的动作。

Qlearning算法也有很大的局限性，无论现实世界还是游戏世界，很多时候状态都是连续的，像表格这种方式，只能解决状态有限且离散的任务。

DQN算法应运而生！用深度网络，解决了连续状态的问题。

DQN

Deep network + Qlearning = DQN

Qlearning中的Qtable在遇到连续的情况下就没办法了。但是函数就允许连续状态的表示。于是神经网络就派上用场了。
其实Qlearning和DQN并没有根本的区别。只是DQN用神经网络，也就是一个函数替代了原来Qtable而已。

$Q(S,A){\leftarrow} Q(S,A)+\alpha[R+{\gamma} \mathop{\max}\limits_{\alpha} Q(S',a)-Q(S,A)]$

算法流程

假设需要更新当前状态 $S_t$ 下的某动作A的Q值： $Q (S, A)$ ，可以：

执行A，往前一步，到达 $S_{t+1}$ ；
把 $S_{t+1}$ 输入Q网络，计算 $S_{t+1}$ 下所有动作的Q值；
获得最大的Q值加上奖励R作为更新目标；
计算损失：logits（ $Q (S, A)$ ），labels（ $\mathop{\max}Q(S_{t+1})+R$ ）
用loss更新Q网络。

总结

其实DQN就是Qlearning扔掉Qtable，换上深度神经网络。
解决连续型问题，如果表格不能表示，就用函数，而最好的函数就是深度神经网络。
和有监督学习不同，深度强化学习中，需要自己找更新目标。通常在马尔科夫链体系下，两个相邻状态状态差一个奖励r经常能被利用。

代码

Epsilon-greedy用大白话说就是：如果随机出来的值小于Epsilon这个门槛，就用greedy算法吧！如果大于，就随机。（跟Qlearning中说到的noisy-greedy差不多，都是让其有一个随机性，而不至于都是最大的Q）
建议看博客。

Double DQN与Dueling DQN

经验回放（Experience replay）

强化学习中，相比于网络训练的速度，数据采集总是太慢，因为采集是在游戏过程中的。
如果能把互动过程中的数据，都存起来，全部存在一个叫回放缓存的地方（replay buffer），当数据最够多的时候（如达到一个batch），再训练网络，那么就快很多了。
训练之后继续进行游戏，继续把新产生的数据添加到回放缓存里…
就这样，每次都随机抽出一个batch大小的数据训练智能体。这样，以前产生的数据同样也能用来训练数据了，效率自然更高。

固定Q目标（Fixed Q-targets）

DQN目标： $\gamma\mathop{\max}Q(S')+r$ 。
目标本身包含一个Q网络，这样理论上没有问题，但是会造成Q网络的学习效率比较低，而且不稳定。
如果把训练神经网络比喻成射击游戏，在target中有Q网络的话，就相当于在射击一个移动靶，因为每次射击一次，靶就会挪动一次。相比起固定的靶，无疑加上了训练的难度。
那怎么解决这个问题呢？既然现在是移动靶，那么就把它弄成是固定的靶，先停止10秒。10后挪动靶再打新的靶。这就是Fixed Q-targets的思路。

在实做的时候，其实和原来的DQN一样，唯一不同点是，用两个Q网络：

原来的Q网络，用于估算 $Q (s)$ ；
targetQ网络, targetQ自己并不会更新，也就是它在更新的过程中是固定的，用于计算更新目标。
$y=r+\gamma\mathop{\max}(targetQ(S'))$ 。
进行N次更新后，就把新Q的参数赋值给旧Q。

Double DQN

DQN有一个显著的问题，就是DQN估计的Q值往往会偏大。这是由于Q值是以下一个 $s^{'}$ 的Q值的最大值来估算的，但下一个state的Q值也是一个估算值，也依赖它的下一个state的Q值…，这就导致了Q值往往会有偏大的的情况出现。两个办法可以缓解：

第一种：形象说，如果只有一个Q网络，它经常吹牛。那就用两个Q网络，因为两个Q网络的参数有差别，所以对于同一个动作的评估也会有少许不同。选取评估出来较小的值来计算目标。这样就能避免Q网络吹牛的情况发生。
第二种：也需要用到两个Q网络。Q1网络推荐能够获得最大Q值的动作；Q2网络计算这个动作在Q2网络中的Q值。

恰好，如果用上Fixed Q-targets，不就是有两个Q网络了吗？

所以可以看到，这个优化在DQN上很容易实现。这就是doubleDQN和DQN的唯一的变化。

以上说到的经验回放等建议看原博客和[代码]！！

Dueling DQN

建议直接看博客。

策略梯度（Policy Gradient）

DQN=TD+神经网络
PG=蒙地卡罗+神经网络

在神经网络出现之前，当遇到非常复杂的情况时，很难描述遇到每一种状态应该如何应对。但现在有了神经网络这么强大的武器，就可以用一个magic函数直接代替想要努力描述的规则。

如果智能体的动作是对的，那么就让这个动作获得更多被选择的几率；相反，如果这个动作是错的，那么这个动作被选择的几率将会减少。

问题在于，怎么衡量对和错呢？PG的想法非常简单粗暴：蒙地卡罗的G值！（还记得小猴子吗？）

直观感受PG算法

假设从某个state出发，可以采用三个动作，一开始智能体对动作好坏一无所知，假如采用平均策略[33%,33%,33%]。

选择动作A，达到最终状态后回溯，得到 $G = 1$ ；
让A概率，BC降低，得到[50%,25%,25%]；
选择B，计算得到 $G = - 1$ ；
对B的评价较低，所以降低B概率，得到[55%,15%,30%]；
最后随机到C，得到 $G = 5$ ；
C比A还要多得多。因此这一次更新，C的概率需要大幅提升，相对地，AB概率降低，得到[20%,5%,75%]。

Actor-Critic

PG算法用到蒙地卡罗，需要完成整个游戏过程，太慢了，改成TD快一点。

Actor-Critic其实用了两个网络，两个网络有一个共同点，输入状态S：

一个输出策略，负责选择动作，这个网络叫Actor；
一个负责计算每个动作的分数，这个网络叫Critic。

Actor在台上跳舞，一开始舞姿并不好看，Critic根据Actor的舞姿打分。Actor通过Critic给出的分数，去学习：如果Critic给的分数高，那么Actor会调整这个动作的输出概率；相反，如果Critic给的分数低，那么就减少这个动作输出的概率。

TD-error

为了避免正数陷阱，希望Actor的更新权重有正有负。因此，把Q值减去他们的均值V。有： $Q (s, a) - V (s)$ 。（这步理解很关键）
为了避免需要预估V值和Q值，我们希望把Q和V统一。 $\gamma V(s') + r$ 。
所以： $TD-error=\gamma V(s') + r-V(s)$ 。
TD-error就是Actor更新策略时，带权重更新中的权重值。
现在Critic不再需要预估Q，而是预估V。而根据马可洛夫链所学，我们知道TD-error就是Critic网络需要的loss，也就是说，Critic函数需要最小化TD-error。
（主要看看代码理解）

PPO

AC问题一：离散到连续

PPO是基于AC架构的，也就是说，PPO也有两个网络，分别是Actor和Critic，这是因为AC架构有一个好处。这个好处就是解决了连续动作空间的问题。

离散动作：就像一个个的按钮，按一个按钮就能智能体就做一个动作。就像在CartPole游戏里的智能体，只有0,1两个动作分别代表向左走，向右走。
连续动作：相当于这些按钮不但有开关的概念，而且还有力度大小的概念。就像开车，不但是前进后退转弯，并且要控制油门踩多深，刹车踩多少的，转弯时候转向转多少的问题。

但这就有个问题，用神经网络预测输出的策略是一个固定的shape，而不是连续的。那又什么办法可以表示连续型的概率呢？

先假定策略分布函数服从一个特殊的分布，这个特殊的分布可以用一两个参数表示它的图像。

正态分布就是这样一个分布，他只需要两个参数，就可以表示了。

AC问题二：数据浪费

AC产生的数据，只能进行1次更新，更新完就只能丢掉，等待下一次跑游戏的数据。这可是天大的浪费。

那为什么只能用一次呢，像DQN也可以用经验回放，把以前的数据存起来，更新之后用？AC为什么就不行呢？

先清楚以下概念：

行为策略：不是当前策略，用于产出数据
目标策略：会更新的策略，需要被优化的策略
如果两个策略同一个策略，那么称为在线策略（On Policy）。
如果两个策略不是同一个策略，那么称为离线策略（Off Policy）。

举例：

如果在智能体和环境进行互动时产生的数据打上一个标记。标记这是第几版本的策略产生的数据，例如1，2… 10
现在智能体用的策略 10，需要更新到11。
如果算法只能用 10版本的产生的数据来更新，那么这个就是在线策略；如果算法允许用其他版本的数据来更新，那么就是离线策略。
PG，就是一个在线策略。因为PG用于产生数据的策略（行为策略），和需要更新的策略（目标策略）是一致。
DQN则是一个离线策略。智能体在环境互动一定次数，获得数据。用这些数据优化策略后，继续跑新的数据。但老版本的数据仍然是可以用的。也就是说，产生数据的策略，和要更新的目标策略不是同一个策略。

但为什么PG和AC中的Actor更新，就不能像DQN一样，把数据存起来，更新多次呢？

答案是在一定条件下，能。PPO做的工作就是这个。在了解在什么条件下可以的时候，需要先了解一下，为什么不能。看看博客吧。

Important-sampling

PPO通过**重要性采样技术（Important-sampling）**做到离线更新策略。

N步更新

把之前的TD叫做TD(0)，而N步更新为TD(n)。可以看成TD(0)其实是TD(n)的一种特殊情况。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

白话强化学习笔记

目录

白话强化学习笔记

Q与V

从Q到V

从V到Q

从V到V

小结

蒙地卡罗

算法

平均香蕉

蒙地卡罗MC更新公式

时序差分TD估算状态V值

算法流程

更新公式

Qlearning

TD之于Q值估算

SARSA

Qlearning

总结

DQN

算法流程

总结

代码

Double DQN与Dueling DQN

经验回放（Experience replay）

固定Q目标（Fixed Q-targets）

Double DQN

Dueling DQN

策略梯度（Policy Gradient）

直观感受PG算法

Actor-Critic

TD-error

PPO

AC问题一：离散到连续

AC问题二：数据浪费

Important-sampling

N步更新

相关文章