强化学习Q-Learning算法

2023-10-15 06:04:33

强化学习Q-Learning算法

前言
基本概念
- 基本概念
- 递推关系
Q-learning基本原理
注意事项
局限性
仿真

前言

学习这个算法有一段时间了，但是因为自己犯懒一直没有整理。现整理一下，一方面有刚入门的同学可以参考，另一方面哪里写错或者理解不深的还请大家及时指正。

基本概念

首先列出一些强化学习中的基本概念，主要是为了帮助自己回忆起学习这个算法的过程。

状态值函数：智能体在状态 $s$ 处的累计回报的期望值被称为智能在在采用策略 $\pi$ 时在状态 $s$ 处的状态值函数。用公式表示如下： $v_{\pi}\left(s\right) = \mathbb{E}\left[\sum_{k=0}^{\infty}\gamma^{k}\mathcal{R}_{t+k+1}|S_{t}=s\right]$
不同的策略 $\pi$ 在相同的状态 $s$ 下对应的状态值函数是不同的，因为策略 $\pi$ 本身会影响智能体处在某一状态是的行为，进而改变累计回报 $\mathcal{G}$ 。
状态-行为值函数：智能体在状态 $s$ 处执行动作 $a$ 所获得的累计回报的期望值被定义为智能体在策略 $\pi$ 时处在状态 $s$ 处执行动作 $a$ 的状态-行为值函数。用公式表示如下： $q_{\pi}\left(s,a\right)=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty}\gamma^{k}\mathcal{R}_{t+k+1}|S_{t}=s, A_{t}=a\right]$

递推关系

智能体的状态值函数和状态行为值函数之间存在一种递推关系。下图给出四种递推关系：
Alt

$v_{\pi}\left(s\right)\rightarrow q_{\pi}\left(s,a\right)$ $v_{\pi}\left(s\right)=\sum_{a\in A}\pi\left(a|s\right)q_{\pi}\left(s,a\right)$
$v_{\pi}\left(s\right)\rightarrow v_{\pi}\left(s'\right)$ $v_{\pi}\left(s\right)=\sum_{a\in A}\pi\left(a|s\right)\left[R_{s}^{a}+\gamma\sum_{s'}P_{ss'}^{a}v_{\pi}\left(s'\right)\right]$
$q_{\pi}\left(s,a\right)\rightarrow v_{\pi}\left(s'\right)$ $q_{\pi}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'}P_{ss'}^{a}v_{\pi}\left(s'\right)$
$q_{\pi}\left(s,a\right)\rightarrow q_{\pi}\left(s',a'\right)$ $q_{\pi}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'}P_{ss'}^{a}\left[\sum_{a'\in A}\pi\left(s'|a'\right)q_{\pi}\left(s',a'\right)\right]$

Q-learning基本原理

Q-Learning算法是一种基于表格的值函数迭代的强化学习算法。这个方法最大的特点就是建立一张Q值表(Q-Table)，算法迭代时Q值表不停地被更新，直至最后表中数据收敛。等到Q值表收敛后，智能体可以根据每个状态的行为值函数的大小来确定最优策略。Q值表示意如下：

$Q - T a b l e$	$a_{1}$	$a_{2}$	$\cdots$	$a_{m}$
$s_{1}$	$q\left(s_{1}, a_{1}\right)$	$q\left(s_{1}, a_{2}\right)$	$q\left(s_{1}, \cdots\right)$	$q\left(s_{1}, a_{m}\right)$
$s_{2}$	$q\left(s_{2}, a_{1}\right)$	$q\left(s_{2}, a_{2}\right)$	$q\left(s_{2}, \cdots\right)$	$q\left(s_{2}, a_{m}\right)$
$\vdots$	$q\left(\cdots, a_{1}\right)$	$q\left(\cdots, a_{2}\right)$	$\ddots$	$q\left(\cdots, a_{m}\right)$
$s_{n}$	$q\left(s_{n}, a_{1}\right)$	$q\left(s_{n}, a_{2}\right)$	$q\left(s_{n}, \cdots\right)$	$q\left(s_{n}, a_{m}\right)$

智能体在探索时，按照下式的方式来更新Q-Table：
$NewQ\left(s,a\right)=Q\left(s,a\right)+\alpha\underbrace{R\left(s,a\right)+\gamma\max_{a'\in A}Q\left(s',a'\right)- Q\left(s,a\right)}_{\Delta Q\left(s,a\right)}$

下面举一个例子来简单说明Q-Table的更新过程：
例：有一智能体，状态集合为 $\left\{0,1\right\}$ ，动作集合为 $\left\{+,-\right\}$ ，即时奖励 $R\left(s,a\right)=-1$ ，折扣因子 $\gamma=0.8$ ，学习率 $\alpha=0.1$ ，环境的规则为： $0\xrightarrow{+}1$ ， $0\xrightarrow{-}0$ ， $1\xrightarrow{+}1$ ， $1\xrightarrow{-}0$ ，执行某一动作之后的状态转移概率是1，初始状态是0，初始化Q-Table为：

Q	+	-
0	0.0	0.0
1	0.0	0.0

智能体执行动作 $+$ 之后， $Q\left(0,+\right)$ 会被更新为：
$Q\left(0,+\right)=0.0+0.1\times\left[-1+0.8\max\left(Q\left(1,+\right),Q\left(1,-\right)\right)-0.0\right]=-0.1$
进而Q-Table会被更新为：

Q	+	-
0	-0.1	0.0
1	0.0	0.0

注意事项

Q-Learning 是一个基于值函数迭代的方式，利用 Q 函数来寻找最优的 Action
为了能够更好地更新 Q 值表，就需要更好地探索环境，因此需要多次执行随机策略以更好地“遍历”整个环境
为了平衡探索与寻优，在经过一定回合的随机探索之后，需要智能体以一定的概率 ϵ 执行“最优”策略，并且 ϵ 应随着学习回合数的增加而增加
算法收敛之后，也可以保持一定概率的探索，以防止陷入局部最优

局限性

Q-Learning算法是有自己的局限性的，主要体现在以下几点：

当Q-Table的规模比较大时，算法迭代收敛时间非常长。
如果智能体探索不充分，很有可能造成算法陷入局部最优。
奖励函数设置如果不合理，很有可能陷入局部最优。
Q-Learning无法解决连续状态和连续动作的强化学习问题。

仿真

可以使用网上莫烦Python大神的代码，在OpenAI Gym下做仿真；也可以自己使用图形显示平台自己编写各种简单的仿真环境，然后编写代码测试。我使用的是OpenCV+PyTorch平台，代码一方面稍微有些长（因为还有绘图和调试程序），另一方面网上各种大神的代码，相比之下我的真的是没啥价值，如果有小伙伴想交流，可以私信。贴上一幅图，自己的仿真结果（Low得很…）。
在这里插入图片描述迭代回合数：356
最优路径： $\left[0,0\right]\rightarrow\left[1,0\right]\rightarrow\left[2,0\right]\rightarrow\left[3,0\right]\rightarrow\left[4,0\right]\rightarrow\left[4,1\right]\rightarrow\left[5,1\right]\rightarrow\left[6,1\right]\rightarrow\left[6,2\right]\rightarrow\left[6,3\right]\rightarrow\left[6,4\right]\rightarrow\left[6,5\right]\rightarrow\left[6,6\right]\rightarrow\left[7,6\right]\rightarrow\left[7,7\right]$ 。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 基于matlab的强化学习QLearning路径规划性能仿真
下一篇 > 百度java热力图_百度API---热力图

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

强化学习Q-Learning算法

强化学习Q-Learning算法

前言

基本概念

基本概念

递推关系

Q-learning基本原理

注意事项

局限性

仿真

相关文章