强化学习知识要点与编程实践（7）——基于模型的学习和规划

2023-12-07 23:27:21

基于模型的学习和规划

0. 引言
1. 环境的模型
2. 整合学习与规划——Dyna算法
3. 基于模拟的搜索
- 3.1 简单蒙特卡罗搜索
- 3.2 蒙特卡罗树搜索

本文未经许可，禁止转载，如需转载请联系笔者

0. 引言

无论是前面第五章的关于价值函数的近似，还是第六章的基于策略梯度的深度强化学习，都没有让个体去试图理解环境，没有让他学习环境的变化规律。

如果能建一个较为准确的模拟环境动力学特征的模型或者问题的模型本身就类似于一些棋类游戏是明确或者简单的，个体就可以通过构建这样的模型来模拟其与环境的交互，这种依靠模型模拟而不实际与环境交互的过程类似于“思考”过程。通过思考，个体可以对问题进行规划、在与环境实际交互时搜索交互可能产生的各种后果并从中选择对个体有利的结果。这种思想可以广泛应用于 规则简单、但状态或结果复杂 的强化学习问题中。

1. 环境的模型

正如前面所说，可以根据价值函数或者策略函数来制定agent与环境互动的策略，但是如果能够建立 环境的模型，那么它在与环境 交互的过程 中，既可以通过实际交互来提高模型的准确程度，也可以在 交互间隙 利用构建的模型进行思考、规划，决策出对个体有力的行为。

基于模型的强化学习流程可以用下图表示：
在这里插入图片描述

理论上来说,模型 $M$ 是一个马尔科夫决策过程 $M D P < S, A, P, R >$ 的参数化的表现形式。假设状态空间 $S$ 和行为空间 $A$ 是已知的，那么模型 $M = < P_{η}, R_{η} >$ 则描述了环境动力学中的状态转换 $P_{\eta} \approx P$ 和奖励函数 $R_{\eta} \approx R$ ，因此：

在这里插入图片描述

上述的这两个模型应该如何学习呢？
显然可以通过神经网络来训练学习，训练的数据集为：

在这里插入图片描述
那么将 $S_{T-1}$ 和 $A_{T-1}$ 作为网络的输入， $R_T$ 作为网络的输出，可以训练一个神经网络，这是一个回归问题。

将 $S_{T-1}$ 和 $A_{T-1}$ 作为网络的输入， $S_T$ 作为网络的输出，可以训练一个神经网络，这是一个概率密度估计问题。

当然也可以用查表式的方法，但是现在已经用得比较少了，基本都用神经网络近似拟合。

如果已知模型了，那么控制问题就变为了规划问题，对于已知模型来求解基于此模型的最优价值函数或最优策略，这是典型的动态规划算法，可以参看《动态规划寻找最优策略》，里面有MC算法和TD算法。

由于实际经历的不足或者一些无法避免的缺陷，通过实际经历学习得到的模型不可能是完美的模型，即:

$\neq$

而从 基于不完美模型的MDP 中学习得到的最优策略通常也 不是实际问题的最优策略，这就要求个体在环境实际交互的同时要不断的更新模型参数，基于更新模型来更新最优策略。

这种使用近似的模型解决强化学习问题与使用价值函数或策略函数的近似表达来解决强化学习问题并不冲突，它们是从不同角度来近似求解一个强化学习问题，当构建一个模型比构建近似价值函数或近似策略函数更方便时，那么使用近似模型来求解会更加高效。

使用模型来解决强化问题时要特别注意模型参数要随着个体与环境交互而不断地动态更新，即通过实际经历要与使用模型产生的虚拟经历相结合来解决问题，这就催生了一类整合了学习与规划的强化学习算法——Dyna算法。

2. 整合学习与规划——Dyna算法

Dyna算法从 实际经历 中学习得到模型，同时联合使用 实际经历 和基于模型采样得到的 虚拟经历 来学习和规划，更新价值和(或)策略函数，其基本思路如下图所示：
在这里插入图片描述

基于行为价值的 Dyna-Q算法的流程如下表所示：
在这里插入图片描述

3. 基于模拟的搜索

在强化学习中，基于模拟的搜索(simulation-based search)是一种 前向搜索形式，它从当前时刻的状态开始，利用模型来模拟采样,构建一个关注短期未来的前向搜索树，将构建得到的搜索树作为一个学习资源，使用不基于模型的强化学习方法来寻找当前状态下的最优策略，如下图所示：

在这里插入图片描述

如果使用蒙特卡罗学习方法则称为 蒙特卡罗搜索，如果使用Sarsa学习方法，则称为 TD搜索。其中蒙特卡罗搜索又分为 简单蒙特卡罗搜索 和 蒙特卡罗树搜索。

3.1 简单蒙特卡罗搜索

对于一个模型 $M_v$ 和一个一致的模拟过程中使用的策略 $\pi$ ，简单蒙特卡罗搜索 在当前实际状态 $s_t$ 时会针对行为空间中的每一个行为 $\in A$ 进行 $K$ 次的模拟采样:
在这里插入图片描述

通过计算模拟采样得到的 $k$ 个状态 $s_t$ 时采取行为 $a$ 的收获的平均值来估算该 状态行为对的价值 $Q(s_t,a)$ :

在这里插入图片描述

比较行为空间中所有行为 $a$ 的价值，确定当前状态 $s_t$ 下与环境发生实际交互的行为 $a_t$ （完全贪婪原则）:

在这里插入图片描述

简单蒙特卡罗搜索 可以使用基于模拟的采样对当前模拟采样的策略进行评估，得到基于模拟采样的某 状态行为对的价值，这个价值的估计同时还与每次采样的 K值大小有关。在估算行为价值时，关注点在于从当前状态和行为对应的收获，并不关注模拟采样得到的一些中间状态和对应行为的价值。

如果同时考虑模拟得到的中间状态和行为的价值，则可以考虑蒙特卡罗树搜索。

3.2 蒙特卡罗树搜索

蒙特卡罗树搜索(Monte-Carlo tree search,MCTS) 在构建当前状态 $s_t$ 的基于模拟的前向搜索时，关注模拟采样中所经历的 所有状态及对应的行为，以此构建一个搜索树。利用这颗搜索树不仅可以对 当前模拟策略进行评估，还可以 改善模拟策略。

在使用蒙特卡罗树搜索进行模拟策略评估时，对于个体构建的模型 $M_v$ 。和当前的模拟策略 $\pi$ ，在实际当前状态 $s_t$ 时模拟采样出 $K$ 个完整状态序列（和简单蒙特卡罗搜索一样）:

在这里插入图片描述

构建一颗以状态 $s_t$ 为根节点包括所有已访问的状态和行为的搜索树，对树内的每一个状态行为对 $(s, a)$ 使用该状态行为对的平均收获来估算其价值︰

在这里插入图片描述

当搜索结束时，比较当前状态 $s_t$ 下行为空间 $A$ 内的每一个行为的价值，从中选择 最大价值对应的行为 $a_t$ 作为当前状态 $s_t$ 时个体与环境实际交互的行为（完全贪婪原则）。

比较 简单蒙特卡罗搜索 和 蒙特卡罗树搜索。可以看出两者之间的区别在于前者针对当前状态 $s_t$ 时每一个可能的行为都进行相同数量的采样，而后者则是根据模拟策略进行一定次数的采样。此外，蒙特卡罗树搜索会对模拟采样产生的状态行为对进行计数，并计算其收获，根据这两个数据来计算模拟采样对应的状态行为对价值。

比较两者之间的差别可以看出，如果 问题的行为空间规模很大，那么使用 蒙特卡罗树搜索 比简单蒙特卡罗搜索要 更实际可行。

在蒙特卡罗树搜索中，搜索树的广度和深度是伴随着模拟采样的增多而逐渐增多的。在构建这个搜索树的过程中,搜索树内状态行为对的价值也在不停的更新，利用这些更新的价值信息可以使得在每模拟采样得到一个完整的状态序列后都可以一定程度地改进模拟策略。

通常 蒙特卡罗树搜索的策略 分为两个阶段:

树内策略(tree policy): 为当模拟采样得到的状态存在于当前的搜索树中时采用的策略。树内策略可以是 $\epsilon$ -贪婪策略，随着模拟的进行可以得到持续改善;
默认策略(default policy): 当前状态不在搜索树内时，使用默认策略来完成整个状态序列的采样，并把当前状态纳入到搜索树中。默认策略可以是随机策略或基于某目标价值函数的策略。

随着不断地重复模拟，状态行为对的价值将持续地得到评估。同时搜索树的深度和广度将得到扩展，策略也不断得到改善。蒙特卡罗树搜索较为抽象，本章暂时介绍到这里，后续会做进一步的介绍。

参考文献：

David Silver强化学习视频.
叶强《强化学习入门——从原理到实践》

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 小方格世界的DP、Q-learning、sarsa和MC算法
下一篇 > David Silver强化学习公开课自学笔记——Lec4不基于模型的预测

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

强化学习知识要点与编程实践（7）——基于模型的学习和规划

基于模型的学习和规划

0. 引言

1. 环境的模型

2. 整合学习与规划——Dyna算法

3. 基于模拟的搜索

3.1 简单蒙特卡罗搜索

3.2 蒙特卡罗树搜索

相关文章