强化学习：（三）策略学习

2023-08-04 02:54:51

一、策略学习

思路：用policy network来近似策略函数 $\pi$ ，用policy gradient算法来训练这个网络

函数近似的一般方法：线性函数，kernel函数，神经网络（就叫policy network了）

在这里插入图片描述

softmax是用来做映射的，因为我们需要各个动作的概率，所以要求输出都为正数，且加和为1，这里的softmax就是让输出具有这样的特征。

我们要找到一种评价方式，在这种评价方式下，当前的局面是最好的。因此，我们肯定需要状态价值函数：

在这里插入图片描述

目标函数： $J(\theta)=E_S[V(S;\theta)]$ ，策略学习就是改进θ，让 $J(\theta)$ 最大

在这里插入图片描述

策略梯度：如果a是离散的，那么
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TDc54M77-1627708988884)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210721162446955.png)]$

则有

在这里插入图片描述

其中 $Q_\pi(s,a)$ 是与 $\pi$ 有关的，而 $\pi$ 是与θ有关的，但为了便于理解，把它看作是无关的，拎到外面。

但实际上一般不用这种方法算策略梯度，而是作这个策略梯度的蒙特卡洛近似：

在这里插入图片描述

这里的log只是一种方法，莫烦的说法是用log的收敛性比较好。

现在得到了两种策略梯度的计算形式。

1）用第一种形式：
在这里插入图片描述

但因为是求和，所以只能用于动作空间是离散区间的情况

2）用第二种形式：适合动作空间是连续区间的情况（离散区间也可以用）

在这里插入图片描述

由于 $\hat a$ 是根据 $\pi$ 抽样得到的，所以 $g(\hat a,\theta)$ 是对策略梯度的无偏估计。

流程总结：

在这里插入图片描述

这里第3步的 $q_t$ 怎么算？

1）reinforce方法：用 $u_t$ 来近似代替 $U_t$

在这里插入图片描述

缺点：需要玩完一局，才能知道 $u_t$ ，才能更新一次

2）actor-critic方法：用神经网络做函数近似

以后再说。

二、参考资料

深度强化学习（全）

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 如何将Excel中的所有图片、图形等对象批量删除
下一篇 > 第04课：学习：如何制定学习方案，获取进步捷径

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

强化学习：（三）策略学习

目录

一、策略学习

二、参考资料

相关文章