【强化学习】马尔可夫决策过程MDP

2023-09-27 18:31:04

1.马尔可夫决策过程MDP

1.1 MDP五元组

$MDP=<\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\mathcal{\gamma}>$ ，其中：

$\mathcal{S}$ ：状态空间
$\mathcal{A}$ ：动作空间
$\mathcal{P}$ ： $\mathcal{P(s'|s,a)}$ 为状态转移函数，表示采取动作 $a$ 从状态 $s$ 转移到状态 $s^{'}$ 的概率
$\mathcal{R}$ ：奖励函数 $\mathcal{R(s,a)}$ ，表示在状态 $s$ 下采取动作 $a$ 后的奖励。
$\mathcal{\gamma}$ ：折扣因子 $\gamma \in [0,1)$ ，取值越大越注重长期积累的奖励。

MDP与MRP的区分
MDP与马尔可夫奖励过程 $MRP=<\mathcal{S},\mathcal{P},\mathcal{r},\mathcal{\gamma}>$ 的区别在于状态转移和奖励函数不依赖于动作 $a$ 。举例：船在海上自由飘荡是一个MRP，船由水手掌舵在海上航行是一个MDP。

1.2 Agent与MDP环境的交互

在这里插入图片描述
Agent通过 $r_t$ 学习策略，agent通过学习到的策略针对当前环境状态 $s_t$ 采取相应动作 $a_t$ ，该动作与环境交互后，环境中的状态将转移到新的状态 $s_{t+1}$ ，同时获得奖励 $r_{t+1}$ 。Agent的目标是最大化累积奖励的期望。

1.2.1 策略policy

策略用 $\pi$ 表示，策略是一个函数，是agent学习的目标。策略会输出在状态 $s$ 下采取各个action的概率，即 $\pi(a|s)=P(A_t=a|S_t=s)$ .

1.2.2 状态价值函数 $V (s)$

$V^\pi(s)$ 表示从状态 $s$ 出发，采取策略 $\pi$ 获得回报的期望，即
$V^\pi(s) = E_\pi[G_t|S_t=s]$

1.2.3 动作价值函数Q(a|s)

$Q^\pi(a|s)$ 表示MDP遵循策略 $\pi$ ，在状态 $s$ 下采取动作 $a$ 后得到回报的期望，即：
$Q^\pi(a|s)= E_\pi[G_t|S_t=s,A_t=a]$

$V^\pi(s)$ 与 $Q^\pi(a|s)$ 的关系？
使用策略 $\pi$ ， $V^\pi(s)$ 为采取动作 $a$ 的概率乘在状态 $s$ 下采取动作 $a$ 的动作价值的累加和，即：
$V^\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)Q^\pi(a|s)$

1.2.4 贝尔曼期望方程

$\begin{aligned} V^\pi(s) &= E_\pi[G_t|S_t=s]\\ &=E_\pi[R_{t+1}+\gamma V^\pi(s')|S_t=s]\\ \end{aligned}$

$\begin{aligned} Q^\pi(a|s) &= E_\pi[G_t|S_t=s,A_t=a]\\ &=E_\pi[R_{t+1}+\gamma Q^\pi(s_{t+1},a_{t+1})|S_t=s,A_t=a] \end{aligned}$

其展示了当前状态与未来状态的关联。

由
$V^\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)Q^\pi(a|s)\\ Q^\pi(s,a) = R(s,a)+\gamma\sum_{}P(s'|s,a)V^\pi(s')$
代入贝尔曼期望方程中，可以得到贝尔曼期望方程的另一种形式：
$V^\pi(s)=\sum_{a\in A}\pi(a|s)(R(s,a)+\gamma\sum_{s'\in S}P(s'|s,a)\sum_{s'\in S}V^\pi(s'))\\\ Q^\pi(s,a)=R(s,a)+\gamma\sum_{s'\in S}P(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q(s',a')$

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 深度神经网络—正则化（一）L2正则化
下一篇 > 新手程序员进阶必学，Python常用模块及用法汇总，干货建议收藏

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce