(《机器学习》完整版系列)第16章 强化学习——16.1 任务与奖赏(从MDP出发)
用一句话来理解强化学习,就是通过让机器获得奖赏而“强化”某些有利偏好,从而引导机器完成任务。
注:奖赏也可能是负数,如,直升机(关闭引擎)着陆任务,坠毁则为绝对值很大的负数;安全着陆则为正数,其大小取决于着陆的精度和平稳程度等。
在马尔可夫决策过程中,“两阶段模型”是笔者独创的模型图,非常有利于教与学。
定义了γ折扣累积奖赏与T步累积奖赏
任务与奖赏
【西瓜书图16.1】的强化学习示意图描述了机器与环境的互动,强化学习任务对应于四元组: E = ⟨ X , A , P , R ⟩ E=\langle X,A,P,R\rangle E=⟨X,A,P,R⟩,
其中,转移矩阵 P : X × A × X ↦ R P:X\times A\times X\mapsto \mathbb{R} P:X×A×X↦R,奖赏函数 R : X × A × X ↦ R R:X\times A\times X\mapsto \mathbb{R} R:X×A×X↦R或 R : X × X ↦ R R:X\times X\mapsto \mathbb{R} R:X×X↦R

如果具有马尔可夫性(即下一步只与当前步相关,而与历史无关),则通常采用马尔可夫决策过程(MDP),马尔可夫决策过程指下述情况2:
1、确定性转移,如图 16.1 所示。

即在当前状态 x i x_i xi下采取行动 a a a,确定性地转移到 x j x_j xj,奖赏 r = R ( x i , a , x j ) r=R(x_i,a,x_j) r=R(xi,a,xj),当奖赏只与状态转移有关时,则 r = R ( x i , x j ) r=R(x_i,x_j) r=R(xi,xj)。
2、概率性转移,如图 16.2 所示。

即在当前状态 x i x_i xi下采取行动 a a a,不一定转移到 x j x_j xj,而是依概率 p p p转移到 x j x_j xj,其余事项与确定性转移相同。
马尔可夫决策过程(MDP)中,状态 x i x_i xi转移到 x j x_j xj实际上经历了两个阶段:
(i) 行动决策:若依当前状态 x i x_i xi就可以确定行动 a a a,则称为确定性策略,即策略 π : X ↦ A \pi :X \mapsto A π:X↦A,若策略中具有随机因素,则为随机性策略,需要用概率表示 π ( x , a ) \pi( x ,a) π(x,a),即 π : X × A ↦ R \pi :X\times A \mapsto \mathbb{R} π:X×A↦R,并且有 ∑ a π ( x , a ) = 1 \sum_{a}\pi( x ,a)=1 ∑aπ(x,a)=1。 确定性策略可视为随机性策略的特例:取该动作 a a a的概率为1,其余动作的概率为0.
(ii) 行动结果:采取行动后,结果状态具有某种随机性,即有条件概率 P ( x j ∣ x i , a k ) P(x_j|x_i,a_k) P(xj∣xi,ak)。
这两阶段表示为图 16.3 。
注:分拆为“两阶段模型”是笔者独创的模型图,非常有利于教学,在此模型下,笔者通常将 R x → x ′ a R^a_{x\to x'} Rx→x′a记为 R ( x , a ) → x ′ R_{(x,a)\to x'} R(x,a)→x′,另外,还可以引入行动成本: C x → a C_{x\to a} Cx→a(在状态 x x x下执行行动 a a a所花费的成本),本书不作讨论。

读者可以用图 16.3 ,改造【西瓜书图16.2】。
从时间角度来看奖赏,就有一个“折现”问题。
我们先看看生活中的情况:设年利率为 r = 10 % r=10\% r=10%,那么,现在的100元钱存入银行,一年后即为 100 ( 1 + 10 % ) 100(1+10\%) 100(1+10%),5年后即为 100 ( 1 + 10 % ) 5 100(1+10\%)^5 100(1+10%)5,等等。 一个反向问题是:5年后(第6年初)的100元钱,折算到现在(折现)应为多少?设为 x x x,则有方程
x ( 1 + 10 % ) 5 = 100 即: x = 100 ( 1 + 10 % ) − 5 = 100 [ 1 1 + 10 % ] 5 \begin{align*} & x(1+10\%)^5=100\notag \\ \text{即: } & x=100(1+10\%)^{-5}=100\left[\frac{1}{1+10\%}\right]^5 \end{align*} 即: x(1+10%)5=100x=100(1+10%)−5=100[1+10%1]5
其中, [ 1 1 + 10 % ] \left[\frac{1}{1+10\%}\right] [1+10%1]即为折现率(或称折扣),记为 γ \gamma γ,它与利率 r r r相对应。 将上述正反两个方向的情形放在一起,则有图 16.4 ,其中,折现率 γ \gamma γ与利率 r r r的关系为
γ = 1 1 + r \begin{align} \gamma=\frac{1}{1+r} \tag{16.1} \end{align} γ=1+r1(16.1)

将马尔可夫决策过程中的“步”(即图 16.3 中的两阶段)对比到图 16.4 中的“年”,即: 设第 t + 1 t+1 t+1步获得的奖赏值为 r t + 1 r_{t+1} rt+1,步折扣率为 γ \gamma γ,则第 t + 1 t+1 t+1步的奖赏折现为 γ t r t + 1 \gamma ^t r_{t+1} γtrt+1。 无限步的累计奖赏为 ∑ t = 0 ∞ γ t r t + 1 \sum_{t=0}^\infty \gamma ^t r_{t+1} ∑t=0∞γtrt+1, 由于 r t + 1 r_{t+1} rt+1为随机变量,故可取期望(将其消去,形成均值)
E t : 0 → ∞ ∑ t = 0 ∞ γ t r t + 1 \begin{align} \mathop{\mathbb{E} }\limits_{t:0\to \infty}\sum_{t=0}^\infty \gamma ^t r_{t+1} \tag{16.2} \end{align} t:0→∞Et=0∑∞γtrt+1(16.2)
式(16.2)称为“ γ \gamma γ折扣累积奖赏”。
只考虑有限步( T T T步)时,有
E t : 0 → T ∑ t = 1 T γ t r t \begin{align} \mathop{\mathbb{E} }\limits_{t:0\to T}\sum_{t=1}^T \gamma ^t r_{t} \tag{16.3} \end{align} t:0→TEt=1∑Tγtrt(16.3)
式(16.3)称为“ γ \gamma γ折扣 T T T步累积奖赏”。
当不考虑折扣率(或不知折扣率)时,式(16.3)中以 1 T \frac{1}{T} T1取代 γ t \gamma ^t γt,也即采取取“步平均奖赏”的方式
E t : 1 → T 1 T ∑ t = 1 T r t \begin{align} \mathop{\mathbb{E} }\limits_{t:1\to T}\frac{1}{T}\sum_{t=1}^T r_{t} \tag{16.4} \end{align} t:1→TET1t=1∑Trt(16.4)
式(16.4)称为“ T T T步累积奖赏”(虽然叫“累积”,但实际上是累积奖赏平均到步,即“步均奖”)。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:15.11 基于逆归结的机器证明
下一篇:16.2 K-摇劈赌博机的贪心算法(赌博当然贪心)
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
