强化学习基于策略7.4 | Trajectory轨迹

Trajectory是一段状态动作序列,没有对长度的限制,R是一段Trajectory的奖励之合
在这里插入图片描述
我们的的目标是找到参数最大化期望回报,用的是每个概率下的Trajectory乘以它的总的reward
在这里插入图片描述
为了最大化expected return,我们使用梯度上升的方法,来找到到参数sita。
在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部