《深度学习》学习笔记(十)

本篇博文主要介绍强化学习reforcement learning

文章目录

  • What is reinforcement learning(RL)
  • Policy Gradient
  • Actor-Critic
  • Reward Shaping
  • No Reward:Learning from demonstration

What is reinforcement learning(RL)

RL不知道好还是不好
在这里插入图片描述
RL的结构:
在这里插入图片描述
下面举例子讲RL:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每盘棋局结束的时候,才能得到reward,学习的过程就是最大化reward的过程。
在这里插入图片描述
下面的network可以选择CNN,实际做的时候是看的参数FNN
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
reward是采取行为时立即得到,return是整个episode中reward的加和(total reward),就是我们想要最大化的。
在这里插入图片描述
难点:如何找到一组参数让R越大越好

Policy Gradient

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每个行为都会影响接下来的互动
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
拿来训练的actor与跟环境互动的actor是同样的。(on-policy)
不同时,就称为off-policy
在这里插入图片描述
在这里插入图片描述

Actor-Critic

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
两种方法都是可以算出来出reward的,只不过背后的假设是不一样的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Reward Shaping

在这里插入图片描述
reward shaping在RL中使用的例子:
在这里插入图片描述
不断看到新东西
在这里插入图片描述

No Reward:Learning from demonstration

真实环境中,有时候根本不知道怎么定reward
在这里插入图片描述
在这里插入图片描述
还有一些其他的问题,the agent will copy every behavior, even irrelevant actions.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部