《深度学习》学习笔记(十)
本篇博文主要介绍强化学习reforcement learning
文章目录
- What is reinforcement learning(RL)
- Policy Gradient
- Actor-Critic
- Reward Shaping
- No Reward:Learning from demonstration
What is reinforcement learning(RL)
RL不知道好还是不好

RL的结构:

下面举例子讲RL:



每盘棋局结束的时候,才能得到reward,学习的过程就是最大化reward的过程。

下面的network可以选择CNN,实际做的时候是看的参数FNN



reward是采取行为时立即得到,return是整个episode中reward的加和(total reward),就是我们想要最大化的。

难点:如何找到一组参数让R越大越好
Policy Gradient





每个行为都会影响接下来的互动






拿来训练的actor与跟环境互动的actor是同样的。(on-policy)
不同时,就称为off-policy


Actor-Critic




两种方法都是可以算出来出reward的,只不过背后的假设是不一样的。




Reward Shaping

reward shaping在RL中使用的例子:

不断看到新东西

No Reward:Learning from demonstration
真实环境中,有时候根本不知道怎么定reward


还有一些其他的问题,the agent will copy every behavior, even irrelevant actions.



本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
