强化学习中损失与奖赏的关系

文章目录

  • 前言
  • 正文

前言

这是一个实践中普遍遇到的问题,这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。

正文

监督学习和强化学习之间的区别在于,监督学习是提供指导性的反馈——损失——来解决问题,而强化学习是提供评估性反馈——奖赏——解决问题。然后我们探究损失曲线与强化学习之间的关系。

损失曲线逐渐下降,对于神经网络来说意味着参数的收敛,函数近似趋于稳定,更低的损失意味着对当前策略值的更准确的预测。从技术上讲,Q-learning off-policy的估计更复杂,但收敛性仍将受到当前策略中可获得的经验的限制。不幸的是,强化学习中的损失度量不能反映该策略有多好。所以这意味着我们的策略被设定在这样的一个模式,在这个模式里,值可以通过我们使用的神经网络估计。出于某种原因,它不是像通常那样在损失指标下降之前发现策略的改进,因为每个改善的值估计应该显示更好的可能的动作,而且一旦那些被一个新的策略采用,价值估计就会变得过时,然后损失就会再次增加。

探索可能是个问题,这种情况下的“局部最小值”可


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部