Softmax Strategy

 1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax  strategy

333

4. Gradient strategy

444

References

[1] 科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文

[2] The Epsilon-Greedy Algorithm | James D. McCaffrey


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部