深度强化学习课程文档
延伸阅读
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
延伸阅读
如果您想深入学习,这些是可选阅读材料。
PPO 解释
- Daniel Bick 的《Proximal Policy Optimization 的连贯自洽解释》
- 如何在强化学习中理解近端策略优化算法?
- Pieter Abbeel 的《深度强化学习基础系列,L4 TRPO 和 PPO》
- OpenAI PPO 博客文章
- Spinning Up RL PPO
- 论文:近端策略优化算法