深度强化学习课程文档
补充阅读
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
补充阅读
这些是可选阅读材料,如果您想深入了解。
PPO 详解
- Daniel Bick 撰写的《力求对近端策略优化进行连贯的自包含解释》
- 理解 RL 中的近端策略优化算法的方法是什么?
- Pieter Abbeel 撰写的《深度强化学习基础系列,L4 TRPO 和 PPO》
- OpenAI PPO 博客文章
- Spinning Up RL PPO
- 论文《近端策略优化算法》
深度强化学习课程文档
补充阅读
并获得增强的文档体验
开始使用
这些是可选阅读材料,如果您想深入了解。