深度强化学习课程文档
拓展阅读
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
拓展阅读
这些是可选阅读材料,如果您想深入了解。
策略优化导论
策略梯度
- https://johnwlambert.github.io/policy-gradients/
- RL - 策略梯度详解
- 第 13 章,策略梯度方法;强化学习,Richard Sutton 和 Andrew G. Barto 的介绍
深度强化学习课程文档
拓展阅读
并获得增强的文档体验
开始使用
这些是可选阅读材料,如果您想深入了解。