深度强化学习课程文档
延伸阅读
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
延伸阅读
如果您想深入学习,这些是可选阅读材料。
策略优化简介
策略梯度
- https://johnwlambert.github.io/policy-gradients/
- RL - 策略梯度解释
- 第13章,策略梯度方法;强化学习,Richard Sutton 和 Andrew G. Barto 著
深度强化学习课程文档
延伸阅读
并获得增强的文档体验
开始使用
如果您想深入学习,这些是可选阅读材料。