深度强化学习课程文档
扩展阅读
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
扩展阅读
这些是**可选阅读材料**,如果您想深入了解。
蒙特卡洛方法和时序差分学习
深入了解蒙特卡洛方法和时序差分学习
Q-学习
- Reinforcement Learning: An Introduction, Richard Sutton and Andrew G. Barto 第 5、6 和 7 章
- Foundations of Deep RL Series, L2 Deep Q-Learning,作者 Pieter Abbeel