深度强化学习课程文档
Q-学习导论
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Q-学习导论

在本课程的第一单元中,我们学习了强化学习(RL)、RL 过程以及解决 RL 问题的不同方法。我们还训练了我们的第一个智能体并将它们上传到 Hugging Face Hub。
在本单元中,我们将深入探讨一种强化学习方法:基于价值的方法,并学习我们的第一个 RL 算法:Q-学习。
我们还将从头开始实现我们的第一个 RL 智能体,一个 Q-学习智能体,并将在两个环境中训练它
- Frozen-Lake-v1(无滑倒版本):我们的智能体将需要从起始状态(S)到达目标状态(G),只能在冰冻的瓷砖(F)上行走,并避开洞(H)。
- 一辆自动驾驶出租车:我们的智能体将需要学习导航城市,以将乘客从 A 点运送到 B 点。

具体来说,我们将
- 学习基于价值的方法。
- 学习蒙特卡洛和时序差分学习之间的区别。
- 研究并实现我们的第一个 RL 算法:Q-学习。
如果你想在深度 Q-学习上工作,本单元至关重要:深度 Q-学习是第一个玩 Atari 游戏并在其中一些游戏(如打砖块、太空侵略者等)中超越人类水平的深度 RL 算法。
那么,我们开始吧!🚀
< > 在 GitHub 上更新