深度强化学习课程文档

Q-学习导论

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Q-学习导论

Unit 2 thumbnail

在本课程的第一单元中,我们学习了强化学习(RL)、RL 过程以及解决 RL 问题的不同方法。我们还训练了我们的第一个智能体并将它们上传到 Hugging Face Hub。

在本单元中,我们将深入探讨一种强化学习方法:基于价值的方法,并学习我们的第一个 RL 算法:Q-学习。

我们还将从头开始实现我们的第一个 RL 智能体,一个 Q-学习智能体,并将在两个环境中训练它

  1. Frozen-Lake-v1(无滑倒版本):我们的智能体将需要从起始状态(S)到达目标状态(G),只能在冰冻的瓷砖(F)上行走,并避开洞(H)。
  2. 一辆自动驾驶出租车:我们的智能体将需要学习导航城市,以将乘客从 A 点运送到 B 点。
Environments

具体来说,我们将

  • 学习基于价值的方法
  • 学习蒙特卡洛和时序差分学习之间的区别
  • 研究并实现我们的第一个 RL 算法:Q-学习。

如果你想在深度 Q-学习上工作,本单元至关重要:深度 Q-学习是第一个玩 Atari 游戏并在其中一些游戏(如打砖块、太空侵略者等)中超越人类水平的深度 RL 算法。

那么,我们开始吧!🚀

< > 在 GitHub 上更新