深度强化学习课程文档

Q学习简介

Hugging Face's logo
加入Hugging Face社区

并获得增强型文档体验

开始使用

Q学习简介

Unit 2 thumbnail

在本课程的第一个单元中,我们学习了强化学习(RL)、RL过程以及解决RL问题的不同方法。我们还**训练了我们的第一个智能体并将其上传到Hugging Face Hub**。

在本单元中,我们将**深入探讨强化学习方法之一:基于价值的方法**,并学习我们的第一个RL算法:**Q学习**。

我们还将**从头开始实现我们的第一个RL智能体**,一个Q学习智能体,并在两个环境中对其进行训练

  1. Frozen-Lake-v1(非滑行版本):我们的智能体需要**从起始状态(S)到达目标状态(G)**,方法是只在冰冻方块(F)上行走并避开洞穴(H)。
  2. 自动驾驶出租车:我们的智能体需要**学习在城市中导航**,以**将乘客从A点运送到B点**。
Environments

具体来说,我们将

  • 了解**基于价值的方法**。
  • 了解**蒙特卡洛和时序差分学习之间的区别**。
  • 学习和实现**我们的第一个RL算法**:Q学习。

如果您希望能够进行深度Q学习,则本单元**至关重要**:第一个玩Atari游戏并在其中一些游戏中击败人类水平的深度RL算法(突破、太空侵略者等)。

所以让我们开始吧! 🚀

< > 在GitHub上更新