Q学习简介
![Unit 2 thumbnail](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/thumbnail.jpg)
在本课程的第一个单元中,我们学习了强化学习(RL)、RL过程以及解决RL问题的不同方法。我们还**训练了我们的第一个智能体并将其上传到Hugging Face Hub**。
在本单元中,我们将**深入探讨强化学习方法之一:基于价值的方法**,并学习我们的第一个RL算法:**Q学习**。
我们还将**从头开始实现我们的第一个RL智能体**,一个Q学习智能体,并在两个环境中对其进行训练
- Frozen-Lake-v1(非滑行版本):我们的智能体需要**从起始状态(S)到达目标状态(G)**,方法是只在冰冻方块(F)上行走并避开洞穴(H)。
- 自动驾驶出租车:我们的智能体需要**学习在城市中导航**,以**将乘客从A点运送到B点**。
![Environments](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/envs.gif)
具体来说,我们将
- 了解**基于价值的方法**。
- 了解**蒙特卡洛和时序差分学习之间的区别**。
- 学习和实现**我们的第一个RL算法**:Q学习。
如果您希望能够进行深度Q学习,则本单元**至关重要**:第一个玩Atari游戏并在其中一些游戏中击败人类水平的深度RL算法(突破、太空侵略者等)。
所以让我们开始吧! 🚀
< > 在GitHub上更新