深度强化学习课程文档
Q-Learning 介绍
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Q-Learning 介绍

在本课程的第一个单元中,我们学习了强化学习 (RL)、强化学习过程以及解决强化学习问题的不同方法。我们还训练了我们的第一个智能体,并将它们上传到了 Hugging Face Hub。
在本单元中,我们将深入研究强化学习方法之一:基于价值的方法,并学习我们的第一个强化学习算法:Q-Learning。
我们还将从头开始实现我们的第一个强化学习智能体,一个 Q-Learning 智能体,并将在两个环境中训练它
- Frozen-Lake-v1(非光滑版本):我们的智能体需要通过仅在冰冻的瓷砖 (F) 上行走并避开洞 (H),从起始状态 (S) 到达目标状态 (G)。
- 一辆自动驾驶出租车:我们的智能体需要学习在城市中导航,以将乘客从 A 点运送到 B 点。

具体来说,我们将
- 学习基于价值的方法。
- 了解蒙特卡罗学习和时序差分学习之间的区别。
- 学习并实现我们的第一个强化学习算法:Q-Learning。
如果你想学习深度 Q-Learning,本单元至关重要:深度 Q-Learning 是第一个玩 Atari 游戏并在其中一些游戏(打砖块、太空侵略者等)中击败人类水平的深度强化学习算法。
让我们开始吧!🚀
< > 在 GitHub 上更新