深度强化学习课程文档

Q-学习导论

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

导论什么是强化学习？简短回顾两种基于价值的方法贝尔曼方程，简化我们的价值估计蒙特卡洛与时序差分学习中期回顾中期测验 Q-学习介绍一个 Q-学习示例 Q-学习回顾术语表实操 Q-学习测验结论延伸阅读

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Q-学习导论

Unit 2 thumbnail

在本课程的第一单元中，我们学习了强化学习（RL）、RL 过程以及解决 RL 问题的不同方法。我们还训练了我们的第一个智能体并将它们上传到 Hugging Face Hub。

在本单元中，我们将深入探讨一种强化学习方法：基于价值的方法，并学习我们的第一个 RL 算法：Q-学习。

我们还将从头开始实现我们的第一个 RL 智能体，一个 Q-学习智能体，并将在两个环境中训练它

Frozen-Lake-v1（无滑倒版本）：我们的智能体将需要从起始状态（S）到达目标状态（G），只能在冰冻的瓷砖（F）上行走，并避开洞（H）。
一辆自动驾驶出租车：我们的智能体将需要学习导航城市，以将乘客从 A 点运送到 B 点。

Environments

具体来说，我们将

学习基于价值的方法。
学习蒙特卡洛和时序差分学习之间的区别。
研究并实现我们的第一个 RL 算法：Q-学习。

如果你想在深度 Q-学习上工作，本单元至关重要：深度 Q-学习是第一个玩 Atari 游戏并在其中一些游戏（如打砖块、太空侵略者等）中超越人类水平的深度 RL 算法。

那么，我们开始吧！🚀

< > 在 GitHub 上更新

←直播 1。课程如何运作、问答以及与 Huggy 🐶 玩耍什么是强化学习？简短回顾→