深度强化学习课程文档
训练你的第一个深度强化学习智能体 🤖
并获得增强的文档体验
开始使用
训练你的第一个深度强化学习智能体 🤖
现在你已经学习了强化学习的基础知识,你已经准备好训练你的第一个智能体并通过 Hub 🔥 分享给社区:一个月球着陆器智能体,它将学习正确降落在月球上 🌕

最后,你将把这个训练好的智能体上传到 Hugging Face Hub 🤗,这是一个免费、开放的平台,人们可以在其中共享机器学习模型、数据集和演示。
通过我们的排行榜,你将能够将你的结果与其他同学进行比较,并交流最佳实践以提高你的智能体得分。谁将赢得第一单元的挑战 🏆?
为了验证本次实践并符合认证流程,你需要将训练好的模型推送到 Hub,并获得 >= 200 的结果。
要查看你的结果,请访问排行榜,找到你的模型,**结果 = 平均奖励 - 奖励标准差**
如果你没有找到你的模型,请滚动到页面底部并点击刷新按钮。
有关认证流程的更多信息,请查看此部分 👉 https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process
你可以在这里查看你的进度 👉 https://huggingface.co/spaces/ThomasSimonini/Check-my-progress-Deep-RL-Course
那么,我们开始吧!🚀
要开始实践,请点击“在 Colab 中打开”按钮 👇
我们强烈**建议学生使用 Google Colab 进行实践练习**,而不是在个人电脑上运行。
使用 Google Colab,**您可以专注于学习和实验,而无需担心环境设置的技术问题。**
单元 1:训练你的第一个深度强化学习智能体 🤖

在本笔记本中,你将训练你的第一个深度强化学习智能体,一个月球着陆器智能体,它将学习正确降落在月球上 🌕。使用Stable-Baselines3,一个深度强化学习库,与社区分享它们,并尝试不同的配置
环境 🎮
使用的库 📚
我们一直在努力改进我们的教程,因此,如果你在此笔记本中发现任何问题,请在 Github Repo 上提交问题。
本笔记本的目标 🏆
在本笔记本结束时,您将:
- 能够使用Gymnasium,环境库。
- 能够使用Stable-Baselines3,深度强化学习库。
- 能够将训练好的智能体以精美视频回放和评估分数的推送到 Hub 🔥。
本笔记本来自深度强化学习课程

在这门免费课程中,你将:
- 📖 **理论与实践**地学习深度强化学习。
- 🧑💻 学习使用著名的深度强化学习库,如 Stable Baselines3、RL Baselines3 Zoo、CleanRL 和 Sample Factory 2.0。
- 🤖 在独特环境中训练智能体
- 🎓 完成 80% 的作业,即可获得结业证书。
以及更多!
查看 📚 课程大纲 👉 https://simoninithomas.github.io/deep-rl-course
别忘了注册课程(我们正在收集你的电子邮件,以便在每个单元发布时向你发送链接并提供有关挑战和更新的信息)。
保持联系和提问的最佳方式是加入我们的 Discord 服务器,与社区和我们交流 👉🏻 https://discord.gg/ydHrjt3WP5
先决条件 🏗️
在深入学习本笔记本之前,您需要:
🔲 📝 阅读单元 0,其中包含所有课程信息并帮助你入门 🤗
🔲 📚 通过阅读单元 1,了解强化学习的基础知识(MC、TD、奖励假设……)。
深度强化学习小结 📚

让我们来回顾一下第一单元所学的内容
强化学习是一种从行动中学习的计算方法。我们通过试错与环境交互,并接收奖励(负面或正面)作为反馈,从而构建一个从环境中学习的智能体。
任何强化学习智能体的目标都是最大化其预期累积奖励(也称为预期回报),因为强化学习基于“奖励假说”,即所有目标都可以描述为预期累积奖励的最大化。
强化学习过程是一个循环,输出状态、动作、奖励和下一个状态的序列。
为了计算预期的累积奖励(预期回报),我们会对奖励进行折现:较早(游戏开始时)发生的奖励更有可能发生,因为它们比长期未来奖励更可预测。
要解决强化学习问题,你需要找到一个最优策略;策略是你的 AI 的“大脑”,它会告诉我们给定一个状态时要采取什么行动。最优策略是能让你采取最大化预期回报的行动。
有两种方法可以找到你的最优策略
通过直接训练你的策略:基于策略的方法。
通过训练一个价值函数,该函数会告诉我们智能体在每个状态下将获得的预期回报,并使用此函数来定义我们的策略:基于价值的方法。
最后,我们讨论了深度强化学习,因为我们引入了深度神经网络来估计要采取的行动(基于策略)或估计状态的价值(基于价值),因此得名“深度”。
让我们训练我们的第一个深度强化学习智能体并将其上传到 Hub 🚀
获得证书 🎓
为了验证本次实践并符合认证流程,你需要将训练好的模型推送到 Hub,并获得 >= 200 的结果。
要查看你的结果,请访问排行榜,找到你的模型,**结果 = 平均奖励 - 奖励标准差**
有关认证流程的更多信息,请查看此部分 👉 https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process
设置 GPU 💪
- 为了加速智能体的训练,我们将使用 GPU。为此,请转到
Runtime > Change Runtime type

硬件加速器 > GPU

安装依赖并创建虚拟屏幕 🔽
第一步是安装依赖项,我们将安装多个依赖项。
gymnasium[box2d]
: 包含 LunarLander-v2 环境 🌛stable-baselines3[extra]
: 深度强化学习库。huggingface_sb3
: Stable-baselines3 的额外代码,用于从 Hugging Face 🤗 Hub 加载和上传模型。
为了方便起见,我们创建了一个脚本来安装所有这些依赖项。
apt install swig cmake
pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit1/requirements-unit1.txt
在笔记本中,我们需要生成一个重播视频。为此,在 Colab 中,**我们需要一个虚拟屏幕才能渲染环境**(从而录制帧)。
因此,以下单元格将安装虚拟屏幕库并创建和运行虚拟屏幕 🖥
sudo apt-get update apt install python3-opengl apt install ffmpeg apt install xvfb pip3 install pyvirtualdisplay
为了确保使用新安装的库,有时需要重启笔记本运行时。下一个单元格将强制运行时崩溃,因此你需要重新连接并从这里开始运行代码。通过这个技巧,我们将能够运行我们的虚拟屏幕。
import os
os.kill(os.getpid(), 9)
# Virtual display
from pyvirtualdisplay import Display
virtual_display = Display(visible=0, size=(1400, 900))
virtual_display.start()
导入包 📦
我们导入的另一个库是 huggingface_hub,能够从 hub 上传和下载训练好的模型。
Hugging Face Hub 🤗 作为一个中心平台,任何人都可以共享和探索模型和数据集。它具有版本控制、度量、可视化和其他功能,可以让你轻松地与他人协作。
你可以在这里查看所有可用的深度强化学习模型👉 https://huggingface.co/models?pipeline_tag=reinforcement-learning&sort=downloads
import gymnasium
from huggingface_sb3 import load_from_hub, package_to_hub
from huggingface_hub import (
notebook_login,
) # To log to our Hugging Face account to be able to upload models to the Hub.
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.monitor import Monitor
了解 Gymnasium 及其工作原理 🤖
🏋 包含我们环境的库叫做 Gymnasium。你将在深度强化学习中大量使用 Gymnasium。
Gymnasium 是 由 Farama Foundation 维护的 Gym 库的新版本。
Gymnasium 库提供两件事
- 一个允许你创建强化学习环境的接口。
- 环境集合(gym-control、atari、box2D……)。
让我们看一个例子,但首先我们回顾一下强化学习循环。

每一步
- 我们的智能体从环境中接收到一个状态(S0)——我们接收到游戏(环境)的第一帧。
- 基于那个状态(S0),智能体采取一个动作(A0)——我们的智能体将向右移动。
- 环境转换到新状态(S1)——新帧。
- 环境给智能体一些奖励(R1)——我们没死(正面奖励 +1)。
使用 Gymnasium
1️⃣ 我们使用 gymnasium.make()
创建环境
2️⃣ 我们使用 observation = env.reset()
将环境重置为初始状态
每一步
3️⃣ 使用我们的模型获取一个动作(在我们的示例中,我们采取一个随机动作)
4️⃣ 使用 env.step(action)
,我们在环境中执行此动作并获得
observation
:新状态 (st+1)reward
:执行动作后获得的奖励terminated
:指示回合是否终止(智能体是否达到终止状态)truncated
:此新版本引入,表示时间限制或智能体是否超出环境边界。info
:一个提供额外信息的字典(取决于环境)。
更多解释请查看 👉 https://gymnasium.org.cn/api/env/#gymnasium.Env.step
如果回合终止
- 我们使用
observation = env.reset()
将环境重置为初始状态
让我们来看一个例子!请务必阅读代码
import gymnasium as gym
# First, we create our environment called LunarLander-v2
env = gym.make("LunarLander-v2")
# Then we reset this environment
observation, info = env.reset()
for _ in range(20):
# Take a random action
action = env.action_space.sample()
print("Action taken:", action)
# Do this action in the environment and get
# next_state, reward, terminated, truncated and info
observation, reward, terminated, truncated, info = env.step(action)
# If the game is terminated (in our case we land, crashed) or truncated (timeout)
if terminated or truncated:
# Reset the environment
print("Environment is reset")
observation, info = env.reset()
env.close()
创建 LunarLander 环境 🌛 并了解其工作原理
环境 🎮
在第一个教程中,我们将训练我们的智能体,一个月球着陆器,使其正确降落在月球上。为此,智能体需要学习调整其速度和位置(水平、垂直和角度)才能正确着陆。
💡 开始使用环境时的一个好习惯是查看其文档
👉 https://gymnasium.org.cn/environments/box2d/lunar_lander/
让我们看看环境长什么样
# We create our environment with gym.make("<name_of_the_environment>")
env = gym.make("LunarLander-v2")
env.reset()
print("_____OBSERVATION SPACE_____ \n")
print("Observation Space Shape", env.observation_space.shape)
print("Sample observation", env.observation_space.sample()) # Get a random observation
我们看到,Observation Space Shape (8,)
表示观测是一个大小为 8 的向量,其中每个值包含有关着陆器的不同信息
- 水平垫坐标 (x)
- 垂直垫坐标 (y)
- 水平速度 (x)
- 垂直速度 (y)
- 角度
- 角速度
- 左腿接触点是否接触地面(布尔值)
- 右腿接触点是否接触地面(布尔值)
print("\n _____ACTION SPACE_____ \n")
print("Action Space Shape", env.action_space.n)
print("Action Space Sample", env.action_space.sample()) # Take a random action
动作空间(智能体可以采取的可能动作集)是离散的,有 4 个可用动作 🎮
- 动作 0:什么都不做,
- 动作 1:启动左侧方向引擎,
- 动作 2:启动主引擎,
- 动作 3:启动右侧方向引擎。
奖励函数(在每个时间步给予奖励的函数)💰
每一步后都会获得奖励。一个回合的总奖励是该回合内所有步骤的奖励之和。
对于每一步,奖励
- 着陆器距离着陆垫越近/越远,奖励增加/减少。
- 着陆器移动越慢/越快,奖励增加/减少。
- 着陆器倾斜度越大(角度不水平),奖励减少。
- 每条腿接触地面,奖励增加 10 分。
- 每个侧引擎点火一帧,奖励减少 0.03 分。
- 主引擎点火一帧,奖励减少 0.3 分。
如果坠毁或安全着陆,该回合将分别获得额外奖励 -100 或 +100 分。
如果得分至少达到 200 分,则认为该回合是一个解决方案。
矢量化环境
- 我们创建了一个包含 16 个环境的矢量化环境(一种将多个独立环境堆叠成一个环境的方法),这样,我们将在训练期间获得更多样化的经验。
# Create the environment
env = make_vec_env("LunarLander-v2", n_envs=16)
创建模型 🤖
我们已经研究了我们的环境并理解了问题:通过控制左、右和主方向引擎,使月球着陆器正确降落在着陆垫上。现在让我们构建我们将用于解决此问题的算法 🚀。
为此,我们将使用我们的第一个深度强化学习库,Stable Baselines3 (SB3)。
SB3 是一套PyTorch 中强化学习算法的可靠实现。
💡 使用新库时的一个好习惯是首先深入研究文档:https://stable-baselines3.readthedocs.io/en/master/,然后尝试一些教程。

为了解决这个问题,我们将使用 SB3 PPO。PPO (即近端策略优化) 是你将在本课程中学习的 SOTA (最先进) 深度强化学习算法之一。
PPO是以下各项的组合
- 基于价值的强化学习方法:学习一个行动价值函数,它会告诉我们给定状态和行动下最宝贵的行动。
- 基于策略的强化学习方法:学习一个策略,它将为我们提供行动的概率分布。
Stable-Baselines3 易于设置
1️⃣ 你创建你的环境(在我们的例子中已完成)
2️⃣ 你定义要使用的模型并实例化该模型 model = PPO("MlpPolicy")
3️⃣ 你使用 model.learn
训练智能体并定义训练时间步数
# Create environment
env = gym.make('LunarLander-v2')
# Instantiate the agent
model = PPO('MlpPolicy', env, verbose=1)
# Train the agent
model.learn(total_timesteps=int(2e5))
# TODO: Define a PPO MlpPolicy architecture
# We use MultiLayerPerceptron (MLPPolicy) because the input is a vector,
# if we had frames as input we would use CnnPolicy
model =
解决方案
# SOLUTION
# We added some parameters to accelerate the training
model = PPO(
policy="MlpPolicy",
env=env,
n_steps=1024,
batch_size=64,
n_epochs=4,
gamma=0.999,
gae_lambda=0.98,
ent_coef=0.01,
verbose=1,
)
训练 PPO 智能体 🏃
- 让我们训练我们的智能体 1,000,000 个时间步,别忘了在 Colab 上使用 GPU。这大约需要 20 分钟,但如果你只是想尝试一下,可以使用更少的时间步。
- 训练期间,喝杯咖啡休息一下吧,这是你应得的 🤗
# TODO: Train it for 1,000,000 timesteps
# TODO: Specify file name for model and save the model to file
model_name = "ppo-LunarLander-v2"
解决方案
# SOLUTION
# Train it for 1,000,000 timesteps
model.learn(total_timesteps=1000000)
# Save the model
model_name = "ppo-LunarLander-v2"
model.save(model_name)
评估智能体 📈
- 请记住将环境包装在 Monitor 中。
- 现在我们的月球着陆器智能体已经训练好了🚀,我们需要检查它的性能。
- Stable-Baselines3 提供了一个方法来做到这一点:
evaluate_policy
。 - 要填写这部分,你需要查看文档
- 下一步,我们将看到如何自动评估并分享你的智能体以在排行榜中竞争,但现在让我们自己来做
💡 评估智能体时,你不应使用训练环境,而应创建一个评估环境。
# TODO: Evaluate the agent
# Create a new environment for evaluation
eval_env =
# Evaluate the model with 10 evaluation episodes and deterministic=True
mean_reward, std_reward =
# Print the results
解决方案
# @title
eval_env = Monitor(gym.make("LunarLander-v2"))
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
- 在我的情况下,训练 100 万步后,我获得了
200.20 +/- 20.80
的平均奖励,这意味着我们的月球着陆器智能体已经准备好登陆月球了 🌛🥳。
在 Hub 上发布我们训练好的模型 🔥
既然我们已经看到训练后取得了良好的结果,我们可以用一行代码将我们训练好的模型发布到 hub 🤗。
📚 库文档 👉 https://github.com/huggingface/huggingface_sb3/tree/main#hugging-face—x-stable-baselines3-v20
这是一个模型卡(包含太空入侵者)的示例
通过使用 package_to_hub
,你将评估、录制回放、生成你的智能体的模型卡并将其推送到 Hub。
通过这种方式
- 你可以展示我们的工作 🔥
- 你可以可视化你的智能体在玩游戏 👀
- 你可以与社区分享一个其他人可以使用的智能体 💾
- 你可以访问排行榜 🏆 查看你的智能体与同学相比表现如何 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard
为了能够与社区分享你的模型,还需要完成三个步骤
1️⃣(如果尚未完成)在 Hugging Face ➡ https://huggingface.co/join 上创建一个帐户
2️⃣ 登录后,你需要从 Hugging Face 网站存储你的身份验证令牌。
- 创建一个新令牌(https://huggingface.co/settings/tokens),并赋予写入权限

- 复制令牌
- 运行下方单元格并粘贴令牌
notebook_login()
!git config --global credential.helper store
如果你不想使用 Google Colab 或 Jupyter Notebook,你需要改用此命令:huggingface-cli login
3️⃣ 我们现在准备使用 package_to_hub()
函数将我们训练好的智能体推送到 🤗 Hub 🔥
让我们填写 package_to_hub
函数
model
:我们训练好的模型。model_name
:我们在model_save
中定义的训练模型的名称model_architecture
:我们使用的模型架构,在我们的例子中是 PPOenv_id
:环境的名称,在我们的例子中是LunarLander-v2
eval_env
:在 eval_env 中定义的评估环境repo_id
:将要创建/更新的 Hugging Face Hub 存储库的名称(repo_id = {username}/{repo_name})
💡 一个好的名称是 {username}/{model_architecture}-{env_id}
commit_message
:提交消息
import gymnasium as gym
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env
from huggingface_sb3 import package_to_hub
## TODO: Define a repo_id
## repo_id is the id of the model repository from the Hugging Face Hub (repo_id = {organization}/{repo_name} for instance ThomasSimonini/ppo-LunarLander-v2
repo_id =
# TODO: Define the name of the environment
env_id =
# Create the evaluation env and set the render_mode="rgb_array"
eval_env = DummyVecEnv([lambda: gym.make(env_id, render_mode="rgb_array")])
# TODO: Define the model architecture we used
model_architecture = ""
## TODO: Define the commit message
commit_message = ""
# method save, evaluate, generate a model card and record a replay video of your agent before pushing the repo to the hub
package_to_hub(model=model, # Our trained model
model_name=model_name, # The name of our trained model
model_architecture=model_architecture, # The model architecture we used: in our case PPO
env_id=env_id, # Name of the environment
eval_env=eval_env, # Evaluation Environment
repo_id=repo_id, # id of the model repository from the Hugging Face Hub (repo_id = {organization}/{repo_name} for instance ThomasSimonini/ppo-LunarLander-v2
commit_message=commit_message)
解决方案
import gymnasium as gym
from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env
from huggingface_sb3 import package_to_hub
# PLACE the variables you've just defined two cells above
# Define the name of the environment
env_id = "LunarLander-v2"
# TODO: Define the model architecture we used
model_architecture = "PPO"
## Define a repo_id
## repo_id is the id of the model repository from the Hugging Face Hub (repo_id = {organization}/{repo_name} for instance ThomasSimonini/ppo-LunarLander-v2
## CHANGE WITH YOUR REPO ID
repo_id = "ThomasSimonini/ppo-LunarLander-v2" # Change with your repo id, you can't push with mine 😄
## Define the commit message
commit_message = "Upload PPO LunarLander-v2 trained agent"
# Create the evaluation env and set the render_mode="rgb_array"
eval_env = DummyVecEnv([lambda: Monitor(gym.make(env_id, render_mode="rgb_array"))])
# PLACE the package_to_hub function you've just filled here
package_to_hub(
model=model, # Our trained model
model_name=model_name, # The name of our trained model
model_architecture=model_architecture, # The model architecture we used: in our case PPO
env_id=env_id, # Name of the environment
eval_env=eval_env, # Evaluation Environment
repo_id=repo_id, # id of the model repository from the Hugging Face Hub (repo_id = {organization}/{repo_name} for instance ThomasSimonini/ppo-LunarLander-v2
commit_message=commit_message,
)
恭喜🥳你刚刚训练并上传了你的第一个深度强化学习智能体。上面的脚本应该显示了一个模型仓库的链接,例如https://huggingface.co/osanseviero/test_sb3。当你访问此链接时,你可以
- 在右侧查看您的代理的视频预览。
- 点击“文件和版本”查看仓库中的所有文件。
- 点击“在 stable-baselines3 中使用”获取显示如何加载模型的代码片段。
- 一个模型卡(
README.md
文件),其中包含模型的描述
在底层,Hub 使用基于 Git 的仓库(如果你不了解 Git,别担心),这意味着你可以在实验并改进智能体时使用新版本更新模型。
使用排行榜 🏆 将你的 LunarLander-v2 的结果与你的同学进行比较 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard
从 Hub 加载已保存的 LunarLander 模型 🤗
感谢 ironbar 的贡献。
从 Hub 加载已保存的模型非常简单。
你可以访问 https://huggingface.co/models?library=stable-baselines3 查看所有 Stable-baselines3 已保存模型的列表。
- 您选择一个并复制其 repo_id

- 然后我们只需要使用 load_from_hub 并提供
- 仓库 ID
- 文件名:仓库中保存的模型及其扩展名 (*.zip)
因为我从 Hub 下载的模型是用 Gym(Gymnasium 的旧版本)训练的,所以我们需要安装 shimmy,这是一个 API 转换工具,它将帮助我们正确运行环境。
Shimmy 文档:https://github.com/Farama-Foundation/Shimmy
!pip install shimmy
from huggingface_sb3 import load_from_hub
repo_id = "Classroom-workshop/assignment2-omar" # The repo_id
filename = "ppo-LunarLander-v2.zip" # The model filename.zip
# When the model was trained on Python 3.8 the pickle protocol is 5
# But Python 3.6, 3.7 use protocol 4
# In order to get compatibility we need to:
# 1. Install pickle5 (we done it at the beginning of the colab)
# 2. Create a custom empty object we pass as parameter to PPO.load()
custom_objects = {
"learning_rate": 0.0,
"lr_schedule": lambda _: 0.0,
"clip_range": lambda _: 0.0,
}
checkpoint = load_from_hub(repo_id, filename)
model = PPO.load(checkpoint, custom_objects=custom_objects, print_system_info=True)
让我们评估这个智能体
# @title
eval_env = Monitor(gym.make("LunarLander-v2"))
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
一些额外挑战 🏆
学习的最佳方式是亲自动手尝试!正如你所看到的,当前的智能体表现不佳。第一个建议是,你可以训练更多的步数。经过 1,000,000 步的训练,我们看到了一些出色的结果!
在排行榜中你会找到你的智能体。你能名列前茅吗?
以下是一些实现方法
- 训练更多步
- 尝试 PPO 的不同超参数。你可以在 https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html#parameters 查看它们。
- 查阅 Stable-Baselines3 文档并尝试使用其他模型,例如 DQN。
- **将您新训练的模型推送到 Hub** 🔥
使用排行榜🏆将你的 LunarLander-v2 的结果与你的同学进行比较
登月对你来说太无聊了吗?尝试改变环境,为什么不使用 MountainCar-v0、CartPole-v1 或 CarRacing-v0 呢?查阅 Gym 文档了解它们的工作原理,尽情玩乐吧 🎉。
恭喜你完成这一章!这是最大的一章,信息量很大。
如果你仍然对所有这些元素感到困惑……这完全正常!我和所有学习强化学习的人都经历过同样的情况。
花时间真正掌握这些材料,然后再继续并尝试额外的挑战。掌握这些元素并打下坚实的基础非常重要。
当然,在课程中,我们将深入探讨这些概念,但在进入下一章之前,最好现在就对它们有一个很好的理解。
下次,在奖励单元 1 中,你将训练小狗 Huggy 去捡棍子。
