使用 Panda-Gym 🤖 进行机器人仿真的优势 Actor Critic (A2C)

既然您已经学习了优势 Actor Critic (A2C) 背后的理论，您现在可以使用 Stable-Baselines3 在机器人环境中训练您的 A2C 智能体了。并训练一个

机械臂 🦾 移动到正确的位置。

我们将使用

panda-gym

为了验证此认证过程的实践操作，您需要将您训练的两个模型推送到 Hub 并获得以下结果

PandaReachDense-v3 获得 >= -3.5 的结果。

要查找您的结果，请转到排行榜并找到您的模型，结果 = 平均奖励 - 奖励标准差

有关认证过程的更多信息，请查看此部分 👉 https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process

要开始实践操作，请单击“在 Colab 中打开”按钮 👇

单元 6：使用 Panda-Gym 🤖 进行机器人仿真的优势 Actor Critic (A2C)

🎮 环境：

Panda-Gym

📚 RL 库：

Stable-Baselines3

我们一直在努力改进我们的教程，所以如果您在本笔记本中发现任何问题，请在 GitHub 仓库上打开一个 issue。

本笔记本的目标 🏆

在本笔记本结束时，您将

能够使用 Panda-Gym，环境库。
能够使用 A2C 训练机器人。
理解为什么我们需要归一化输入。
能够将您训练的智能体和代码推送到 Hub，并附带精美的视频回放和评估分数 🔥。

先决条件 🏗️

在深入笔记本之前，您需要

🔲 📚 学习阅读单元 6 了解 Actor-Critic 方法 🤗

让我们训练我们的第一个机器人 🤖

设置 GPU 💪

为了加速智能体的训练，我们将使用 GPU。为此，请转到 运行时 > 更改运行时类型

硬件加速器 > GPU

创建虚拟显示器 🔽

在本笔记本中，我们需要生成一个回放视频。为此，使用 colab，我们需要有一个虚拟屏幕才能渲染环境（从而记录帧）。

以下单元格将安装库并创建和运行虚拟屏幕 🖥

%%capture
!apt install python-opengl
!apt install ffmpeg
!apt install xvfb
!pip3 install pyvirtualdisplay

# Virtual display
from pyvirtualdisplay import Display

virtual_display = Display(visible=0, size=(1400, 900))
virtual_display.start()

安装依赖项 🔽

我们将安装多个依赖项

gymnasium
panda-gym：包含机械臂环境。
stable-baselines3：SB3 深度强化学习库。
huggingface_sb3：Stable-baselines3 的附加代码，用于从 Hugging Face 🤗 Hub 加载和上传模型。
huggingface_hub：允许任何人使用 Hub 存储库的库。

!pip install stable-baselines3[extra]
!pip install gymnasium
!pip install huggingface_sb3
!pip install huggingface_hub
!pip install panda_gym

导入包 📦

import os

import gymnasium as gym
import panda_gym

from huggingface_sb3 import load_from_hub, package_to_hub

from stable_baselines3 import A2C
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize
from stable_baselines3.common.env_util import make_vec_env

from huggingface_hub import notebook_login

PandaReachDense-v3 🦾

我们将要训练的智能体是一个机械臂，它需要进行控制（移动手臂和使用末端执行器）。

在机器人技术中，末端执行器是机械臂末端的设备，旨在与环境互动。

在 PandaReach 中，机器人必须将其末端执行器放置在目标位置（绿球）。

我们将使用此环境的密集版本。这意味着我们将获得一个密集奖励函数，它将在每个时间步提供奖励（智能体越接近完成任务，奖励越高）。与稀疏奖励函数相反，如果且仅当任务完成时，环境才会返回奖励。

此外，我们将使用末端执行器位移控制，这意味着动作对应于末端执行器的位移。我们不控制每个关节的单独运动（关节控制）。

这样训练会更容易。

创建环境

环境 🎮

在 PandaReachDense-v3 中，机械臂必须将其末端执行器放置在目标位置（绿球）。

env_id = "PandaReachDense-v3"

# Create the env
env = gym.make(env_id)

# Get the state space and action space
s_size = env.observation_space.shape
a_size = env.action_space

print("_____OBSERVATION SPACE_____ \n")
print("The State Space is: ", s_size)
print("Sample observation", env.observation_space.sample()) # Get a random observation

观察空间是一个包含 3 个不同元素的字典

achieved_goal：目标的 (x,y,z) 位置。
desired_goal：目标位置与当前对象位置之间的 (x,y,z) 距离。
observation：末端执行器的位置 (x,y,z) 和速度 (vx, vy, vz)。

鉴于它是一个字典作为观察，我们将需要使用 MultiInputPolicy 策略而不是 MlpPolicy。

print("\n _____ACTION SPACE_____ \n")
print("The Action Space is: ", a_size)
print("Action Space Sample", env.action_space.sample()) # Take a random action

动作空间是一个包含 3 个值的向量

控制 x、y、z 运动

归一化观察和奖励

强化学习中的一个良好实践是归一化输入特征。

为此，有一个包装器可以计算输入特征的运行平均值和标准差。

我们还通过添加 norm_reward = True，使用相同的包装器来归一化奖励

您应该查看文档以填写此单元格

env = make_vec_env(env_id, n_envs=4)

# Adding this wrapper to normalize the observation and the reward
env = # TODO: Add the wrapper

解决方案

env = make_vec_env(env_id, n_envs=4)

env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)

创建 A2C 模型 🤖

有关使用 StableBaselines3 实现 A2C 的更多信息，请查看：https://stable-baselines3.readthedocs.io/en/master/modules/a2c.html#notes

为了找到最佳参数，我查看了 Stable-Baselines3 团队的官方训练智能体。

model = # Create the A2C model and try to find the best parameters

解决方案

model = A2C(policy = "MultiInputPolicy",
            env = env,
            verbose=1)

训练 A2C 智能体 🏃

让我们训练我们的智能体 1,000,000 个时间步，不要忘记在 Colab 上使用 GPU。大约需要 ~25-40 分钟

model.learn(1_000_000)

# Save the model and  VecNormalize statistics when saving the agent
model.save("a2c-PandaReachDense-v3")
env.save("vec_normalize.pkl")

评估智能体 📈

现在我们的智能体已经训练完成，我们需要检查其性能。
Stable-Baselines3 提供了一种方法来做到这一点：evaluate_policy

from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize

# Load the saved statistics
eval_env = DummyVecEnv([lambda: gym.make("PandaReachDense-v3")])
eval_env = VecNormalize.load("vec_normalize.pkl", eval_env)

# We need to override the render_mode
eval_env.render_mode = "rgb_array"

#  do not update them at test time
eval_env.training = False
# reward normalization is not needed at test time
eval_env.norm_reward = False

# Load the agent
model = A2C.load("a2c-PandaReachDense-v3")

mean_reward, std_reward = evaluate_policy(model, eval_env)

print(f"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}")

在 Hub 上发布您训练的模型 🔥

既然我们看到在训练后获得了良好的结果，我们可以通过一行代码在 Hub 上发布我们训练的模型。

📚 库文档 👉 https://github.com/huggingface/huggingface_sb3/tree/main#hugging-face—x-stable-baselines3-v20

通过使用 package_to_hub，正如我们在之前的单元中已经提到的，您可以评估、记录回放、生成智能体的模型卡并将其推送到 hub。

这样

您可以展示我们的工作 🔥
您可以可视化您的智能体玩耍 👀
您可以与社区分享其他人可以使用的智能体 💾
您可以访问排行榜 🏆，查看您的智能体与同学相比表现如何 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard

为了能够与社区分享您的模型，还需要遵循三个步骤

1️⃣ （如果尚未完成）创建 HF 帐户 ➡ https://huggingface.co/join

2️⃣ 登录，然后，您需要存储来自 Hugging Face 网站的身份验证令牌。

创建一个新令牌 (https://huggingface.co/settings/tokens) 具有写入角色

复制令牌
运行下面的单元格并粘贴令牌

notebook_login()
!git config --global credential.helper store

如果您不想使用 Google Colab 或 Jupyter Notebook，则需要改用此命令：huggingface-cli login

3️⃣ 现在我们准备好使用 package_to_hub() 函数将我们训练的智能体推送到 🤗 Hub 🔥。对于此环境，运行此单元格可能需要大约 10 分钟

from huggingface_sb3 import package_to_hub

package_to_hub(
    model=model,
    model_name=f"a2c-{env_id}",
    model_architecture="A2C",
    env_id=env_id,
    eval_env=eval_env,
    repo_id=f"ThomasSimonini/a2c-{env_id}", # Change the username
    commit_message="Initial commit",
)

一些额外的挑战 🏆

学习的最佳方法是自己尝试！为什么不尝试 PandaPickAndPlace-v3 呢？

如果您想尝试 panda-gym 的更高级任务，您需要查看使用 TQC 或 SAC 完成的工作（一种更适合机器人任务的样本高效算法）。在真实的机器人技术中，您将使用更高效的样本算法，原因很简单：与模拟相反，如果您过度移动机械臂，则有将其损坏的风险。

PandaPickAndPlace-v1（此模型使用环境的 v1 版本）：https://huggingface.co/sb3/tqc-PandaPickAndPlace-v1

并且不要犹豫在此处查看 panda-gym 文档：https://panda-gym.readthedocs.io/en/latest/usage/train_with_sb3.html

我们为您提供训练另一个智能体的步骤（可选）

定义名为 “PandaPickAndPlace-v3” 的环境
创建一个向量化环境
添加一个包装器以归一化观察和奖励。查看文档
创建 A2C 模型（不要忘记 verbose=1 以打印训练日志）。
训练 1M 时间步
在保存智能体时保存模型和 VecNormalize 统计信息
评估您的智能体
使用 package_to_hub 在 Hub 🔥 上发布您训练的模型

解决方案（可选）

# 1 - 2
env_id = "PandaPickAndPlace-v3"
env = make_vec_env(env_id, n_envs=4)

# 3
env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)

# 4
model = A2C(policy = "MultiInputPolicy",
            env = env,
            verbose=1)
# 5
model.learn(1_000_000)

# 6
model_name = "a2c-PandaPickAndPlace-v3";
model.save(model_name)
env.save("vec_normalize.pkl")

# 7
from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize

# Load the saved statistics
eval_env = DummyVecEnv([lambda: gym.make("PandaPickAndPlace-v3")])
eval_env = VecNormalize.load("vec_normalize.pkl", eval_env)

#  do not update them at test time
eval_env.training = False
# reward normalization is not needed at test time
eval_env.norm_reward = False

# Load the agent
model = A2C.load(model_name)

mean_reward, std_reward = evaluate_policy(model, eval_env)

print(f"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}")

# 8
package_to_hub(
    model=model,
    model_name=f"a2c-{env_id}",
    model_architecture="A2C",
    env_id=env_id,
    eval_env=eval_env,
    repo_id=f"ThomasSimonini/a2c-{env_id}", # TODO: Change the username
    commit_message="Initial commit",
)

第七单元见！🔥

保持学习，保持出色 🤗

< > 在 GitHub 上更新

深度 RL 课程

使用 Panda-Gym 🤖 进行机器人仿真的优势 Actor Critic (A2C)

单元 6：使用 Panda-Gym 🤖 进行机器人仿真的优势 Actor Critic (A2C)

🎮 环境：

📚 RL 库：

本笔记本的目标 🏆

先决条件 🏗️

让我们训练我们的第一个机器人 🤖

设置 GPU 💪

创建虚拟显示器 🔽

安装依赖项 🔽

导入包 📦

PandaReachDense-v3 🦾

创建环境

环境 🎮

归一化观察和奖励

解决方案

创建 A2C 模型 🤖

解决方案

训练 A2C 智能体 🏃

评估智能体 📈

在 Hub 上发布您训练的模型 🔥

一些额外的挑战 🏆

解决方案（可选）

保持学习，保持出色 🤗