在 Hugging Face 上使用 Stable-Baselines3

stable-baselines3 是 PyTorch 中强化学习算法的可靠实现集合。

探索 Hub 中的 Stable-Baselines3

您可以通过过滤模型页面左侧来查找 Stable-Baselines3 模型。

Hub 上的所有模型都附带了有用的功能

一个自动生成的模型卡片，包含描述、训练配置等信息。
有助于发现的元数据标签。
与其他模型进行比较的评估结果。
一个视频小部件，您可以在其中观看您的智能体执行任务。

安装库

要安装 stable-baselines3 库，您需要安装两个包

stable-baselines3: Stable-Baselines3 库。
huggingface-sb3: 从 Hub 加载和上传 Stable-Baselines3 模型的额外代码。

pip install stable-baselines3
pip install huggingface-sb3

使用现有模型

您可以使用 load_from_hub 函数从 Hub 简单下载模型

checkpoint = load_from_hub(
    repo_id="sb3/demo-hf-CartPole-v1",
    filename="ppo-CartPole-v1.zip",
)

您需要定义两个参数

--repo-id: 您要下载的 Hugging Face 仓库名称。
--filename: 您要下载的文件。

分享您的模型

您可以使用两个不同的函数轻松上传模型

package_to_hub(): 保存模型，评估模型，生成模型卡片，并录制智能体回放视频，然后将完整的仓库推送到 Hub。

package_to_hub(model=model, 
               model_name="ppo-LunarLander-v2",
               model_architecture="PPO",
               env_id=env_id,
               eval_env=eval_env,
               repo_id="ThomasSimonini/ppo-LunarLander-v2",
               commit_message="Test commit")

您需要定义七个参数

--model: 您训练好的模型。
--model_architecture: 您的模型架构名称（DQN、PPO、A2C、SAC…）。
--env_id: 环境名称。
--eval_env: 用于评估智能体的环境。
--repo-id: 您要创建或更新的 Hugging Face 仓库名称。格式为 <您的 huggingface 用户名>/<仓库名称>。
--commit-message.
--filename: 您要推送到 Hub 的文件。

push_to_hub(): 简单地将文件推送到 Hub

push_to_hub(
    repo_id="ThomasSimonini/ppo-LunarLander-v2",
    filename="ppo-LunarLander-v2.zip",
    commit_message="Added LunarLander-v2 model trained with PPO",
)

您需要定义三个参数

--repo-id: 您要创建或更新的 Hugging Face 仓库名称。格式为 <您的 huggingface 用户名>/<仓库名称>。
--filename: 您要推送到 Hub 的文件。
--commit-message.

额外资源

Hugging Face Stable-Baselines3 文档
Stable-Baselines3 文档

< > 在 GitHub 上更新