Hub 文档

在 Hugging Face 上使用 sample-factory

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

在 Hugging Face 上使用 sample-factory

sample-factory 是一个用于高吞吐量异步强化学习的代码库。它与 Hugging Face Hub 集成,可以共享带有评估结果和训练指标的模型。

在 Hub 中探索 sample-factory

您可以通过在模型页面的左侧进行筛选来找到 sample-factory 模型。

Hub 上的所有模型都具有有用的功能

  1. 自动生成的模型卡片,包含描述、训练配置等。
  2. 有助于发现的元数据标签。
  3. 用于与其他模型进行比较的评估结果。
  4. 一个视频小部件,您可以在其中观看您的 agent 的表现。

安装库

要安装 sample-factory 库,您需要安装该软件包

pip install sample-factory

SF 已知可在 Linux 和 MacOS 上运行。目前不支持 Windows。

从 Hub 加载模型

使用 load_from_hub

要从 Hugging Face Hub 下载模型以与 Sample-Factory 一起使用,请使用 load_from_hub 脚本

python -m sample_factory.huggingface.load_from_hub -r <HuggingFace_repo_id> -d <train_dir_path>

命令行参数为

  • -r:要从中下载的 HF 仓库的仓库 ID。仓库 ID 的格式应为 <用户名>/<仓库名称>
  • -d:一个可选参数,用于指定保存实验的目录。默认为 ./train_dir,它会将仓库保存到 ./train_dir/<仓库名称>

直接下载模型仓库

可以使用 git clone 直接下载 Hugging Face 仓库

git clone git@hf.co:<Name of HuggingFace Repo> # example: git clone git@hf.co:bigscience/bloom

将下载的模型与 Sample-Factory 一起使用

下载模型后,您可以使用与您的环境对应的 enjoy 脚本在仓库中运行模型。例如,如果您正在下载 mujoco-ant 模型,则可以使用以下命令运行它

python -m sf_examples.mujoco.enjoy_mujoco --algo=APPO --env=mujoco_ant --experiment=<repo_name> --train_dir=./train_dir

注意,如果您的本地 train_dir 路径与 cfg.json 中的路径不同,您可能需要指定 --train_dir

分享您的模型

使用 push_to_hub

如果您想在不生成评估指标或回放视频的情况下上传,可以使用 push_to_hub 脚本

python -m sample_factory.huggingface.push_to_hub -r <hf_username>/<hf_repo_name> -d <experiment_dir_path>

命令行参数为

  • -r:要在 HF Hub 上保存的 repo_id。这与 enjoy 脚本中的 hf_repository 相同,并且必须采用 <hf_username>/<hf_repo_name> 的形式
  • -d:要上传的实验目录的完整路径

使用 enjoy.py

您可以使用环境的 enjoy 脚本和 --push_to_hub 标志将模型上传到 Hub。使用 enjoy 上传还可以生成评估指标和回放视频。

评估指标是通过在指定环境中运行您的模型若干 episodes,并报告这些运行的平均和标准差奖励来生成的。

其他相关的命令行参数有

  • --hf_repository:要推送到的仓库。必须采用 <username>/<repo_name> 的形式。模型将保存到 https://huggingface.co/<username>/<repo_name>
  • --max_num_episodes:上传前要评估的 episodes 数量。用于生成评估指标。建议使用多个 episodes 以生成准确的平均值和标准差。
  • --max_num_frames:上传前要评估的 frames 数量。是 max_num_episodes 的替代方案
  • --no_render:一个禁用渲染和显示环境步骤的标志。建议设置此标志以加快评估过程。

您还可以保存模型在评估期间的视频,并使用 --save_video 标志上传到 hub

  • --video_frames:视频中要渲染的帧数。默认为 -1,表示渲染整个 episode
  • --video_name:要保存的视频的名称。如果为 None,则将保存到实验目录中的 replay.mp4

例如

python -m sf_examples.mujoco_examples.enjoy_mujoco --algo=APPO --env=mujoco_ant --experiment=<repo_name> --train_dir=./train_dir --max_num_episodes=10 --push_to_hub --hf_username=<username> --hf_repository=<hf_repo_name> --save_video --no_render
< > 更新 在 GitHub 上