将您的库与 Hub 集成

Hugging Face Hub 旨在促进机器学习模型、检查点和工件的共享。这项工作包括将 Hub 集成到社区中的许多出色的第三方库中。其中一些已集成的库包括 spaCy、Sentence Transformers、OpenCLIP 和 timm 等。集成意味着用户可以直接从您的库中下载和上传文件到 Hub。我们希望您能集成您的库，并与我们一起为所有人实现人工智能的民主化。

将 Hub 与您的库集成提供了许多好处，包括：

为您和您的用户提供免费模型托管。
内置文件版本控制——即使是巨型文件——通过 Git-LFS 实现。
社区功能（讨论、拉取请求、点赞）。
所有使用您的库运行的模型的使用指标。

本教程将帮助您将 Hub 集成到您的库中，以便您的用户可以从 Hub 提供的所有功能中受益。

在开始之前，我们建议您创建一个 Hugging Face 帐户，您可以从中管理您的仓库和文件。

如果您在集成方面需要帮助，请随时提出问题，我们将非常乐意为您提供帮助。

实现

实现库与 Hub 的集成通常意味着提供内置方法来从 Hub 加载模型并允许用户将新模型推送到 Hub。本节将介绍如何使用 huggingface_hub 库实现这些功能的基础知识。有关更深入的指导，请查看本指南。

安装

要将您的库与 Hub 集成，您需要将 huggingface_hub 库添加为依赖项。

pip install huggingface_hub

有关 huggingface_hub 安装的更多详细信息，请查看本指南。

在本指南中，我们将重点关注 Python 库。如果您使用 JavaScript 实现了您的库，您可以使用 @huggingface/hub 代替。其余的逻辑（即托管文件、代码示例等）不依赖于代码语言。

npm add @huggingface/hub

用户成功安装 huggingface_hub 库后，需要进行身份验证。最简单的身份验证方法是将令牌保存在机器上。用户可以使用 login() 命令从终端执行此操作：

hf auth login

该命令会告诉他们是否已登录，并提示他们输入令牌。然后，令牌会经过验证并保存在他们的 HF_HOME 目录中（默认为 ~/.cache/huggingface/token）。任何与 Hub 交互的脚本或库在发送请求时都将使用此令牌。

或者，用户可以使用笔记本或脚本中的 login() 进行编程登录：

from huggingface_hub import login
login()

从 Hub 上的公共仓库下载文件时，身份验证是可选的。

从 Hub 下载文件

集成允许用户从 Hub 下载模型并直接从您的库中实例化它。这通常通过提供一个特定于您的库的方法（通常称为 from_pretrained 或 load_from_hf）来实现。要从 Hub 实例化模型，您的库必须：

从 Hub 下载文件。这就是我们现在要讨论的内容。
从这些文件实例化 Python 模型。

使用 hf_hub_download 方法从 Hub 上的仓库下载文件。下载的文件存储在缓存中：~/.cache/huggingface/hub。用户下次使用时无需重新下载文件，这为大型文件节省了大量时间。此外，如果仓库使用新版本的文件进行了更新，huggingface_hub 将自动下载最新版本并将其存储在缓存中。用户无需担心手动更新文件。

例如，从 lysandre/arxiv-nlp 仓库下载 config.json 文件：

>>> from huggingface_hub import hf_hub_download
>>> config_path = hf_hub_download(repo_id="lysandre/arxiv-nlp", filename="config.json")
>>> config_path
'/home/lysandre/.cache/huggingface/hub/models--lysandre--arxiv-nlp/snapshots/894a9adde21d9a3e3843e6d5aeaaf01875c7fade/config.json'

config_path 现在包含已下载文件的路径。文件保证存在且是最新的。

如果您的库需要下载整个仓库，请使用 snapshot_download。它将负责并行下载所有文件。返回值是包含下载文件的目录路径。

>>> from huggingface_hub import snapshot_download
>>> snapshot_download(repo_id="lysandre/arxiv-nlp")
'/home/lysandre/.cache/huggingface/hub/models--lysandre--arxiv-nlp/snapshots/894a9adde21d9a3e3843e6d5aeaaf01875c7fade'

有许多选项可以从特定版本下载文件、过滤要下载的文件、提供自定义缓存目录、下载到本地目录等。有关更多详细信息，请查看下载指南。

上传文件到 Hub

您可能还希望提供一个方法，以便用户可以将自己的模型推送到 Hub。这允许社区构建与您的库兼容的模型生态系统。huggingface_hub 库提供了创建仓库和上传文件的方法：

create_repo 在 Hub 上创建一个仓库。
upload_file 和 upload_folder 将文件上传到 Hub 上的仓库。

create_repo 方法在 Hub 上创建一个仓库。使用 repo_id 参数为您的仓库提供一个名称：

>>> from huggingface_hub import create_repo
>>> create_repo(repo_id="test-model")
'https://huggingface.co/lysandre/test-model'

当您查看您的 Hugging Face 帐户时，您现在应该在您的命名空间下看到一个 test-model 仓库。

upload_file 方法将文件上传到 Hub。此方法需要以下参数：

要上传文件的路径。
仓库中的最终路径。
您希望将文件推送到的仓库。

例如：

>>> from huggingface_hub import upload_file
>>> upload_file(
...    path_or_fileobj="/home/lysandre/dummy-test/README.md", 
...    path_in_repo="README.md", 
...    repo_id="lysandre/test-model"
... )
'https://huggingface.co/lysandre/test-model/blob/main/README.md'

如果您查看您的 Hugging Face 帐户，您应该会在您的仓库中看到该文件。

通常，库会将模型序列化到本地目录，然后一次性将整个文件夹上传到 Hub。这可以使用 upload_folder 完成：

>>> from huggingface_hub import upload_folder
>>> upload_folder(
...     folder_path="/home/lysandre/dummy-test",
...     repo_id="lysandre/test-model",
... )

有关如何上传文件的更多详细信息，请查看上传指南。

模型卡

模型卡是随模型附带的文件，提供有用的信息。在底层，模型卡是带有附加元数据的简单 Markdown 文件。模型卡对于可发现性、可复现性和共享至关重要！您可以在任何模型仓库中找到一个名为 README.md 的模型卡文件。有关如何创建良好模型卡的更多详细信息，请参阅模型卡指南。

如果您的库允许将模型推送到 Hub，建议生成一个带有预填充元数据（通常是 library_name、pipeline_tag 或 tags）和模型训练信息的最小模型卡。这将有助于为所有使用您的库构建的模型提供标准化描述。

注册您的库

做得好！您现在应该有一个能够从 Hub 加载模型并最终推送新模型的库。下一步是确保您的 Hub 上的模型有充分的文档并与平台集成。为此，库可以在 Hub 上注册，这为用户带来了以下好处：

模型页面可以显示一个漂亮的标签（例如 KerasNLP 而不是 keras-nlp）
每个模型页面都会添加指向您的库仓库和文档的链接
可以定义自定义下载计数规则
可以生成代码片段，以显示如何使用您的库加载模型

要注册新库，请按照以下说明在此处打开拉取请求：here

库 ID 应小写并用连字符分隔（例如："adapter-transformers"）。请务必在打开 PR 时保持字母顺序。
使用用户友好的命名设置 repoName 和 prettyLabel（例如：DeepForest）。
将 repoUrl 设置为指向库源代码的链接（通常是 GitHub 仓库）。
（可选）将 docsUrl 设置为指向库文档的链接。如果文档在上述 GitHub 仓库中，则无需重复设置。
将 filter 设置为 false。
（可选）通过设置 countDownload 定义下载计数方式。下载可以通过文件扩展名或文件名进行跟踪。确保不要重复计数。例如，如果加载一个模型需要 3 个文件，则下载计数规则必须只计算其中 1 个文件的下载量。否则，下载计数将被高估。**注意：** 如果库使用默认配置文件之一（config.json、config.yaml、hyperparams.yaml、params.json 和 meta.yaml，请参见此处），则无需手动定义下载计数规则。
（可选）定义 snippets 以告知用户如何快速实例化模型。更多详细信息见下文。

在打开 PR 之前，请确保至少有一个模型在 https://huggingface.co/models?other=my-library-name 上引用。如果没有，相关模型的模型卡元数据必须更新为 library_name: my-library-name（请参阅示例）。如果您不是 Hub 上模型的所有者，请打开 PRs（请参阅示例）。

这里是一个添加 VFIMamba 集成的最小示例。

代码片段

我们建议添加一个代码片段来解释如何在您的下游库中使用模型。

要添加代码片段，您应该更新 model-libraries-snippets.ts 文件，其中包含有关您的模型的说明。例如，Asteroid 集成包含一个简短的代码片段，说明如何加载和使用 Asteroid 模型：

const asteroid = (model: ModelData) =>
`from asteroid.models import BaseModel
  
model = BaseModel.from_pretrained("${model.id}")`;

这样做还会为您的模型添加一个标签，以便用户可以快速识别来自您的库的模型。

一旦您的代码片段添加到 model-libraries-snippets.ts，您就可以在 model-libraries.ts 中引用它，如上所述。

文档化您的库

最后，您可以将您的库添加到 Hub 的文档中。例如，查看添加 SetFit 到文档的 Setfit PR。

< > 在 GitHub 上更新