Hub Python 库文档

搜索中心

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

搜索中心

在本教程中,您将学习如何使用 huggingface_hub 在 Hub 上搜索模型、数据集和空间。

如何列出仓库?

huggingface_hub 库包含一个 HTTP 客户端 HfApi,用于与 Hub 进行交互。除此之外,它还可以列出存储在 Hub 上的模型、数据集和空间。

>>> from huggingface_hub import HfApi
>>> api = HfApi()
>>> models = api.list_models()

list_models() 的输出是 Hub 上存储的模型的迭代器。

类似地,您可以使用 list_datasets() 来列出数据集,使用 list_spaces() 来列出空间。

如何筛选仓库?

列出仓库很棒,但现在您可能想要筛选搜索结果。列表助手有几个属性,例如

  • 过滤器
  • 作者
  • 搜索
  • ...

让我们看一个例子,获取 Hub 上所有执行图像分类、已在 imagenet 数据集上训练并使用 PyTorch 运行的模型。

models = hf_api.list_models(
	task="image-classification",
	library="pytorch",
	trained_dataset="imagenet",
)

在筛选时,您还可以对模型进行排序,并仅获取顶部结果。例如,以下示例获取 Hub 上下载量最多的前 5 个数据集。

>>> list(list_datasets(sort="downloads", direction=-1, limit=5))
[DatasetInfo(
	id='argilla/databricks-dolly-15k-curated-en',
	author='argilla',
	sha='4dcd1dedbe148307a833c931b21ca456a1fc4281',
	last_modified=datetime.datetime(2023, 10, 2, 12, 32, 53, tzinfo=datetime.timezone.utc),
	private=False,
	downloads=8889377,
	(...)

要探索 Hub 上可用的过滤器,请在浏览器中访问 模型数据集 页面,搜索一些参数并查看 URL 中的值。

< > 在 GitHub 上更新