Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

推理供应商

有关详细信息,请参阅 推理供应商文档

你们使用什么技术来驱动 HF-Inference API?

对于 🤗 Transformers 模型,Pipelines 驱动 API。

除了 Pipelines 之外,根据模型类型,还有一些生产优化,例如

  • 将模型编译为优化的中间表示形式(例如 ONNX),
  • 维护最近最少使用缓存,确保始终加载最受欢迎的模型,
  • 根据负载约束动态扩展底层计算基础设施。

对于来自 其他库 的模型,API 使用 Starlette 并在 Docker 容器中运行。每个库定义了 不同 pipelines 的实现。

如何为我的模型关闭 HF-Inference API?

在您的模型卡的元数据中指定 inference: false

为什么我看不到推理小部件,或者为什么我无法使用 API?

对于某些任务,HF-Inference API 可能不支持,因此没有小部件。对于所有库(🤗 Transformers 除外),API 中有一个 library-to-tasks.ts 文件,其中包含受支持的任务。当模型仓库的任务不受仓库库支持时,默认情况下仓库具有 inference: false

我可以发送大量请求吗?我可以获得加速的 API 吗?

如果您对加速推理、更高请求量或 SLA 感兴趣,请通过 api-enterprise at huggingface.co 联系我们。

如何查看我的使用量?

您可以在 推理仪表板 中查看您的使用量。仪表板显示您的无服务器和专用端点使用情况。

是否可以编程访问 HF-Inference API?

是的,huggingface_hub 库有一个客户端包装器,文档 在此处

< > 在 GitHub 上更新