Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

无服务器推理 API

请参阅 无服务器推理 API 文档 以获取详细信息。

您使用什么技术为无服务器推理 API 提供支持?

对于 🤗 Transformers 模型,管道 为 API 提供支持。

Pipelines 之上,并根据模型类型,还有一些生产优化,例如

  • 将模型编译为优化的中间表示(例如 ONNX),
  • 维护最近最少使用缓存,确保始终加载最流行的模型,
  • 根据负载限制动态扩展底层计算基础设施。

对于来自 其他库 的模型,API 使用 Starlette 并在 Docker 容器 中运行。每个库都定义了 不同管道 的实现。

如何关闭模型的无服务器推理 API?

在模型卡的元数据中指定 inference: false

为什么我看不到推理小部件,或者为什么我无法使用 API?

对于某些任务,无服务器推理 API 可能不支持,因此没有小部件。对于所有库(除了 🤗 Transformers),API 中都有一个 library-to-tasks.ts 文件,其中包含 API 中支持的任务。当模型存储库具有存储库库不支持的任务时,存储库默认情况下具有 inference: false

我可以发送大量请求吗?我可以获得加速的 API 吗?

如果您有兴趣获得加速推理、更大数量的请求或 SLA,请通过 api-enterprise at huggingface.co 与我们联系。

如何查看我的使用情况?

您可以在 推理仪表板 中查看您的使用情况。该仪表板显示了您的无服务器和专用端点的使用情况。

无服务器推理 API 是否有编程访问权限?

是的,huggingface_hub 库有一个客户端包装器,此处有相关文档。

< > 在 GitHub 上更新