无服务器推理 API
请参阅 无服务器推理 API 文档 以获取详细信息。
您使用什么技术为无服务器推理 API 提供支持?
对于 🤗 Transformers 模型,管道 为 API 提供支持。
在 Pipelines
之上,并根据模型类型,还有一些生产优化,例如
- 将模型编译为优化的中间表示(例如 ONNX),
- 维护最近最少使用缓存,确保始终加载最流行的模型,
- 根据负载限制动态扩展底层计算基础设施。
对于来自 其他库 的模型,API 使用 Starlette 并在 Docker 容器 中运行。每个库都定义了 不同管道 的实现。
如何关闭模型的无服务器推理 API?
在模型卡的元数据中指定 inference: false
。
为什么我看不到推理小部件,或者为什么我无法使用 API?
对于某些任务,无服务器推理 API 可能不支持,因此没有小部件。对于所有库(除了 🤗 Transformers),API 中都有一个 library-to-tasks.ts 文件,其中包含 API 中支持的任务。当模型存储库具有存储库库不支持的任务时,存储库默认情况下具有 inference: false
。
我可以发送大量请求吗?我可以获得加速的 API 吗?
如果您有兴趣获得加速推理、更大数量的请求或 SLA,请通过 api-enterprise at huggingface.co
与我们联系。
如何查看我的使用情况?
您可以在 推理仪表板 中查看您的使用情况。该仪表板显示了您的无服务器和专用端点的使用情况。
无服务器推理 API 是否有编程访问权限?
是的,huggingface_hub
库有一个客户端包装器,此处有相关文档。