Hub 文档
推理供应商
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
推理供应商
有关详细信息,请参阅 推理供应商文档。
你们使用什么技术来驱动 HF-Inference API?
对于 🤗 Transformers 模型,Pipelines 驱动 API。
除了 Pipelines
之外,根据模型类型,还有一些生产优化,例如
- 将模型编译为优化的中间表示形式(例如 ONNX),
- 维护最近最少使用缓存,确保始终加载最受欢迎的模型,
- 根据负载约束动态扩展底层计算基础设施。
对于来自 其他库 的模型,API 使用 Starlette 并在 Docker 容器中运行。每个库定义了 不同 pipelines 的实现。
如何为我的模型关闭 HF-Inference API?
在您的模型卡的元数据中指定 inference: false
。
为什么我看不到推理小部件,或者为什么我无法使用 API?
对于某些任务,HF-Inference API 可能不支持,因此没有小部件。对于所有库(🤗 Transformers 除外),API 中有一个 library-to-tasks.ts 文件,其中包含受支持的任务。当模型仓库的任务不受仓库库支持时,默认情况下仓库具有 inference: false
。
我可以发送大量请求吗?我可以获得加速的 API 吗?
如果您对加速推理、更高请求量或 SLA 感兴趣,请通过 api-enterprise at huggingface.co
联系我们。
如何查看我的使用量?
您可以在 推理仪表板 中查看您的使用量。仪表板显示您的无服务器和专用端点使用情况。
是否可以编程访问 HF-Inference API?
是的,huggingface_hub 库有一个客户端包装器,文档 在此处。
< > 在 GitHub 上更新