Inference Endpoints (专用) 文档

高级设置 (实例类型、自动缩放、版本控制)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

高级设置 (实例类型、自动缩放、版本控制)

我们已经了解了在 创建您的第一个 Endpoint 中部署 Endpoint 是多么快速和容易,但这并不是您可以管理的全部。在创建过程中以及选择您的云提供商和区域后,单击 [高级配置] 按钮以显示 Endpoint 的更多配置选项。

实例类型

🤗 Inference Endpoints 提供精选的 CPU 和 GPU 实例选择。

注意:您的 Hugging Face 帐户附带 CPU 和 GPU 实例的容量配额。要增加您的配额或请求新的实例类型,请与我们联系。

默认值:CPU-medium

copy curl

副本自动缩放

设置您希望 Endpoint 根据利用率自动缩放的副本范围(最小值(>=1)和最大值)。

默认值:最小值 1;最大值 2

任务

选择一个支持的机器学习任务,或设置为自定义自定义可以/应该在您不使用基于 Transformers 的模型或想要自定义推理管道时使用,请参阅创建您自己的 Inference handler

默认值:从模型仓库派生。

框架

对于 Transformers 模型,如果 PyTorch 和 TensorFlow 权重都可用,您可以选择要使用的模型权重。这将有助于减少镜像工件大小并加速端点的启动/缩放。

默认值:如果可用,则为 PyTorch。

修订

创建您的 Endpoint,目标是其源 Hugging Face 模型仓库的特定修订提交。这允许您对 Endpoint 进行版本控制,并确保即使您更新模型仓库,也始终使用相同的权重。

默认值:最新的提交。

镜像

允许您提供要部署到 Endpoint 中的自定义容器镜像。这些可以是公共镜像,例如tensorflow/serving:2.7.3,或托管在 Docker hubAWS ECRAzure ACRGoogle GCR 上的私有镜像。

有关如何“使用您自己的自定义容器”的更多信息,请参见下文。

< > 在 GitHub 上更新