高级设置 (实例类型、自动缩放、版本控制)

我们已经了解了在创建您的第一个 Endpoint 中部署 Endpoint 是多么快速和容易，但这并不是您可以管理的全部。在创建过程中以及选择您的云提供商和区域后，单击 [高级配置] 按钮以显示 Endpoint 的更多配置选项。

实例类型

🤗 Inference Endpoints 提供精选的 CPU 和 GPU 实例选择。

注意：您的 Hugging Face 帐户附带 CPU 和 GPU 实例的容量配额。要增加您的配额或请求新的实例类型，请与我们联系。

默认值：CPU-medium

副本自动缩放

设置您希望 Endpoint 根据利用率自动缩放的副本范围（最小值（>=1）和最大值）。

默认值：最小值 1；最大值 2

任务

选择一个支持的机器学习任务，或设置为自定义。自定义可以/应该在您不使用基于 Transformers 的模型或想要自定义推理管道时使用，请参阅创建您自己的 Inference handler。

默认值：从模型仓库派生。

框架

对于 Transformers 模型，如果 PyTorch 和 TensorFlow 权重都可用，您可以选择要使用的模型权重。这将有助于减少镜像工件大小并加速端点的启动/缩放。

默认值：如果可用，则为 PyTorch。

修订

创建您的 Endpoint，目标是其源 Hugging Face 模型仓库的特定修订提交。这允许您对 Endpoint 进行版本控制，并确保即使您更新模型仓库，也始终使用相同的权重。

默认值：最新的提交。

镜像

允许您提供要部署到 Endpoint 中的自定义容器镜像。这些可以是公共镜像，例如tensorflow/serving:2.7.3，或托管在 Docker hub、AWS ECR、Azure ACR 或 Google GCR 上的私有镜像。

有关如何“使用您自己的自定义容器”的更多信息，请参见下文。

Inference Endpoints (专用)