推理端点(专用)文档

高级设置(实例类型、自动缩放、版本控制)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

高级设置(实例类型、自动缩放、版本控制)

我们已经了解了如何在 创建您的第一个端点 中快速轻松地部署端点,但这并不是您能管理的全部内容。在创建过程中,选择您的云提供商和区域后,单击 [高级配置] 按钮以显示端点的更多配置选项。

实例类型

🤗 推理端点提供精选的 CPU 和 GPU 实例。

注意:您的 Hugging Face 帐户具有 CPU 和 GPU 实例的容量配额。要增加配额或请求新的实例类型,请联系我们。

默认:CPU-medium

copy curl

副本自动缩放

根据利用率设置您希望端点自动缩放的副本范围(最小值(>=1)和最大值)。

默认:最小值 1;最大值 2

任务

选择一个 支持的机器学习任务,或设置为 自定义。当您不使用基于 Transformers 的模型或希望自定义推理管道时,可以/应该使用 自定义,请参见 创建您自己的推理处理程序

默认:从模型存储库派生。

框架

对于 Transformers 模型,如果 PyTorch 和 TensorFlow 权重都可用,您可以选择要使用的模型权重。这将有助于减小镜像工件大小并加速端点的启动/缩放。

默认:如果可用,则为 PyTorch。

修订版

创建针对特定修订版提交的源 Hugging Face 模型存储库的端点。这使您可以对端点进行版本控制,并确保即使更新模型存储库,您始终使用相同的权重。

默认:最新的提交。

镜像

允许您提供要部署到端点的自定义容器镜像。这些可以是公共镜像,例如 tensorflow/serving:2.7.3, 或者托管在 Docker hubAWS ECRAzure ACRGoogle GCR 上的私有镜像。

有关如何 “使用您自己的自定义容器” 的更多信息,请参见下文。

< > 更新 在 GitHub 上