高级设置(实例类型、自动缩放、版本控制)
我们已经了解了如何在 创建您的第一个端点 中快速轻松地部署端点,但这并不是您能管理的全部内容。在创建过程中,选择您的云提供商和区域后,单击 [高级配置] 按钮以显示端点的更多配置选项。
实例类型
🤗 推理端点提供精选的 CPU 和 GPU 实例。
注意:您的 Hugging Face 帐户具有 CPU 和 GPU 实例的容量配额。要增加配额或请求新的实例类型,请联系我们。
默认:CPU-medium
副本自动缩放
根据利用率设置您希望端点自动缩放的副本范围(最小值(>=1)和最大值)。
默认:最小值 1;最大值 2
任务
选择一个 支持的机器学习任务,或设置为 自定义。当您不使用基于 Transformers 的模型或希望自定义推理管道时,可以/应该使用 自定义,请参见 创建您自己的推理处理程序。
默认:从模型存储库派生。
框架
对于 Transformers 模型,如果 PyTorch 和 TensorFlow 权重都可用,您可以选择要使用的模型权重。这将有助于减小镜像工件大小并加速端点的启动/缩放。
默认:如果可用,则为 PyTorch。
修订版
创建针对特定修订版提交的源 Hugging Face 模型存储库的端点。这使您可以对端点进行版本控制,并确保即使更新模型存储库,您始终使用相同的权重。
默认:最新的提交。
镜像
允许您提供要部署到端点的自定义容器镜像。这些可以是公共镜像,例如 tensorflow/serving:2.7.3, 或者托管在 Docker hub、AWS ECR、Azure ACR 或 Google GCR 上的私有镜像。
有关如何 “使用您自己的自定义容器” 的更多信息,请参见下文。
< > 更新 在 GitHub 上