推理端点(专用)文档

自动缩放

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

以开始使用

自动缩放

自动缩放使您能够根据流量和加速器利用率动态调整运行模型的端点副本数量。通过利用自动缩放,您可以在优化成本和确保高可用性的同时无缝处理不同的工作负载。

缩放标准

自动缩放过程根据加速器的利用率指标触发。缩放标准因所用加速器类型而异

  • CPU 加速器:当所有副本的平均 CPU 利用率达到 80% 时,将添加一个新副本。

  • GPU 加速器:当所有副本在 2 分钟窗口内的平均 GPU 利用率达到 80% 时,将添加一个新副本。

重要的是要注意,扩展过程每分钟进行一次,而缩减过程需要 2 分钟。此频率确保自动缩放系统在响应能力和稳定性之间取得平衡,缩放后稳定时间为 300 秒。

有效自动缩放的注意事项

虽然自动缩放提供便捷的资源管理,但应牢记某些注意事项以确保其有效性

  • 模型初始化时间:在初始化新副本期间,模型将被下载并加载到内存中。如果您的副本初始化时间很长,自动缩放可能不太有效。这是因为在此期间,平均 GPU 利用率可能低于阈值,从而触发您的端点的自动缩减。

  • 企业计划控制:如果您拥有 企业计划,您可以完全控制自动缩放定义。这使您可以根据您的特定需求自定义缩放阈值、行为和标准。

缩放到 0

推理端点还支持缩放到 0,这意味着当没有传入流量时将副本数量减少到 0。此功能基于请求模式而不是加速器利用率。当端点在 15 分钟内未收到任何请求而处于空闲状态时,系统会自动将端点缩减到 0 个副本。要启用此功能,请转到“设置”页面,您会找到一个名为“自动缩放到零”的部分。

缩放到 0 个副本有助于通过在不活动期间最大限度地减少资源使用来优化成本节省。但是,重要的是要注意,缩放到 0 意味着当端点收到新请求时会出现冷启动期。此外,HTTP 服务器将在新副本初始化时以状态代码 502 Bad Gateway 响应。请注意,目前没有用于传入请求的排队系统。因此,建议您使用适当的错误处理在客户端开发自己的请求队列,以优化吞吐量和延迟。

冷启动期的持续时间因模型的大小而异。建议在启用缩放到 0 并管理用户期望时考虑潜在的延迟影响。

< > 在 GitHub 上更新