推理端点(专用)文档

自动扩缩容

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

自动扩缩容

自动扩缩容允许您根据流量和加速器利用率动态调整运行模型的端点副本数量。通过利用自动扩缩容,您可以无缝处理不同的工作负载,同时优化成本并确保高可用性。

扩缩容标准

自动扩缩容过程是根据加速器的利用率指标触发的。扩缩容标准因所使用的加速器类型而异

  • CPU 加速器:当所有副本的平均 CPU 利用率达到 80% 时,添加新的副本。

  • GPU 加速器:当所有副本在 1 分钟内的平均 GPU 利用率达到 80% 时,添加新的副本。

需要注意的是,扩容每分钟进行一次,缩容每 2 分钟进行一次。这种频率确保了自动扩缩容系统响应能力和稳定性的平衡,缩容后稳定期为 300 秒。

基于待处理请求的扩缩容(Beta 功能)

您可以将扩缩容标准更改为基于待处理请求而不是利用率指标。这目前是一个实验性功能,我们建议在使用它进行生产工作负载之前进行测试。

  • 待处理请求是指尚未收到 HTTP 状态的请求,这意味着它们包括正在进行的请求和当前正在处理的请求。
  • 默认情况下,如果过去 20 秒内每个副本的待处理请求超过 1.5 个,它将触发自动扩缩容事件并向您的部署添加一个副本。
    • 您可以在端点设置下调整此阈值以满足您的特定要求。

有效自动扩缩容的注意事项

虽然自动扩缩容提供了方便的资源管理,但仍应牢记某些注意事项以确保其有效性

  • 模型初始化时间:在新副本初始化期间,模型会被下载并加载到内存中。如果您的副本具有较长的初始化时间,自动扩缩容可能不会那么有效。这是因为在此期间平均 GPU 利用率可能会低于阈值,从而触发端点的自动缩容。

  • 企业计划控制:如果您有企业计划,您将完全控制自动扩缩容定义。这允许您根据特定要求自定义扩缩容阈值、行为和标准。

缩容到 0

推理端点还支持缩容到 0,这意味着当没有传入流量时,将副本数量减少到 0。此功能基于请求模式而不是加速器利用率。当端点在 15 分钟内没有收到任何请求而保持空闲时,系统会自动将端点缩容到 0 个副本。要启用此功能,请转到“设置”页面,您会找到一个名为“自动缩容到零”的部分。

缩容到 0 个副本有助于通过在不活动期间最小化资源使用来优化成本节约。但是,重要的是要意识到缩容到 0 意味着当端点收到新请求时会有冷启动期。此外,当新副本初始化时,HTTP 服务器将响应状态码 502 Bad Gateway。请注意,目前没有针对传入请求的排队系统。因此,我们建议在客户端开发您自己的请求队列,并进行适当的错误处理,以优化吞吐量和延迟。

冷启动期的持续时间因模型的尺寸而异。建议在启用缩容到 0 和管理用户期望时考虑潜在的延迟影响。

< > 在 GitHub 上更新