推理终端节点(专用)文档

自动缩放

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

自动缩放

自动缩放允许您根据流量和加速器利用率动态调整运行模型的终端节点副本数量。通过利用自动缩放,您可以无缝处理各种工作负载,同时优化成本并确保高可用性。

缩放标准

自动缩放过程基于加速器的利用率指标触发。缩放的标准根据所用加速器的类型而有所不同

  • CPU 加速器:当所有副本的平均 CPU 利用率达到 80% 时,将添加一个新的副本。

  • GPU 加速器:当所有副本在 1 分钟窗口内的平均 GPU 利用率达到 80% 时,将添加一个新的副本。

重要的是要注意,横向扩展过程每分钟进行一次,而横向缩减过程每 2 分钟进行一次。此频率确保了自动缩放系统的响应性和稳定性之间的平衡,并在横向缩减后稳定 300 秒。

基于待处理请求的缩放(beta 功能)

您可以更改缩放标准,使其基于待处理请求而不是利用率指标。这目前是一项实验性功能,我们建议在用于生产工作负载之前进行测试。

  • 待处理请求是指尚未收到 HTTP 状态码的请求,这意味着它们包括正在处理中的请求和当前正在处理的请求。
  • 默认情况下,如果在过去 20 秒内每个副本的待处理请求超过 1.5 个,则会触发自动缩放事件,并向您的部署添加一个副本。
    • 您可以在“终端节点设置”下调整此阈值以满足您的特定要求。

有效自动缩放的注意事项

虽然自动缩放提供了便捷的资源管理,但应牢记某些注意事项以确保其有效性

  • 模型初始化时间:在初始化新副本期间,模型会被下载并加载到内存中。如果您的副本初始化时间较长,则自动缩放可能不会那么有效。这是因为在此期间平均 GPU 利用率可能会降至阈值以下,从而触发终端节点的自动缩减。

  • 企业计划控制:如果您有企业计划,您可以完全控制自动缩放定义。这使您可以根据您的特定要求自定义缩放阈值、行为和标准。

缩放至 0

推理终端节点还支持自动缩放至 0,这意味着在没有传入流量时将副本数量减少至 0。此功能基于请求模式而不是加速器利用率。当终端节点在超过 15 分钟内保持空闲状态且未收到任何请求时,系统会自动将终端节点缩减至 0 个副本。要启用此功能,请转到“设置”页面,您会找到一个名为“自动缩放至零”的部分。

缩放至 0 个副本有助于通过最大限度地减少非活动期间的资源使用来优化成本节省。但是,重要的是要注意,缩放至 0 意味着当终端节点收到新请求时会出现冷启动期。此外,在新的副本初始化期间,HTTP 服务器将响应状态代码 502 Bad Gateway。请注意,目前没有针对传入请求的排队系统。因此,我们建议您开发自己的客户端请求队列,并进行适当的错误处理,以优化吞吐量和延迟。

冷启动期的持续时间因模型大小而异。建议在启用缩放至 0 并管理用户期望时,考虑潜在的延迟影响。

< > 在 GitHub 上更新