Accelerate 文档

英特尔 Gaudi

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Intel Gaudi

用户可以利用 Intel Gaudi AI 加速器,以显著更快、更具成本效益的方式进行模型训练和推理。Intel Gaudi AI 加速器系列目前包括三代产品:Intel Gaudi 1Intel Gaudi 2Intel Gaudi 3。每台服务器都配备了 8 个设备,称为 Habana 处理单元(HPUs),其中 Gaudi 3 提供 128GB 内存,Gaudi 2 提供 96GB 内存,第一代 Gaudi 提供 32GB 内存。有关底层硬件架构的更多详细信息,请查看 Gaudi 架构概述

开箱即用的工作原理

如果检测到 Intel Gaudi 设备,该功能将默认启用。要禁用它,请在 `accelerate launch` 命令中传递 `--cpu` 标志,或在 `accelerate config` 问卷中回答相应的问题。

你可以直接运行以下脚本在 Intel Gaudi 上进行测试。

accelerate launch /examples/cv_example.py --data_dir images

限制

以下功能不属于 Accelerate 库,需要使用 Optimum for Intel Gaudi

  • `fast_ddp` 通过对梯度应用 all-reduce 来实现 DDP,而不是使用 Torch DDP 包装器。
  • `minimize_memory` 用于 fp8 训练,并允许在前向和后向传播之间将 fp8 权重保留在内存中,从而以额外的 fp8 类型转换为代价减少内存占用。
  • `context_parallel_size` 用于上下文/序列并行(CP/SP),它沿着序列维度对网络输入和激活进行分区,以减少内存占用并提高吞吐量。
< > 在 GitHub 上更新