Accelerate

Intel Gaudi

用户可以利用 Intel Gaudi AI 加速器，以显著更快、更具成本效益的方式进行模型训练和推理。Intel Gaudi AI 加速器系列目前包括三代产品：Intel Gaudi 1、Intel Gaudi 2 和 Intel Gaudi 3。每台服务器都配备了 8 个设备，称为 Habana 处理单元（HPUs），其中 Gaudi 3 提供 128GB 内存，Gaudi 2 提供 96GB 内存，第一代 Gaudi 提供 32GB 内存。有关底层硬件架构的更多详细信息，请查看 Gaudi 架构概述。

开箱即用的工作原理

如果检测到 Intel Gaudi 设备，该功能将默认启用。要禁用它，请在 `accelerate launch` 命令中传递 `--cpu` 标志，或在 `accelerate config` 问卷中回答相应的问题。

你可以直接运行以下脚本在 Intel Gaudi 上进行测试。

accelerate launch /examples/cv_example.py --data_dir images

限制

以下功能不属于 Accelerate 库，需要使用 Optimum for Intel Gaudi

`fast_ddp` 通过对梯度应用 all-reduce 来实现 DDP，而不是使用 Torch DDP 包装器。
`minimize_memory` 用于 fp8 训练，并允许在前向和后向传播之间将 fp8 权重保留在内存中，从而以额外的 fp8 类型转换为代价减少内存占用。
`context_parallel_size` 用于上下文/序列并行（CP/SP），它沿着序列维度对网络输入和激活进行分区，以减少内存占用并提高吞吐量。

< > 在 GitHub 上更新