Accelerate 文档
英特尔 Gaudi
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Intel Gaudi
用户可以利用 Intel Gaudi AI 加速器,以显著更快、更具成本效益的方式进行模型训练和推理。Intel Gaudi AI 加速器系列目前包括三代产品:Intel Gaudi 1、Intel Gaudi 2 和 Intel Gaudi 3。每台服务器都配备了 8 个设备,称为 Habana 处理单元(HPUs),其中 Gaudi 3 提供 128GB 内存,Gaudi 2 提供 96GB 内存,第一代 Gaudi 提供 32GB 内存。有关底层硬件架构的更多详细信息,请查看 Gaudi 架构概述。
开箱即用的工作原理
如果检测到 Intel Gaudi 设备,该功能将默认启用。要禁用它,请在 `accelerate launch` 命令中传递 `--cpu` 标志,或在 `accelerate config` 问卷中回答相应的问题。
你可以直接运行以下脚本在 Intel Gaudi 上进行测试。
accelerate launch /examples/cv_example.py --data_dir images
限制
以下功能不属于 Accelerate 库,需要使用 Optimum for Intel Gaudi
- `fast_ddp` 通过对梯度应用 all-reduce 来实现 DDP,而不是使用 Torch DDP 包装器。
- `minimize_memory` 用于 fp8 训练,并允许在前向和后向传播之间将 fp8 权重保留在内存中,从而以额外的 fp8 类型转换为代价减少内存占用。
- `context_parallel_size` 用于上下文/序列并行(CP/SP),它沿着序列维度对网络输入和激活进行分区,以减少内存占用并提高吞吐量。