针对 Intel® Gaudi® AI 加速器优化的 Optimum

针对 Intel Gaudi AI 加速器的 Optimum 是 Hugging Face 库（Transformers、Diffusers、Accelerate 等）与 Intel Gaudi AI 加速器 (HPU) 之间的接口。它提供了一组工具，可以在单 HPU 和多 HPU 设置下轻松加载模型、进行训练和推理，以执行各种下游任务，如下表所示。

教程

学习基础知识，并熟悉如何使用 🤗 Optimum 在 HPU 上训练 transformers 模型。如果您是首次使用 🤗 Optimum for Intel Gaudi，请从这里开始！

操作指南

帮助您实现特定目标的实用指南。查看这些指南，了解如何使用 🤗 Optimum for Intel Gaudi 解决实际问题。

Intel Gaudi AI 加速器系列目前包括三代产品：Intel Gaudi 1、Intel Gaudi 2 和 Intel Gaudi 3。每台服务器配备 8 个设备，称为 Habana 处理单元 (HPU)，Gaudi 3 提供 128GB 内存，Gaudi 2 提供 96GB 内存，第一代 Gaudi 提供 32GB 内存。有关底层硬件架构的更多详细信息，请查看 Gaudi 架构概述。Optimum for Intel Gaudi 库与所有三代 Gaudi 加速器完全兼容。

有关在 Gaudi 上运行工作负载的深入示例，请浏览以下博客文章

以下模型架构、任务和设备分布已针对 Optimum for Intel Gaudi 进行了验证

在下表中，✅ 表示单卡、多卡和 DeepSpeed 均已验证。

Transformers

架构	训练	推理	任务
BERT	✅	✅	文本分类问答语言建模文本特征提取
RoBERTa	✅	✅	问答语言建模
ALBERT	✅	✅	问答语言建模
DistilBERT	✅	✅	问答语言建模
GPT2	✅	✅	语言建模文本生成
BLOOM(Z)		DeepSpeed	文本生成
StarCoder / StarCoder2	✅	单卡	语言建模文本生成
GPT-J	DeepSpeed	单卡 DeepSpeed	语言建模文本生成
GPT-Neo		单卡	文本生成
GPT-NeoX	DeepSpeed	DeepSpeed	语言建模文本生成
OPT		DeepSpeed	文本生成
Llama 2 / CodeLlama / Llama 3 / Llama Guard / Granite	✅	✅	语言建模文本生成问答文本分类 (Llama Guard)
StableLM		单卡	文本生成
Falcon	LoRA	✅	文本生成
CodeGen		单卡	文本生成
MPT		单卡	文本生成
Mistral		单卡	文本生成
Phi	✅	单卡	语言建模文本生成
Mixtral		单卡	文本生成
Gemma	✅	单卡	语言建模文本生成
Gemma2		✅	文本生成
Qwen2	单卡	单卡	语言建模文本生成
Qwen2-MoE		单卡	文本生成
Persimmon		单卡	文本生成
XGLM		单卡	文本生成
Cohere		单卡	文本生成
T5 / Flan T5	✅	✅	摘要翻译问答
BART		单卡	摘要翻译问答
ViT	✅	✅	图像分类
Swin	✅	✅	图像分类
Wav2Vec2	✅	✅	音频分类语音识别
Whisper	✅	✅	语音识别
SpeechT5		单卡	文本转语音
CLIP	✅	✅	对比图像-文本训练
BridgeTower	✅	✅	对比图像-文本训练
ESMFold		单卡	蛋白质折叠
Blip		单卡	视觉问答图像到文本
OWLViT		单卡	零样本对象检测
ClipSeg		单卡	对象分割
Llava / Llava-next		单卡	图像到文本
Paligemma		单卡	图像到文本
idefics2	LoRA	单卡	图像到文本
SAM		单卡	对象分割
VideoMAE		单卡	视频分类
TableTransformer		单卡	表格对象检测
DETR		单卡	对象检测
Mllama	LoRA	✅	图像到文本
Video-LLaVA		单卡	视频理解
MiniCPM3		单卡	文本生成
Baichuan2	DeepSpeed	单卡	语言建模文本生成
DeepSeek-V2	✅	✅	文本生成
DeepSeek-V3		✅	文本生成
ChatGLM	DeepSpeed	单卡	语言建模文本生成
Qwen2-VL		单卡	图像到文本

Diffusers

架构	训练	推理	任务
Stable Diffusion	文本反演 ControlNet	单卡	文本到图像生成
Stable Diffusion XL	微调	单卡	文本到图像生成
Stable Diffusion Depth2img		单卡	深度到图像生成
LDM3D		单卡	文本到图像生成
FLUX.1	微调	单卡	文本到图像生成
文本到视频		单卡	文本到视频生成
i2vgen-xl		单卡	图像到视频生成

PyTorch 图像模型/TIMM

架构	训练	推理	任务
FastViT		单卡	图像分类

架构	训练	任务
Llama 2	✅	DPO Pipeline
Llama 2	✅	PPO Pipeline
Stable Diffusion	✅	DDPO Pipeline

🤗 Transformers 和 🤗 Diffusers 库支持的其他模型和任务也可能适用。您可以参考此部分，了解如何将它们与 🤗 Optimum for Intel Gaudi 结合使用。此外，此页面解释了如何修改 🤗 Transformers 库中的任何示例，使其与 🤗 Optimum for Intel Gaudi 配合使用。

< > 在 GitHub 上更新