Optimum 文档

针对 Intel® Gaudi® AI 加速器优化的 Optimum

您正在查看 main 版本,该版本需要从源代码安装。如果您想要常规 pip 安装,请查看最新的稳定版本(v1.24.0)。
Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

针对 Intel® Gaudi® AI 加速器优化的 Optimum

针对 Intel Gaudi AI 加速器的 Optimum 是 Hugging Face 库(Transformers、Diffusers、Accelerate 等)与 Intel Gaudi AI 加速器 (HPU) 之间的接口。它提供了一组工具,可以在单 HPU 和多 HPU 设置下轻松加载模型、进行训练和推理,以执行各种下游任务,如下表所示。

Intel Gaudi AI 加速器系列目前包括三代产品:Intel Gaudi 1Intel Gaudi 2Intel Gaudi 3。每台服务器配备 8 个设备,称为 Habana 处理单元 (HPU),Gaudi 3 提供 128GB 内存,Gaudi 2 提供 96GB 内存,第一代 Gaudi 提供 32GB 内存。有关底层硬件架构的更多详细信息,请查看 Gaudi 架构概述。Optimum for Intel Gaudi 库与所有三代 Gaudi 加速器完全兼容。

有关在 Gaudi 上运行工作负载的深入示例,请浏览以下博客文章

以下模型架构、任务和设备分布已针对 Optimum for Intel Gaudi 进行了验证

在下表中,✅ 表示单卡、多卡和 DeepSpeed 均已验证。

  • Transformers
架构 训练 推理 任务
BERT
  • 文本分类
  • 问答
  • 语言建模
  • 文本特征提取
  • RoBERTa
  • 问答
  • 语言建模
  • ALBERT
  • 问答
  • 语言建模
  • DistilBERT
  • 问答
  • 语言建模
  • GPT2
  • 语言建模
  • 文本生成
  • BLOOM(Z)
  • DeepSpeed
  • 文本生成
  • StarCoder / StarCoder2
  • 单卡
  • 语言建模
  • 文本生成
  • GPT-J
  • DeepSpeed
  • 单卡
  • DeepSpeed
  • 语言建模
  • 文本生成
  • GPT-Neo
  • 单卡
  • 文本生成
  • GPT-NeoX
  • DeepSpeed
  • DeepSpeed
  • 语言建模
  • 文本生成
  • OPT
  • DeepSpeed
  • 文本生成
  • Llama 2 / CodeLlama / Llama 3 / Llama Guard / Granite
  • 语言建模
  • 文本生成
  • 问答
  • 文本分类 (Llama Guard)
  • StableLM
  • 单卡
  • 文本生成
  • Falcon
  • LoRA
  • 文本生成
  • CodeGen
  • 单卡
  • 文本生成
  • MPT
  • 单卡
  • 文本生成
  • Mistral
  • 单卡
  • 文本生成
  • Phi
  • 单卡
  • 语言建模
  • 文本生成
  • Mixtral
  • 单卡
  • 文本生成
  • Gemma
  • 单卡
  • 语言建模
  • 文本生成
  • Gemma2
  • 文本生成
  • Qwen2
  • 单卡
  • 单卡
  • 语言建模
  • 文本生成
  • Qwen2-MoE
  • 单卡
  • 文本生成
  • Persimmon
  • 单卡
  • 文本生成
  • XGLM
  • 单卡
  • 文本生成
  • Cohere
  • 单卡
  • 文本生成
  • T5 / Flan T5
  • 摘要
  • 翻译
  • 问答
  • BART
  • 单卡
  • 摘要
  • 翻译
  • 问答
  • ViT
  • 图像分类
  • Swin
  • 图像分类
  • Wav2Vec2
  • 音频分类
  • 语音识别
  • Whisper
  • 语音识别
  • SpeechT5
  • 单卡
  • 文本转语音
  • CLIP
  • 对比图像-文本训练
  • BridgeTower
  • 对比图像-文本训练
  • ESMFold
  • 单卡
  • 蛋白质折叠
  • Blip
  • 单卡
  • 视觉问答
  • 图像到文本
  • OWLViT
  • 单卡
  • 零样本对象检测
  • ClipSeg
  • 单卡
  • 对象分割
  • Llava / Llava-next
  • 单卡
  • 图像到文本
  • Paligemma
  • 单卡
  • 图像到文本
  • idefics2
  • LoRA
  • 单卡
  • 图像到文本
  • SAM
  • 单卡
  • 对象分割
  • VideoMAE
  • 单卡
  • 视频分类
  • TableTransformer
  • 单卡
  • 表格对象检测
  • DETR
  • 单卡
  • 对象检测
  • Mllama
  • LoRA
  • 图像到文本
  • Video-LLaVA
  • 单卡
  • 视频理解
  • MiniCPM3
  • 单卡
  • 文本生成
  • Baichuan2
  • DeepSpeed
  • 单卡
  • 语言建模
  • 文本生成
  • DeepSeek-V2
  • 文本生成
  • DeepSeek-V3
  • 文本生成
  • ChatGLM
  • DeepSpeed
  • 单卡
  • 语言建模
  • 文本生成
  • Qwen2-VL
  • 单卡
  • 图像到文本
    • Diffusers
    架构 训练 推理 任务
    Stable Diffusion
  • 文本反演
  • ControlNet
  • 单卡
  • 文本到图像生成
  • Stable Diffusion XL
  • 微调
  • 单卡
  • 文本到图像生成
  • Stable Diffusion Depth2img
  • 单卡
  • 深度到图像生成
  • LDM3D
  • 单卡
  • 文本到图像生成
  • FLUX.1
  • 微调
  • 单卡
  • 文本到图像生成
  • 文本到视频
  • 单卡
  • 文本到视频生成
  • i2vgen-xl
  • 单卡
  • 图像到视频生成
    • PyTorch 图像模型/TIMM
    架构 训练 推理 任务
    FastViT
  • 单卡
  • 图像分类
    • TRL
    架构 训练 推理 任务
    Llama 2
  • DPO Pipeline
  • Llama 2
  • PPO Pipeline
  • Stable Diffusion
  • DDPO Pipeline
  • 🤗 Transformers 和 🤗 Diffusers 库支持的其他模型和任务也可能适用。您可以参考此部分,了解如何将它们与 🤗 Optimum for Intel Gaudi 结合使用。此外,此页面解释了如何修改 🤗 Transformers 库中的任何示例,使其与 🤗 Optimum for Intel Gaudi 配合使用。

    < > 在 GitHub 上更新