Optimum 文档

什么是英特尔® Gaudi® 1、英特尔® Gaudi® 2 和 HPU?

您正在查看 main 版本,需要从源代码安装. 如果你想使用常规的 pip 安装,请查看最新的稳定版本 (v1.23.1).
Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

什么是英特尔® Gaudi® 1、英特尔® Gaudi® 2 和 HPU?

英特尔 Gaudi 1英特尔 Gaudi 2 是由 Habana Labs 和英特尔设计的首代和第二代 AI 硬件加速器。单个服务器包含 8 个名为 Habana 处理单元 (HPU) 的设备,Gaudi2 上每个设备具有 96GB 的内存,而第一代 Gaudi 上每个设备具有 32GB 的内存。查看 此处 以了解有关底层硬件架构的更多信息。

Habana SDK 被称为 SynapseAI,适用于第一代 Gaudi 和 Gaudi2。因此,🤗 Optimum Habana 与两代加速器完全兼容。

执行模式

HPU 上支持两种 PyTorch 的执行模式,PyTorch 是 🤗 Transformers 和 🤗 Diffusers 库所依赖的主要深度学习框架

  • 急切模式执行,其中框架根据 标准 PyTorch 急切模式 中定义的执行每个操作。
  • 延迟模式执行,其中操作在内部累积到图中。累积图中操作的执行以延迟方式触发,仅当用户需要张量值时或当脚本中明确要求时触发。 SynapseAI 图表编译器 将优化累积在图表中的操作执行(例如,运算符融合、数据布局管理、并行化、流水线和内存管理、图表级优化)。

查看 此处 如何在 Intel Gaudi 的 Optimum 中使用这些执行模式。

分布式训练

第一代 Gaudi 和 Gaudi2 非常适合分布式训练

  • 纵向扩展到一台服务器上的 8 个设备。查看 此处 如何在一台节点上执行分布式训练。
  • 横向扩展到多台服务器上的数千个设备。查看 此处 如何执行多节点训练。

推理

HPU 也可以用于执行推理

  • 通过非常适合延迟敏感应用程序的 HPU 图表。查看 此处 如何使用它们。
  • 在延迟模式下,可以像训练一样使用它。
< > 更新 在 GitHub 上