什么是英特尔® Gaudi® 1、英特尔® Gaudi® 2 和 HPU？

英特尔 Gaudi 1 和英特尔 Gaudi 2 是由 Habana Labs 和英特尔设计的首代和第二代 AI 硬件加速器。单个服务器包含 8 个名为 Habana 处理单元 (HPU) 的设备，Gaudi2 上每个设备具有 96GB 的内存，而第一代 Gaudi 上每个设备具有 32GB 的内存。查看此处以了解有关底层硬件架构的更多信息。

Habana SDK 被称为 SynapseAI，适用于第一代 Gaudi 和 Gaudi2。因此，🤗 Optimum Habana 与两代加速器完全兼容。

执行模式

HPU 上支持两种 PyTorch 的执行模式，PyTorch 是 🤗 Transformers 和 🤗 Diffusers 库所依赖的主要深度学习框架

急切模式执行，其中框架根据标准 PyTorch 急切模式中定义的执行每个操作。
延迟模式执行，其中操作在内部累积到图中。累积图中操作的执行以延迟方式触发，仅当用户需要张量值时或当脚本中明确要求时触发。 SynapseAI 图表编译器将优化累积在图表中的操作执行（例如，运算符融合、数据布局管理、并行化、流水线和内存管理、图表级优化）。

查看此处如何在 Intel Gaudi 的 Optimum 中使用这些执行模式。

分布式训练

第一代 Gaudi 和 Gaudi2 非常适合分布式训练

纵向扩展到一台服务器上的 8 个设备。查看此处如何在一台节点上执行分布式训练。
横向扩展到多台服务器上的数千个设备。查看此处如何执行多节点训练。

推理

HPU 也可以用于执行推理

通过非常适合延迟敏感应用程序的 HPU 图表。查看此处如何使用它们。
在延迟模式下，可以像训练一样使用它。

< > 更新在 GitHub 上