量化

Intel® Gaudi® 提供了几种加速推理的可能性。有关 FP8 和 UINT4 推理的示例，请参阅 text-generation 示例。

本指南提供了在使用 Intel® Neural Compressor (INC) 软件包在您的 Intel® Gaudi® AI 加速器上启用 FP8 和 UINT4 精度所需的步骤。

使用 FP8 运行推理

当在大型语言模型 (LLMs) 上运行推理时，高内存使用率通常是瓶颈。因此，在大型语言模型上使用 FP8 数据类型进行推理可以将所需的内存带宽减半。此外，FP8 计算速度是 BF16 计算速度的两倍，因此即使是计算密集型工作负载，例如大批量离线推理也能从中受益。

参考 Intel® Gaudi® AI 加速器文档中“使用 FP8 运行推理”部分。

当在大型语言模型 (LLMs) 上运行推理时，高内存使用率通常是瓶颈。因此，与在 FP8 中运行推理相比，在大型语言模型上使用 UINT4 数据类型进行推理可以将所需的内存带宽减半。

参考 Intel® Gaudi® AI 加速器文档中“使用 UINT4 运行推理”部分。