Optimum 文档

量化

您正在查看的是需要从源码安装. 如果您想通过常规 pip 安装,请查看最新的稳定版本 (v1.27.0)。
Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

量化

Intel® Gaudi® 提供了多种加速推理的可能性。有关推理的 FP8 和 UINT4 示例,请参阅 文本生成 示例。

本指南提供了使用 Intel® Neural Compressor (INC) 包在 Intel® Gaudi® AI 加速器上启用 FP8 和 UINT4 精度的所需步骤。

使用 FP8 运行推理

在大型语言模型 (LLM) 上运行推理时,高内存使用通常是瓶颈。因此,对大型语言模型使用 FP8 数据类型进行推理,可将所需的内存带宽减半。此外,FP8 计算速度是 BF16 计算的两倍,因此即使是计算密集型工作负载,例如大型批量离线推理也能从中受益。

参考 使用 FP8 运行推理 部分,位于 Intel® Gaudi® AI 加速器文档

使用 UINT4 运行推理

在大型语言模型 (LLM) 上运行推理时,高内存使用通常是瓶颈。因此,与使用 FP8 运行推理相比,对大型语言模型使用 UINT4 数据类型进行推理可将所需的内存带宽减半。

参考 使用 UINT4 运行推理 部分,位于 Intel® Gaudi® AI 加速器文档

< > 在 GitHub 上更新