text-generation-inference 文档
量化
并获得增强的文档体验
开始使用
量化
TGI 提供了多种量化方案,可根据您的用例高效快速地运行 LLM。TGI 支持 GPTQ、AWQ、bits-and-bytes、EETQ、Marlin、EXL2 和 fp8 量化。
要利用 GPTQ、AWQ、Marlin 和 EXL2 量化,您必须提供预量化的权重。而对于 bits-and-bytes、EETQ 和 fp8,权重由 TGI 动态量化。
我们建议使用官方量化脚本来创建您的量化模型。
对于动态量化,您只需传递一种受支持的量化类型,TGI 会处理其余部分。
使用 bitsandbytes、EETQ 和 fp8 进行量化
bitsandbytes 是一个用于对模型应用 8 位和 4 位量化的库。与 GPTQ 量化不同,bitsandbytes 不需要校准数据集或任何后处理——权重在加载时会自动量化。然而,使用 bitsandbytes 的推理速度比 GPTQ 或 FP16 精度慢。
8 位量化使数十亿参数规模的模型能够适应较小的硬件,而不会过多降低性能。在 TGI 中,您可以通过添加 --quantize bitsandbytes
来使用 8 位量化,如下所示 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:3.3.4 --model-id $model --quantize bitsandbytes
使用 bitsandbytes 也可以进行 4 位量化。您可以选择以下 4 位数据类型之一:4 位浮点数 (fp4
) 或 4 位 NormalFloat
(nf4
)。这些数据类型是在参数高效微调的背景下引入的,但您可以通过在加载时自动转换模型权重来将它们应用于推理。
在 TGI 中,您可以通过添加 --quantize bitsandbytes-nf4
或 --quantize bitsandbytes-fp4
来使用 4 位量化,如下所示 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:3.3.4 --model-id $model --quantize bitsandbytes-nf4
您可以通过阅读这篇博文获取有关 8 位量化的更多信息,通过阅读这篇博文获取有关 4 位量化的更多信息。
同样,您可以传递 --quantize eetq
或 --quantize fp8
以分别使用相应的量化方案。
此外,TGI 允许通过传递模型权重和校准数据集直接创建 GPTQ 量化模型。
使用 GPTQ 进行量化
GPTQ 是一种训练后量化方法,用于使模型更小。它通过找到该权重的压缩版本来量化层,从而产生最小均方误差,如下所示 👇
给定一个层权重矩阵为和层输入,找到量化权重:
TGI 允许您运行一个已经过 GPTQ 量化的模型(可在此处查看可用模型 此处),或使用量化脚本量化您选择的模型。您可以通过传递 —quantize 来运行一个量化模型,如下所示 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:3.3.4 --model-id $model --quantize gptq
请注意,TGI 的 GPTQ 实现并未在底层使用 AutoGPTQ。然而,使用 AutoGPTQ 或 Optimum 量化的模型仍然可以由 TGI 提供服务。
要使用校准数据集对给定模型进行 GPTQ 量化,只需运行
text-generation-server quantize tiiuae/falcon-40b /data/falcon-40b-gptq
# Add --upload-to-model-id MYUSERNAME/falcon-40b to push the created model to the hub directly
这将创建一个包含量化文件的新目录,您可以将其用于
text-generation-launcher --model-id /data/falcon-40b-gptq/ --sharded true --num-shard 2 --quantize gptq
您可以通过运行 text-generation-server quantize --help
来了解更多关于量化选项的信息。
如果您希望对 GPTQ 模型做更多操作(例如,在其上训练一个适配器),您可以在此阅读关于 transformers GPTQ 集成的内容。您可以从论文中了解更多关于 GPTQ 的信息。
< > 在 GitHub 上更新