Transformers 文档
EETQ
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
EETQ
Easy & Efficient Quantization for Transformers (EETQ) 库支持 NVIDIA GPU 的 int8 仅权重通道量化。它使用来自 FasterTransformer 和 TensorRT-LLM 的高性能 GEMM 和 GEMV 内核。注意力层通过 FlashAttention2 进行了优化。不需要校准数据集,并且模型不需要预先量化。由于逐通道量化,精度下降可以忽略不计。
EETQ 进一步支持使用 PEFT 进行微调。
从发布页面或源代码安装 EETQ。EETQ 需要 CUDA 11.4+。
发布页面
源代码
pip install --no-cache-dir https://github.com/NetEase-FuXi/EETQ/releases/download/v1.0.0/EETQ-1.0.0+cu121+torch2.1.2-cp310-cp310-linux_x86_64.whl
通过在 EetqConfig 中定义量化数据类型,即时量化模型。
from transformers import AutoModelForCausalLM, EetqConfig
quantization_config = EetqConfig("int8")
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-3.1-8B",
torch_dtype="auto",
device_map="auto",
quantization_config=quantization_config
)
使用 save_pretrained() 保存量化模型,以便可以使用 from_pretrained() 再次重用。
quant_path = "/path/to/save/quantized/model"
model.save_pretrained(quant_path)
model = AutoModelForCausalLM.from_pretrained(quant_path, device_map="auto")