EETQ

Easy & Efficient Quantization for Transformers (EETQ) 库支持 NVIDIA GPU 的 int8 仅权重逐通道量化。它使用来自 FasterTransformer 和 TensorRT-LLM 的高性能 GEMM 和 GEMV 核。注意力层使用 FlashAttention2 进行了优化。无需校准数据集，模型也不需要预量化。由于逐通道量化，精度下降可以忽略不计。

EETQ 进一步支持使用 PEFT 进行微调。

从发布页面或源代码安装 EETQ。EETQ 需要 CUDA 11.4+。

发布页面

源代码

通过在 EetqConfig 中定义量化数据类型来动态量化模型。

from transformers import AutoModelForCausalLM, EetqConfig

quantization_config = EetqConfig("int8")
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B",
    torch_dtype="auto",
    device_map="auto",
    quantization_config=quantization_config
)

使用 save_pretrained() 保存量化模型，以便可以使用 from_pretrained() 再次重用。

quant_path = "/path/to/save/quantized/model"
model.save_pretrained(quant_path)
model = AutoModelForCausalLM.from_pretrained(quant_path, device_map="auto")

< > 在 GitHub 上更新