Transformers 文档
SpQR
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
SpQR
SpQR 量化算法采用 16x16 瓦片式双层组 3 位量化结构,并带有稀疏离群值。

要使用 SpQR 量化模型,请参考 Vahe1994/SpQR 存储库。
使用 from_pretrained() 加载 SpQR 量化模型。
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
quantized_model = AutoModelForCausalLM.from_pretrained(
"elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf",
torch_dtype=torch.half,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf")