Transformers

SpQR

SpQR 量化算法采用 16x16 瓦片式双层组 3 位量化结构，并带有稀疏离群值。

要使用 SpQR 量化模型，请参考 Vahe1994/SpQR 存储库。

使用 from_pretrained() 加载 SpQR 量化模型。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

quantized_model = AutoModelForCausalLM.from_pretrained(
    "elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf",
    torch_dtype=torch.half,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf")

< > 在 GitHub 上更新