Transformers 文档

SpQR

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

SpQR

SpQR 量化算法采用 16x16 瓦片双层组 3 比特量化结构,带有稀疏离群值。

要使用 SpQR 量化模型,请参考 Vahe1994/SpQR 仓库。

使用 from_pretrained() 加载 SpQR 量化模型。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

quantized_model = AutoModelForCausalLM.from_pretrained(
    "elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf",
    torch_dtype=torch.half,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("elvircrn/Llama-2-7b-SPQR-3Bit-16x16-red_pajama-hf")
< > 在 GitHub 上更新