Transformers 文档

GGUF

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

GGUF

GGUF 是一种文件格式,用于存储模型,以便使用 GGML 进行推理。GGML 是一个快速且轻量级的推理框架,用 C 和 C++ 编写。GGUF 是一种单文件格式,包含模型元数据和张量。

GGUF 格式还支持多种量化数据类型(完整支持的量化类型列表请参考量化类型表),这可以节省大量内存,使得在本地和边缘设备上使用像 Whisper 和 Llama 这样的大型模型进行推理成为可能。

Transformers 支持加载以 GGUF 格式存储的模型,以进行进一步的训练或微调。GGUF 检查点被反量化为 fp32,其中完整的模型权重可用并与 PyTorch 兼容。

支持 GGUF 的模型包括 Llama、Mistral、Qwen2、Qwen2Moe、Phi3、Bloom、Falcon、StableLM、GPT2、Starcoder2 以及更多

gguf_file 参数添加到 from_pretrained() 以指定要加载的 GGUF 文件。

# pip install gguf
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"

torch_dtype = torch.float32 # could be torch.float16 or torch.bfloat16 too
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename, torch_dtype=torch_dtype)

一旦你完成对模型的调整,请保存它并使用 convert-hf-to-gguf.py 脚本将其转换回 GGUF 格式。

tokenizer.save_pretrained("directory")
model.save_pretrained("directory")

!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}
< > 在 GitHub 上更新