Transformers 文档
GGUF
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
GGUF
GGUF 是一种文件格式,用于存储用于 GGML 推理的模型,GGML 是一个用 C 和 C++ 编写的快速轻量级推理框架。GGUF 是一种单文件格式,包含模型元数据和张量。

GGUF 格式还支持多种量化数据类型(请参阅量化类型表以获取支持的量化类型的完整列表),这大大节省了内存,使得像 Whisper 和 Llama 这样的大型模型能够在本地和边缘设备上进行推理。
Transformers 支持加载以 GGUF 格式存储的模型,以进行进一步的训练或微调。GGUF 检查点被反量化为 fp32,其中完整的模型权重可用并与 PyTorch 兼容。
支持 GGUF 的模型包括 Llama、Mistral、Qwen2、Qwen2Moe、Phi3、Bloom、Falcon、StableLM、GPT2、Starcoder2,以及更多
将 gguf_file
参数添加到 from_pretrained() 以指定要加载的 GGUF 文件。
# pip install gguf
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"
torch_dtype = torch.float32 # could be torch.float16 or torch.bfloat16 too
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename, torch_dtype=torch_dtype)
完成模型调整后,使用 convert-hf-to-gguf.py 脚本将其保存并转换回 GGUF 格式。
tokenizer.save_pretrained("directory")
model.save_pretrained("directory")
!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}