Transformers 文档
GGUF
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
GGUF
GGUF 是一种文件格式,用于存储模型,以便使用 GGML 进行推理。GGML 是一个快速且轻量级的推理框架,用 C 和 C++ 编写。GGUF 是一种单文件格式,包含模型元数据和张量。

GGUF 格式还支持多种量化数据类型(完整支持的量化类型列表请参考量化类型表),这可以节省大量内存,使得在本地和边缘设备上使用像 Whisper 和 Llama 这样的大型模型进行推理成为可能。
Transformers 支持加载以 GGUF 格式存储的模型,以进行进一步的训练或微调。GGUF 检查点被反量化为 fp32,其中完整的模型权重可用并与 PyTorch 兼容。
支持 GGUF 的模型包括 Llama、Mistral、Qwen2、Qwen2Moe、Phi3、Bloom、Falcon、StableLM、GPT2、Starcoder2 以及更多
将 gguf_file
参数添加到 from_pretrained() 以指定要加载的 GGUF 文件。
# pip install gguf
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"
torch_dtype = torch.float32 # could be torch.float16 or torch.bfloat16 too
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename, torch_dtype=torch_dtype)
一旦你完成对模型的调整,请保存它并使用 convert-hf-to-gguf.py 脚本将其转换回 GGUF 格式。
tokenizer.save_pretrained("directory")
model.save_pretrained("directory")
!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}