Transformers 文档

GGUF

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

GGUF

GGUF 是一种文件格式,用于存储用于 GGML 推理的模型,GGML 是一个用 C 和 C++ 编写的快速轻量级推理框架。GGUF 是一种单文件格式,包含模型元数据和张量。

GGUF 格式还支持多种量化数据类型(请参阅量化类型表以获取支持的量化类型的完整列表),这大大节省了内存,使得像 Whisper 和 Llama 这样的大型模型能够在本地和边缘设备上进行推理。

Transformers 支持加载以 GGUF 格式存储的模型,以进行进一步的训练或微调。GGUF 检查点被反量化为 fp32,其中完整的模型权重可用并与 PyTorch 兼容。

支持 GGUF 的模型包括 Llama、Mistral、Qwen2、Qwen2Moe、Phi3、Bloom、Falcon、StableLM、GPT2、Starcoder2,以及更多

gguf_file 参数添加到 from_pretrained() 以指定要加载的 GGUF 文件。

# pip install gguf
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"

torch_dtype = torch.float32 # could be torch.float16 or torch.bfloat16 too
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename, torch_dtype=torch_dtype)

完成模型调整后,使用 convert-hf-to-gguf.py 脚本将其保存并转换回 GGUF 格式。

tokenizer.save_pretrained("directory")
model.save_pretrained("directory")

!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}
< > 在 GitHub 上更新