GGUF

GGUF 是一种文件格式，用于存储用于 GGML 推理的模型，GGML 是一个用 C 和 C++ 编写的快速轻量级推理框架。GGUF 是一种单文件格式，包含模型元数据和张量。

GGUF 格式还支持多种量化数据类型（请参阅量化类型表以获取支持的量化类型的完整列表），这大大节省了内存，使得像 Whisper 和 Llama 这样的大型模型能够在本地和边缘设备上进行推理。

Transformers 支持加载以 GGUF 格式存储的模型，以进行进一步的训练或微调。GGUF 检查点被反量化为 fp32，其中完整的模型权重可用并与 PyTorch 兼容。

支持 GGUF 的模型包括 Llama、Mistral、Qwen2、Qwen2Moe、Phi3、Bloom、Falcon、StableLM、GPT2、Starcoder2，以及更多

将 gguf_file 参数添加到 from_pretrained() 以指定要加载的 GGUF 文件。

# pip install gguf
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"

torch_dtype = torch.float32 # could be torch.float16 or torch.bfloat16 too
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename, torch_dtype=torch_dtype)

完成模型调整后，使用 convert-hf-to-gguf.py 脚本将其保存并转换回 GGUF 格式。

tokenizer.save_pretrained("directory")
model.save_pretrained("directory")

!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}

< > 在 GitHub 上更新