Hub 文档
GGUF 在 llama.cpp 中的使用
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
GGUF 在 llama.cpp 中的使用
您现在可以在 Hugging Face 端点上部署任何 llama.cpp 兼容的 GGUF,请在此处阅读更多相关信息。
Llama.cpp 允许您通过提供 Hugging Face 仓库路径和文件名来下载 GGUF 并进行推理。llama.cpp 会下载模型检查点并自动缓存它。缓存位置由 LLAMA_CACHE
环境变量定义;请在此处阅读更多相关信息。
您可以通过 brew(适用于 Mac 和 Linux)安装 llama.cpp,也可以从源代码构建它。还有预构建的二进制文件和 Docker 镜像,您可以在官方文档中查看。
选项 1:使用 brew/winget 安装
brew install llama.cpp
或者,在 Windows 上通过 winget 安装
winget install llama.cpp
选项 2:从源代码构建
步骤 1:从 GitHub 克隆 llama.cpp。
git clone https://github.com/ggerganov/llama.cpp
步骤 2:进入 llama.cpp 文件夹并构建它。您还可以添加特定于硬件的标志(例如:Nvidia GPU 的 -DGGML_CUDA=1
)。
cd llama.cpp
cmake -B build # optionally, add -DGGML_CUDA=ON to activate CUDA
cmake --build build --config Release
注意:对于其他硬件支持(例如:AMD ROCm、Intel SYCL),请参阅llama.cpp 的构建指南
安装后,您可以按如下方式使用 llama-cli
或 llama-server
llama-cli -hf bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
注意:您可以显式添加 -no-cnv
以在原始完成模式(非聊天模式)下运行 CLI。
此外,您可以使用 llama.cpp 服务器直接调用 OpenAI 规范的聊天完成端点
llama-server -hf bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
运行服务器后,您可以简单地按如下方式使用该端点
curl https://:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer no-key" \
-d '{
"messages": [
{
"role": "system",
"content": "You are an AI assistant. Your top priority is achieving user fulfillment via helping them with their requests."
},
{
"role": "user",
"content": "Write a limerick about Python exceptions"
}
]
}'
将 -hf
替换为任何有效的 Hugging Face hub 仓库名称 - 开始吧!🦙