在 Hugging Face Hub 上使用 Ollama 与任何 GGUF 模型
Ollama 是一个基于 llama.cpp 的应用程序,可通过您的计算机直接与 LLM 交互。您可以使用社区创建的任何 GGUF 量化模型(bartowski、MaziyarPanahi 和 更多)在 Hugging Face 上直接使用 Ollama,无需创建新的 Modelfile
。截至撰写本文时,Hub 上有 45K 个公开的 GGUF 检查点,您可以使用单个 ollama run
命令运行任何一个。我们还提供自定义选项,例如选择量化类型、系统提示等等,以改善您的整体体验。
开始使用非常简单,只需
- 在您的 本地应用程序设置 中启用
ollama
。 - 在模型页面上,从“使用此模型”下拉菜单中选择
ollama
。例如:bartowski/Llama-3.2-1B-Instruct-GGUF。
代码片段将采用以下格式
ollama run hf.co/{username}/{repository}
请注意,您可以使用 hf.co
和 huggingface.co
作为域名。
以下是一些您可以尝试的模型
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF
自定义量化
默认情况下,将使用 Q4_K_M
量化方案(如果该方案存在于模型存储库中)。如果不存在,我们将默认选择存储库中存在的合理量化类型。
要选择其他方案,只需
- 在模型页面的“文件和版本”选项卡中,打开特定 GGUF 文件的 GGUF 查看器。
- 从“使用此模型”下拉菜单中选择
ollama
。
代码片段将采用以下格式(已添加量化标签)
ollama run hf.co/{username}/{repository}:{quantization}
例如
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
# the quantization name is case-insensitive, this will also work
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m
# you can also directly use the full filename as a tag
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf
自定义聊天模板和参数
默认情况下,将从常用模板列表中自动选择一个模板。它将根据存储在 GGUF 文件中的内置 tokenizer.chat_template
元数据进行选择。
如果您的 GGUF 文件没有内置模板,或者您想要自定义聊天模板,您可以在存储库中创建一个名为 template
的新文件。模板必须是 Go 模板,而不是 Jinja 模板。以下是一个示例
{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>
要详细了解 Go 模板格式,请参考 此文档
您可以选择通过将其放入存储库中名为 system
的新文件中来配置系统提示。
要更改采样参数,请在存储库中创建一个名为 params
的文件。该文件必须采用 JSON 格式。有关所有可用参数的列表,请参考 此文档。