Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

在 Hugging Face Hub 上使用 Ollama 与任何 GGUF 模型

cover

Ollama 是一个基于 llama.cpp 的应用程序,可通过您的计算机直接与 LLM 交互。您可以使用社区创建的任何 GGUF 量化模型(bartowskiMaziyarPanahi更多)在 Hugging Face 上直接使用 Ollama,无需创建新的 Modelfile。截至撰写本文时,Hub 上有 45K 个公开的 GGUF 检查点,您可以使用单个 ollama run 命令运行任何一个。我们还提供自定义选项,例如选择量化类型、系统提示等等,以改善您的整体体验。

开始使用非常简单,只需

  1. 在您的 本地应用程序设置 中启用 ollama
  2. 在模型页面上,从“使用此模型”下拉菜单中选择 ollama。例如:bartowski/Llama-3.2-1B-Instruct-GGUF

代码片段将采用以下格式

ollama run hf.co/{username}/{repository}

请注意,您可以使用 hf.cohuggingface.co 作为域名。

以下是一些您可以尝试的模型

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF

自定义量化

默认情况下,将使用 Q4_K_M 量化方案(如果该方案存在于模型存储库中)。如果不存在,我们将默认选择存储库中存在的合理量化类型。

要选择其他方案,只需

  1. 在模型页面的“文件和版本”选项卡中,打开特定 GGUF 文件的 GGUF 查看器。
  2. 从“使用此模型”下拉菜单中选择 ollama

代码片段将采用以下格式(已添加量化标签)

ollama run hf.co/{username}/{repository}:{quantization}

例如

ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

# the quantization name is case-insensitive, this will also work
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m

# you can also directly use the full filename as a tag
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf

自定义聊天模板和参数

默认情况下,将从常用模板列表中自动选择一个模板。它将根据存储在 GGUF 文件中的内置 tokenizer.chat_template 元数据进行选择。

如果您的 GGUF 文件没有内置模板,或者您想要自定义聊天模板,您可以在存储库中创建一个名为 template 的新文件。模板必须是 Go 模板,而不是 Jinja 模板。以下是一个示例

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>

要详细了解 Go 模板格式,请参考 此文档

您可以选择通过将其放入存储库中名为 system 的新文件中来配置系统提示。

要更改采样参数,请在存储库中创建一个名为 params 的文件。该文件必须采用 JSON 格式。有关所有可用参数的列表,请参考 此文档

参考资料

< > 在 GitHub 上更新