在 Hugging Face Hub 上将 Ollama 与任何 GGUF 模型结合使用

cover

🆕 您现在也可以从 Hugging Face Hub 运行私有 GGUF 模型。

Ollama 是一个基于 llama.cpp 的应用程序，可以直接通过您的计算机与 LLM 进行交互。您可以直接使用社区创建的任何 GGUF 量化模型（bartowski、MaziyarPanahi 和更多）在 Ollama 中运行，而无需创建新的 Modelfile。截至本文撰写时，Hub 上有 45K 个公共 GGUF 检查点，您可以使用单个 ollama run 命令运行其中任何一个。我们还提供自定义选项，例如选择量化类型、系统提示等，以改善您的整体体验。

入门非常简单，只需

在您的本地应用程序设置中启用 ollama。
在模型页面上，从 使用此模型 下拉菜单中选择 ollama。例如：bartowski/Llama-3.2-1B-Instruct-GGUF。

代码片段将采用以下格式

ollama run hf.co/{username}/{repository}

请注意，您可以使用 hf.co 和 huggingface.co 作为域名。

以下是一些您可以尝试的模型

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF

自定义量化

默认情况下，如果模型存储库中存在 Q4_K_M 量化方案，则使用该方案。如果不存在，我们将默认选择存储库中存在的合理量化类型。

要选择不同的方案，只需

从模型页面的 文件和版本 选项卡中，打开特定 GGUF 文件的 GGUF 查看器。
从 使用此模型 下拉菜单中选择 ollama。

代码片段将采用以下格式（已添加量化标签）

ollama run hf.co/{username}/{repository}:{quantization}

例如：

ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

# the quantization name is case-insensitive, this will also work
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m

# you can also directly use the full filename as a tag
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf

自定义聊天模板和参数

默认情况下，将从常用模板列表中自动选择一个模板。它将根据 GGUF 文件中存储的内置 tokenizer.chat_template 元数据进行选择。

如果您的 GGUF 文件没有内置模板，或者您想自定义聊天模板，您可以在存储库中创建一个名为 template 的新文件。该模板必须是 Go 模板，而不是 Jinja 模板。以下是一个示例

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>

要了解更多关于 Go 模板格式的信息，请参阅此文档

您可以选择通过在存储库中创建一个名为 system 的新文件来配置系统提示。

要更改采样参数，请在存储库中创建一个名为 params 的文件。该文件必须是 JSON 格式。有关所有可用参数的列表，请参阅此文档。

从 Hugging Face Hub 运行私有 GGUF 模型

您可以通过两个简单步骤从您的个人账户或关联组织账户运行私有 GGUF 模型

复制您的 Ollama SSH 密钥，您可以通过以下方式复制：cat ~/.ollama/id_ed25519.pub | pbcopy
通过访问您的账户设置并点击 添加新 SSH 密钥，将相应的密钥添加到您的 Hugging Face 账户中。
就这样！您现在可以从 Hugging Face Hub 运行私有 GGUF 模型：ollama run hf.co/{username}/{repository}。

参考资料

< > 在 GitHub 上更新