远程推理与本地模型结合

社区文章发布于2025年6月26日

我是 LMStudio、Llama.cpp 或 Jan.ai 中本地模型的忠实拥趸，但我笔记本上运行的模型通常参数不足，无法处理复杂问题。因此，我一直在尝试通过 MCP 和 Inference Providers 将本地模型与更大的推理模型（如 DeepSeek-R1-0528）结合起来。

如果您不熟悉 MCP 或推理提供商，以下是它们的介绍：

推理提供商 (Inference Providers) 是 Hub 上的远程端点，您可以通过第三方推理以低延迟和高规模使用 AI 模型。例如，通过 Groq 以每秒 400 个 token 的速度使用 Qwen QwQ 32B。

模型上下文协议 (Model Context Protocol, MCP) 是 AI 模型使用外部工具的标准协议。通常指数据源、工具或服务等。在本指南中，我们对其进行了修改，以将另一个模型用作“工具”。

简而言之，我们正在与一个小型本地模型进行交互，该模型可以选择将任务交给云中功能更强大的大型模型。这是基本思路：

本地模型处理初始用户输入并决定任务复杂性。
远程模型（通过 MCP）处理复杂的推理并解决问题。
本地模型格式化并提供最终响应，例如以 Markdown 或 LaTeX 格式。

使用推理提供商 MCP

首先，如果您想直接开始，请使用我构建的推理提供商 MCP。我创建了这个 MCP 服务器，它封装了 Hugging Face 上的开源模型。

1. 设置 Hugging Face MCP 服务器

首先，您需要添加 Hugging Face 的主 MCP 服务器。这将使您的 MCP 客户端能够访问您在 MCP 设置中定义的所有 MCP 服务器，以及访问搜索 Hub 上的模型和数据集等通用工具。

要在 Hugging Face 上使用 MCP 工具，您需要将 MCP 服务器添加到您的本地工具中。

{
  "servers": {
    "hf-mcp-server": {
      "url": "https://huggingface.co/mcp",
      "headers": {
        "Authorization": "Bearer <YOUR_HF_TOKEN>"
      }
    }
  }
}

2. 连接到推理提供商 MCP

一旦您设置了 Hugging Face MCP 服务器，您就可以将推理提供商 MCP 添加到您在 Hub 上保存的工具中。您可以通过空间页面执行此操作。

然后系统会要求您确认，该空间的工具将通过 Hugging Face MCP 对您的 MCP 客户端可用。

如果您想用自己的账户使用我的推理提供商 MCP 空间，您需要复制它并添加您的 HF_TOKEN 密钥。

或者，您可以将 MCP 客户端直接连接到推理提供商 MCP 空间。您可以像这样操作：

{
  "mcpServers": {
    "inference-providers-mcp": {
      "url": "https://burtenshaw-inference-providers-mcp.hf.space/gradio_api/mcp/sse"
    }
  }
}

这种方法的缺点是，LLM 无法在 Hub 上搜索模型并将其用于推理。因此，您需要手动验证模型以及它们适用于哪些推理提供商。所以，我强烈建议使用 Hugging Face MCP 服务器。

3. 用困难的推理问题提示本地模型

完成上述操作后，您就可以提示本地模型使用远程模型了。例如，我尝试了以下操作：

Search for a deepseek r1 model on hugging face and use it to solve this problem via inference providers and groq:
"Two quantum states with energies E1 and E2 have a lifetime of 10^-9 sec and 10^-8 sec, respectively. We want to clearly distinguish these two energy levels. Which one of the following options could be their energy difference so that they be clearly resolved?

10^-4 eV 10^-11 eV 10^-8 eV 10^-9 eV"

主要限制是，某些本地模型需要直接提示才能使用正确的 MCP 工具，并且参数需要声明而不是推断，但这将取决于本地模型的性能。值得尝试不同的设置。我在上面的提示中使用了 Jan Nano。

下一步

如果您尝试此方法，请告诉我。以下是一些在此基础上进行构建的想法：

改进工具描述，以便本地模型更好地理解何时使用远程模型。
使用远程模型的系统提示，将其聚焦于特定用例。
试验多种远程模型以执行不同任务。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论

远程推理与本地模型结合

使用 推理提供商 MCP

1. 设置 Hugging Face MCP 服务器

2. 连接到推理提供商 MCP

3. 用困难的推理问题提示本地模型

下一步

社区

使用推理提供商 MCP