Groq 现已登陆 Hugging Face 推理服务提供商 🔥

发布于 2025 年 6 月 16 日

在 GitHub 上更新

我们很高兴地宣布，Groq 现已成为 Hugging Face Hub 上受支持的推理服务提供商！Groq 加入了我们不断发展的生态系统，增强了直接在 Hub 模型页面上进行无服务器推理的广度和能力。推理服务提供商也无缝集成到我们的客户端 SDK（支持 JS 和 Python），使您可以非常轻松地通过您首选的提供商使用各种模型。

Groq 支持多种文本和对话模型，包括最新的开源模型，如 Meta 的 Llama 4、Qwen 的 QWQ-32B 等等。

Groq 技术的核心是语言处理单元 (LPU™)，这是一种新型的端到端处理单元系统，可为计算密集型且具有顺序成分的应用（如大型语言模型 LLM）提供最快的推理速度。LPU 旨在克服 GPU 在推理方面的局限性，提供显著更低的延迟和更高的吞吐量。这使它们成为实时 AI 应用的理想选择。

Groq 为开源模型提供快速的 AI 推理。他们提供了一个 API，让开发者可以轻松地将这些模型集成到自己的应用程序中。它提供按需、即用即付的模式来访问广泛的开源 LLM。

您现在可以在 Hugging Face 上将 Groq 的推理 API 作为推理服务提供商使用。我们非常期待看到您将用这个新的提供商构建出什么样的应用。

请在其专门的文档页面中阅读更多关于如何使用 Groq 作为推理服务提供商的信息。

在此处查看支持的模型列表。

工作原理

在网站 UI 中

在您的用户帐户设置中，您可以

为您已注册的提供商设置您自己的 API 密钥。如果未设置自定义密钥，您的请求将通过 HF 路由。
按偏好顺序排列提供商。这适用于模型页面中的小组件和代码片段。

如前所述，调用推理服务提供商有两种模式

自定义密钥（调用直接发送到推理服务提供商，使用您自己的相应提供商的 API 密钥）
通过 HF 路由（在这种情况下，您不需要提供商的令牌，费用将直接计入您的 HF 帐户，而不是提供商的帐户）

模型页面会展示第三方推理服务提供商（与当前模型兼容的，并按用户偏好排序）

从客户端 SDK

从 Python，使用 huggingface_hub

以下示例展示了如何使用 Groq 作为推理服务提供商来调用 Meta 的 Llama 4。您可以使用 Hugging Face 令牌通过 Hugging Face 自动路由，或者如果您有自己的 Groq API 密钥，也可以使用它。

从源码安装 huggingface_hub（请参阅安装说明）。官方支持将在 v0.33.0 版本中很快发布。

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="groq",
    api_key=os.environ["HF_TOKEN"],
)

messages = [
    {
        "role": "user",
        "content": "What is the capital of France?"
    }
]

completion = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=messages,
)

print(completion.choices[0].message)

从 JS，使用 @huggingface/inference

import { InferenceClient } from "@huggingface/inference";

const client = new InferenceClient(process.env.HF_TOKEN);

const chatCompletion = await client.chatCompletion({
  model: "meta-llama/Llama-4-Scout-17B-16E-Instruct",
  messages: [
    {
      role: "user",
      content: "What is the capital of France?",
    },
  ],
  provider: "groq",
});

console.log(chatCompletion.choices[0].message);