推理提供商文档

推理提供商

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

推理提供商

Hugging Face 推理提供商通过为多个无服务器推理提供商提供统一、灵活的接口,简化并统一了开发者访问和运行机器学习模型的方式。 这种新方法扩展了我们之前的无服务器推理 API,借助我们的推理合作伙伴,提供了更多模型、更高的性能和更好的可靠性。

要了解有关推理提供商发布的更多信息,请查看我们的发布公告博文

为什么使用推理提供商?

推理提供商提供了一种快速简便的方法来探索数千个模型,以执行各种任务。 无论您是在试验 ML 功能还是构建新的应用程序,此 API 都能让您立即访问跨多个领域的高性能模型

  • 文本生成: 包括大型语言模型和工具调用提示,生成并试验高质量的响应。
  • 图像和视频生成: 轻松创建自定义图像,包括用于您自己风格的 LoRA。
  • 文档嵌入: 使用 SOTA 嵌入构建搜索和检索系统。
  • 经典 AI 任务: 用于文本分类、图像分类、语音识别等的即用型模型。

快速且免费开始使用: 推理提供商提供免费套餐,并为 PRO 用户 以及 企业 Hub 组织 提供额外的赠送额度。

主要特性

  • 🎯 一体化 API: 用于文本生成、图像生成、文档嵌入、NER、摘要、图像分类等的单个 API。
  • 🔀 多提供商支持: 轻松运行来自顶级提供商(如 fal、Replicate、Sambanova、Together AI 等)的模型。
  • 🚀 可扩展且可靠: 专为生产环境中的高可用性和低延迟性能而构建。
  • 🔧 开发者友好: 简单的请求、快速的响应以及跨 Python 和 JavaScript 客户端的一致的开发者体验。
  • 💰 经济高效: 不会对提供商费率收取额外加价。

推理 Playground

要快速开始使用聊天补全模型,请使用推理 Playground轻松测试和比较模型以及您的提示。

开始使用

您可以使用您喜欢的工具(如 Python、JavaScript 或 cURL)来使用推理提供商。 为了简化集成,我们同时提供 Python SDK (huggingface_hub) 和 JavaScript SDK (huggingface.js)。

在本节中,我们将演示一个使用 deepseek-ai/DeepSeek-V3-0324(一个对话式大型语言模型)的简单示例。 在此示例中,我们将使用 Novita AI 作为推理提供商。

身份验证

推理提供商需要在请求标头中传递用户令牌。 您可以通过在 Hugging Face 网站上注册并转到设置页面来生成令牌。 我们建议创建一个范围为“调用推理提供商”的精细化令牌。

有关用户令牌的更多详细信息,请查看本指南

cURL

让我们从一个 cURL 命令开始,该命令突出显示原始 HTTP 请求。 您可以调整此请求以使用您选择的工具运行。

curl https://router.huggingface.co/novita/v3/openai/chat/completions \
    -H "Authorization: Bearer $HF_TOKEN" \
    -H 'Content-Type: application/json' \
    -d '{
        "messages": [
            {
                "role": "user",
                "content": "How many G in huggingface?"
            }
        ],
        "model": "deepseek/deepseek-v3-0324",
        "stream": false
    }'

Python

在 Python 中,您可以使用 requests 库向 API 发送原始请求

import requests

API_URL = "https://router.huggingface.co/novita/v3/openai/chat/completions"
headers = {"Authorization": "Bearer hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"}
payload = {
    "messages": [
        {
            "role": "user",
            "content": "How many 'G's in 'huggingface'?"
        }
    ],
    "model": "deepseek/deepseek-v3-0324",
}

response = requests.post(API_URL, headers=headers, json=payload)
print(response.json()["choices"][0]["message"])

为方便起见,Python 库 huggingface_hub 提供了一个 InferenceClient,它可以为您处理推理。 确保使用 pip install huggingface_hub 安装它。

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="novita",
    api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx",
)

completion = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[
        {
            "role": "user",
            "content": "How many 'G's in 'huggingface'?"
        }
    ],
)

print(completion.choices[0].message)

JavaScript

在 JS 中,您可以使用 fetch 库向 API 发送原始请求

import fetch from "node-fetch";

const response = await fetch(
    "https://router.huggingface.co/novita/v3/openai/chat/completions",
    {
        method: "POST",
        headers: {
            Authorization: `Bearer hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx`,
            "Content-Type": "application/json",
        },
        body: JSON.stringify({
            provider: "novita",
            model: "deepseek-ai/DeepSeek-V3-0324",
            messages: [
                {
                    role: "user",
                    content: "How many 'G's in 'huggingface'?",
                },
            ],
        }),
    }
);
console.log(await response.json());

为方便起见,JS 库 @huggingface/inference 提供了一个 InferenceClient,它可以为您处理推理。 您可以使用 npm install @huggingface/inference 安装它。

import { InferenceClient } from "@huggingface/inference";

const client = new InferenceClient("hf_xxxxxxxxxxxxxxxxxxxxxxxx");

const chatCompletion = await client.chatCompletion({
    provider: "novita",
    model: "deepseek-ai/DeepSeek-V3-0324",
    messages: [
        {
            role: "user",
            content: "How many 'G's in 'huggingface'?",
        },
    ],
});

console.log(chatCompletion.choices[0].message);

下一步

在本简介中,我们介绍了推理提供商的基础知识。 要了解有关此服务的更多信息,请查看我们的指南和 API 参考

< > 在 GitHub 上更新