欢迎来到 Hub 上的推理服务提供商 🔥

发布于 2025 年 1 月 28 日
在 GitHub 上更新

今天,我们将在 Hub 的模型页面上直接集成四家出色的无服务器推理提供商——**fal、Replicate、Sambanova、Together AI**。它们还无缝集成到我们的客户端 SDK(适用于 JS 和 Python)中,使得探索您最喜欢的提供商上运行的各种模型的无服务器推理变得前所未有的容易。

Inference Providers

我们长期以来一直在 Hub 上托管无服务器推理 API(我们在 2020 年夏天推出了 v1——哇,时间过得真快🤯)。虽然这使得轻松探索和原型设计成为可能,但我们已将核心价值主张细化为与社区协作、存储、版本控制和分发大型数据集和模型。与此同时,无服务器提供商蓬勃发展,Hugging Face 是时候通过一组出色的提供商提供对无服务器推理的轻松统一访问了。

正如我们与 AWS、Nvidia 等优秀合作伙伴合作,通过模型页面的“部署”按钮提供专用部署选项一样,与下一代无服务器推理提供商合作以实现以模型为中心的无服务器推理是很自然的。

以下是这将实现的功能,以 DeepSeek-ai/DeepSeek-R1 为及时示例,该模型在过去几天内声名鹊起 🔥

SambaNova 联合创始人兼首席执行官 Rodrigo Liang:“我们很高兴与 Hugging Face 合作,以加速其推理 API。Hugging Face 开发者现在可以在各种最佳开源模型上获得更快的推理速度。”

Replicate 创始设计师 Zeke Sikelianos:“Hugging Face 是开源模型权重的实际所在地,并且一直是使 AI 更易于世界访问的关键参与者。我们在 Replicate 内部将 Hugging Face 用作我们首选的权重注册表,我们很荣幸能成为本次发布中首批推理提供商之一。”

这仅仅是个开始,我们将在未来几周内与社区一起在此基础上继续发展!

工作原理

在网站 UI 中

  1. 在您的用户帐户设置中,您可以
  • 为您已注册的提供商设置您自己的 API 密钥。否则,您仍然可以使用它们——您的请求将通过 HF 路由。
  • 按偏好顺序排列提供商。这适用于模型页面中的小部件和代码片段。
Inference Providers
  1. 正如我们提到的,调用推理 API 有两种模式
  • 自定义密钥(使用相应推理提供商的您自己的 API 密钥,直接调用推理提供商);或
  • 通过 HF 路由(在这种情况下,您不需要提供商的令牌,费用将直接计入您的 HF 帐户,而不是提供商的帐户)
Inference Providers
  1. 模型页面会展示第三方推理服务提供商(与当前模型兼容的,并按用户偏好排序)
Inference Providers

从客户端 SDK

从 Python 使用 huggingface_hub

以下示例展示了如何使用 Together AI 作为推理提供商来使用 DeepSeek-R1。您可以使用 Hugging Face 令牌 通过 Hugging Face 进行自动路由,或者如果您有的话,可以使用您自己的 Together AI API 密钥。

安装 `huggingface_hub` v0.28.0 或更高版本(发布说明)。

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="together",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)

messages = [
    {
        "role": "user",
        "content": "What is the capital of France?"
    }
]

completion = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1", 
    messages=messages, 
    max_tokens=500
)

print(completion.choices[0].message)

注意:您也可以使用 OpenAI 客户端库来调用推理提供商;请参阅此处 DeepSeek 模型的示例

以下是如何使用在 fal.ai 上运行的 FLUX.1-dev 从文本提示生成图像:

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="fal-ai",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)

# output is a PIL.Image object
image = client.text_to_image(
    "Labrador in the style of Vermeer",
    model="black-forest-labs/FLUX.1-dev"
)

要切换到不同的提供商,您只需更改提供商名称,其他所有内容都保持不变。

from huggingface_hub import InferenceClient

client = InferenceClient(
-	provider="fal-ai",
+	provider="replicate",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)

从 JS 使用 @huggingface/inference

import { HfInference } from "@huggingface/inference";

const client = new HfInference("xxxxxxxxxxxxxxxxxxxxxxxx");

const chatCompletion = await client.chatCompletion({
    model: "deepseek-ai/DeepSeek-R1",
    messages: [
        {
            role: "user",
            content: "What is the capital of France?"
        }
    ],
    provider: "together",
    max_tokens: 500
});

console.log(chatCompletion.choices[0].message);

来自 HTTP 调用

我们将路由代理直接暴露在 huggingface.co 域名下,因此您可以直接调用它,这对于兼容 OpenAI 的 API 非常有用。您可以将 URL 简单地替换为基本 URL:`https://router.huggingface.co/{:provider}`。

以下是您如何通过 cURL 调用使用 Sambanova 作为推理提供商的 Llama-3.3-70B-Instruct。

curl 'https://router.huggingface.co/sambanova/v1/chat/completions' \
-H 'Authorization: Bearer xxxxxxxxxxxxxxxxxxxxxxxx' \
-H 'Content-Type: application/json' \
--data '{
    "model": "Llama-3.3-70B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": "What is the capital of France?"
        }
    ],
    "max_tokens": 500,
    "stream": false
}'

账单

对于直接请求,即当您使用推理提供商的密钥时,您将由相应的提供商计费。例如,如果您使用 Together AI 密钥,您将在 Together AI 账户上计费。

对于路由请求,即当您通过中心进行身份验证时,您只需支付标准提供商 API 费率。我们不收取额外费用,我们只是直接转嫁提供商成本。(将来,我们可能会与提供商合作伙伴建立收入分成协议。)

重要提示 ‼️ PRO 用户每月可获得价值 2 美元的推理额度。您可以在不同的提供商之间使用这些额度。🔥

订阅 Hugging Face PRO 计划,即可获得推理额度、ZeroGPU、空间开发模式、20 倍更高的限制以及更多功能。

我们还为已登录的免费用户提供带有少量配额的免费推理,但如果可以的话,请升级到 PRO!

反馈与下一步

我们期待您的反馈!您可以使用此中心讨论:https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49

社区

TypeError: InferenceClient.__init__() 收到意外的关键字参数 'provider'

·

尝试更新到最新版本

啊,你教他们然后只赚 2 美元?
给 Mask 打电话🕺

我想创办一家人工智能公司,致力于健康人工智能。谁想参与这个伟大的旅程。

·

从 DeepSeek 中提取 ✅

已删除
此评论已被隐藏

我仍然对定价感到困惑。我想要使用的大多数模型都没有 HF 推理选项,只有 Together AI。查看我的配额,似乎我只有 2 万积分用于 HF 推理。看来我需要为其他推理支付额外费用。如果是这样的话,那么 PRO 对我来说就没有任何意义了。如果是这样的话,我甚至不需要使用 HF。我可以直接使用推理提供商。其中一些可能提供通过 HF 无法获得的折扣或特别优惠。例如,Sambanova 仍然免费。

97ca2b8f-da02-4a50-8368-b5dafdde89e8.jpeg

·

只使用脸部,将其替换到另一个穿着黑色西装的男人的脸部。

那么带有小配额的免费推理到底有多少?

太棒了!!!

让我们添加 https://nineteen.ai/
它拥有最快的推理速度 & 完全免费!

在路由模式下,使用企业令牌我收到“您已超出每月推理端点包含的积分。订阅 PRO 可获得 20 倍的每月配额。”

请将 Groq 模型添加到 Huggingface API。

它能与 LangChain 的 ChatHuggingFace 或 HuggingFaceEndpoint 配合使用吗?

·
文章作者

我其实不知道,但我很想知道!

以前的 pro 提供了 20,000 个请求。现在没有了。真可惜。

计费似乎过多且令人困惑……原以为这个网站能帮我构建我的机器人,但 Replit 似乎效果更好

这是一篇糟糕的文章!(抱歉!)您能更具体地说明一下计费吗?

Hugging Face 团队更新得不错!我们肯定会使用其中一些提供商进行 Automatio.ai 集成。

继续努力!

output-onlinegiftools-ezgif.com-resize.gif

关于 Hub 上的推理提供商的深刻见解!fal、Replicate、Sambanova 和 Together AI 无缝集成到 Hugging Face 的生态系统中,使无服务器推理比以往任何时候都更容易访问。

在研究过程中,我找到了关于 Hugging Face 模型与 RunPod 集成的资源,其中深入探讨了 AI 模型设置、扩散工作流和 ComfyUI 安装:https://mobisoftinfotech.com/resources/blog/flux-on-runpod-using-comfyui

很想听听您对这些新推理提供商在性能和可扩展性方面的比较看法!

很高兴有推理提供商,让人们可以轻松使用模型。我知道其他模型提供商也想与 Hugging Face 合作,为社区提供简单、稳定且经济的服务。他们如何将他们的 API 添加到 Hugging Face?有没有相关的说明?谢谢。

这个新系统对用户(我们/我)来说真的很糟糕。以前有 20 万次 API 请求,现在连 5000 次都不到。已经达到最大使用量了。如果您打算给我们远低于会员费用的信用,我将考虑不购买会员资格,只支付已使用的信用。那样会便宜得多。现在我觉得我支付的费用是所提供服务价值的 4 倍多。

·

希望官方能考虑我们的想法。服务应该越来越好。目前 2 美元的价格实在太小气了。

我认为这是一个糟糕的决定。我支付了 9 美元,却只使用了 2 美元。以前我有 2 万次的每日限额。在这个决定之后,我不会再购买专业版订阅了。

·

希望官方能考虑我们的想法。服务应该越来越好。目前 2 美元的价格实在太小气了。

bug:如果你关闭所有干扰提供商,它会继续计算你需要支付的价格。

"此身份验证方法无权代表用户调用推理提供商"

我是不是用完了配额?

·

我也遇到了同样的问题。您找到解决方案了吗?

我收到令牌 403 意外错误:403 Forbidden:此身份验证方法无权代表用户 XXX 调用推理提供商。

Screenshot 2025-03-24 103849.png

Screenshot 2025-03-24 104202.png

重现代码

from huggingface_hub import InferenceClient
client = InferenceClient()
client.list_deployed_models("text-generation-inference")

对于你们中的许多人来说,这一转变可能看起来没什么大不了的……但实际上,这非常清楚地构成了对先前通过 HF 可获得的准补贴计算量的绝大部分的突然削减。

尽管很少公开宣传为平台的核心功能,但这个昔日随意鼓励的计算储备(即使只能通过特定区域,例如推理端点)多年来一直充当着一种虚幻的肥料,而且是关键的肥料,用于机器学习的采用、实验和资源匮乏的开发——与 Google Colab 和 ChatGPT 等其他准补贴资源不相上下。而且,这种资源的普遍可用性很可能是开源机器学习(无论是实用性、普及度、安全性还是任何其他经常被提及的指标)持续发展/民主化的最重要先决条件,也是强制性催化剂,并在很大程度上推动了机器学习的更广泛普及。

当然,尽管其定性显而易见,但补贴资源的影响可能难以客观地总结或直接量化。毕竟,它们构成了一系列基础设施,其直接生产往往呈现出转瞬即逝、社会化的形式——例如实践、理解或价值观——而且在具体的情况下,往往是非商业性的,例如开放模型、适配器、爱好者贡献、文章、帖子等。从财务和市场的角度来看,此类生产可能被认为只对给定平台的资本化潜力具有切线价值,同时会增加沉重且有时无法预见的波动维护成本。

尽管如此(在机器学习领域,几乎没有比这更好的例子了),公共获取以开放形式持续存在的补贴资源(非交易性、非公开货币化、非严格限制:就像所有公共资源、服务、图书馆、空间一样)同时仍然是整个技术和研究领域经济和社会文化潜力的关键先决条件,同时不断刺激这种潜力最终可能采取的形式范围和多样性。

就在一年前,我还会热切地向我认识的每个人宣扬 Huggingface 的优点:它不仅是人道主义和民主化机器学习范式出现和繁荣的关键基石,而且是新社会形态的真实预示,这种社会形态最终可能超越异化、分离、差异、稀缺、一次性、遗忘、剥削以及所有其他相关的逻辑……这就是我曾经与 Huggingface 联系在一起的。然而,如今:当我想到 Huggingface 时,我的下一个念头就是“2.00 美元”。

我知道要使资源或平台获得补贴,这些补贴必须来自某个地方。而确保可靠的资金来源可能是一个挑战,尤其是在当下。尽管如此,我真的相信,对于 HF 来说,长期依赖来自用户的标准交易/商业货币化,即使是为了弥补实际成本(更不用说从任何人身上榨取或为任何人榨取剩余“价值”),都将是一个严重的错误。为了更好地发挥其在该领域的作用,HF 必须转而更接近于以非营利组织的形式运营,从其他地方获取无条件资金,前提是它可能始终处于“亏损”状态,同时在整个领域的繁荣和活力中发挥关键作用。

是否有关于提供商的信息(详细成本、数据隐私信息),使我能够进行某种优先级排序?HF 允许优先级排序,但没有提供我可以使用这些信息进行优先级排序的信息。

只有 2 美元的积分?我还是省下我的 7 美元,直接用 openrouter 算了哈哈

·
文章作者

除了所有其他专业版功能!

注册登录 发表评论