为 Hugging Face 用户带来无服务器 GPU 推理

发布于 2024 年 4 月 2 日

在 GitHub 上更新

访客

访客

更新（2024 年 11 月）：此集成不再可用。请切换到 Hugging Face 推理 API、推理端点或其他部署选项来满足您的 AI 模型需求。

今天，我们很高兴地宣布在 Hugging Face Hub 上推出一项新集成：**在 Cloudflare Workers AI 上部署**。在 Cloudflare Workers AI 上部署使得将开放模型作为无服务器 API 使用变得简单，它由部署在 Cloudflare 边缘数据中心的最先进 GPU 提供支持。从今天开始，我们将 Hugging Face 上一些最流行的开放模型集成到 Cloudflare Workers AI 中，这些模型由我们的生产解决方案（如文本生成推理）提供支持。

通过在 Cloudflare Workers AI 上部署，开发者可以构建强大的生成式 AI 应用程序，而无需管理 GPU 基础设施和服务器，并且运营成本非常低：只需为您使用的计算付费，而不是为闲置容量付费。

面向开发者的生成式 AI

这项新体验扩展了我们去年宣布的战略合作，旨在简化开放生成式 AI 模型的访问和部署。开发者和组织面临的主要问题之一是 GPU 稀缺性以及部署服务器以开始构建的固定成本。在 Cloudflare Workers AI 上部署为这些挑战提供了一个简单、低成本的解决方案，通过按请求付费的定价模型，提供对流行的 Hugging Face 模型的无服务器访问。

让我们看一个具体的例子。假设您开发了一个 RAG 应用程序，每天处理约 1000 个请求，使用 Meta Llama 2 7B，输入 1k 令牌，输出 100 令牌。LLM 推理的生产成本每天约为 1 美元。

Cloudflare 首席技术官 John Graham-Cumming 表示：“我们很高兴能如此迅速地将这项集成变为现实。将 Cloudflare 全球无服务器 GPU 网络的强大能力与 Hugging Face 上最流行的开源模型结合起来，将为我们社区在全球范围内的许多激动人心的创新打开大门。”

工作原理

在 Cloudflare Workers AI 上使用 Hugging Face 模型非常简单。下面，您将找到关于如何使用 Nous Research 最新模型 Hermes 2 Pro on Mistral 7B 的分步说明。

您可以在此Cloudflare Collection中找到所有可用的模型。

注意：您需要访问Cloudflare 账户和API 令牌。

您可以在所有可用模型页面上找到“在 Cloudflare 上部署”选项，包括 Llama、Gemma 或 Mistral 等模型。

打开“部署”菜单，选择“Cloudflare Workers AI”——这将打开一个界面，其中包含如何使用此模型并发送请求的说明。

注意：如果您想要使用的模型没有“Cloudflare Workers AI”选项，则表示目前不支持该模型。我们正在与 Cloudflare 合作，以扩展模型的可用性。您可以通过 api-enterprise@huggingface.co 联系我们提出您的请求。

该集成目前可以通过两种方式使用：使用 Workers AI REST API 或直接在 Workers 中使用 Cloudflare AI SDK。选择您喜欢的方式并将代码复制到您的环境中。使用 REST API 时，您需要确保定义了 ACCOUNT_ID 和 API_TOKEN 变量。

就是这样！现在您可以开始向托管在 Cloudflare Workers AI 上的 Hugging Face 模型发送请求了。请确保使用模型所需的正确提示和模板。

我们才刚刚开始

我们很高兴能与 Cloudflare 合作，让开发者更容易使用 AI。我们将与 Cloudflare 团队合作，为您提供更多模型和体验！

更多博客文章

Hugging Face 与 Cloudflare 合作，通过 FastRTC 实现无缝的实时语音和视频

作者： 2025 年 4 月 9 日 • 28

在 Intel Gaudi 上使用 TGI 加速 LLM 推理

作者： 2025 年 3 月 28 日 • 14

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录评论