为 Hugging Face 用户带来无服务器 GPU 推理

发布于 2024 年 4 月 2 日
在 GitHub 上更新
更新(2024 年 11 月):此集成不再可用。请切换到 Hugging Face 推理 API、推理端点或其他部署选项来满足您的 AI 模型需求。

今天,我们很高兴地宣布在 Hugging Face Hub 上推出一项新集成:**在 Cloudflare Workers AI 上部署**。在 Cloudflare Workers AI 上部署使得将开放模型作为无服务器 API 使用变得简单,它由部署在 Cloudflare 边缘数据中心的最先进 GPU 提供支持。从今天开始,我们将 Hugging Face 上一些最流行的开放模型集成到 Cloudflare Workers AI 中,这些模型由我们的生产解决方案(如 文本生成推理)提供支持。

通过在 Cloudflare Workers AI 上部署,开发者可以构建强大的生成式 AI 应用程序,而无需管理 GPU 基础设施和服务器,并且运营成本非常低:只需为您使用的计算付费,而不是为闲置容量付费。

面向开发者的生成式 AI

这项新体验扩展了我们去年宣布的战略合作,旨在简化开放生成式 AI 模型的访问和部署。开发者和组织面临的主要问题之一是 GPU 稀缺性以及部署服务器以开始构建的固定成本。在 Cloudflare Workers AI 上部署为这些挑战提供了一个简单、低成本的解决方案,通过按请求付费的定价模型,提供对流行的 Hugging Face 模型的无服务器访问。

让我们看一个具体的例子。假设您开发了一个 RAG 应用程序,每天处理约 1000 个请求,使用 Meta Llama 2 7B,输入 1k 令牌,输出 100 令牌。LLM 推理的生产成本每天约为 1 美元。

cloudflare pricing

Cloudflare 首席技术官 John Graham-Cumming 表示:“我们很高兴能如此迅速地将这项集成变为现实。将 Cloudflare 全球无服务器 GPU 网络的强大能力与 Hugging Face 上最流行的开源模型结合起来,将为我们社区在全球范围内的许多激动人心的创新打开大门。”

工作原理

在 Cloudflare Workers AI 上使用 Hugging Face 模型非常简单。下面,您将找到关于如何使用 Nous Research 最新模型 Hermes 2 Pro on Mistral 7B 的分步说明。

您可以在此Cloudflare Collection中找到所有可用的模型。

注意:您需要访问Cloudflare 账户API 令牌

您可以在所有可用模型页面上找到“在 Cloudflare 上部署”选项,包括 Llama、Gemma 或 Mistral 等模型。

model card

打开“部署”菜单,选择“Cloudflare Workers AI”——这将打开一个界面,其中包含如何使用此模型并发送请求的说明。

注意:如果您想要使用的模型没有“Cloudflare Workers AI”选项,则表示目前不支持该模型。我们正在与 Cloudflare 合作,以扩展模型的可用性。您可以通过 api-enterprise@huggingface.co 联系我们提出您的请求。

inference snippet

该集成目前可以通过两种方式使用:使用 Workers AI REST API 或直接在 Workers 中使用 Cloudflare AI SDK。选择您喜欢的方式并将代码复制到您的环境中。使用 REST API 时,您需要确保定义了 ACCOUNT_IDAPI_TOKEN 变量。

就是这样!现在您可以开始向托管在 Cloudflare Workers AI 上的 Hugging Face 模型发送请求了。请确保使用模型所需的正确提示和模板。

我们才刚刚开始

我们很高兴能与 Cloudflare 合作,让开发者更容易使用 AI。我们将与 Cloudflare 团队合作,为您提供更多模型和体验!

社区

注册登录评论