Google Cloud TPU 现已对 Hugging Face 用户开放

发布于 2024 年 7 月 9 日
在 GitHub 上更新

Google Cloud TPUs made available to Hugging Face users

我们很高兴分享一些好消息!AI 开发者现在可以在 Hugging Face Inference EndpointsSpaces 上使用 Google Cloud TPU 来加速他们的应用程序了!

对于可能不熟悉的用户,TPU 是 Google 设计的定制 AI 硬件。它们以其经济高效的扩展能力和在各种 AI 工作负载中的卓越性能而闻名。这种硬件在 Google 最新的一些创新中发挥了关键作用,包括 Gemma 2 开放模型的开发。我们很高兴地宣布,TPU 现在可用于 Inference Endpoints 和 Spaces。

这是我们持续合作的一大步,旨在为您提供最佳的 AI 项目工具和资源。我们非常期待看到您将利用这项新功能创造出什么惊人的成果!

Hugging Face Inference Endpoints 对 TPU 的支持

Hugging Face Inference Endpoints 提供了一种无缝部署生成式 AI 模型的方式,只需点击几下即可在专用、托管的基础设施上,使用您选择的云提供商进行部署。从今天起,Google TPU v5e 已在 Inference Endpoints 上可用。选择您想要部署的模型,选择 Google Cloud Platform,选择 us-west1,您就可以选择 TPU 配置了。

我们有 3 种实例配置,未来还会更多

  • v5litepod-1 TPU v5e 配备 1 个核心和 16 GB 内存(1.375 美元/小时)
  • v5litepod-4 TPU v5e 配备 4 个核心和 64 GB 内存(5.50 美元/小时)
  • v5litepod-8 TPU v5e 配备 8 个核心和 128 GB 内存(11.00 美元/小时)

ie-tpu

虽然您可以轻松使用 v5litepod-1 处理参数不超过 20 亿的模型,但我们建议对更大的模型使用 v5litepod-4,以避免内存预算问题。配置越大,延迟越低。

我们与 Google 的产品和工程团队携手,很高兴能将 TPU 的性能和成本效益带给我们的 Hugging Face 社区。这次合作带来了一些重要的进展:

  1. 我们创建了一个名为 Optimum TPU 的开源库,它让您在 Google TPU 上训练和部署 Hugging Face 模型变得超级简单。
  2. Inference Endpoints 使用 Optimum TPU 和 Text Generation Inference (TGI) 在 TPU 上服务大型语言模型 (LLM)。
  3. 我们一直在努力支持各种模型架构。从今天开始,您只需点击几下即可部署 GemmaLlamaMistral。(Optimum TPU 支持的模型)。

Hugging Face Spaces 对 TPU 的支持

Hugging Face Spaces 为开发者提供了一个平台,可以快速创建、部署和共享 AI 驱动的演示和应用程序。我们很高兴推出对 Hugging Face Spaces 新的 TPU v5e 实例支持。要将您的 Space 升级为在 TPU 上运行,请导航到 Space 中的“设置”按钮,然后选择所需的配置。

  • v5litepod-1 TPU v5e 配备 1 个核心和 16 GB 内存(1.375 美元/小时)
  • v5litepod-4 TPU v5e 配备 4 个核心和 64 GB 内存(5.50 美元/小时)
  • v5litepod-8 TPU v5e 配备 8 个核心和 128 GB 内存(11.00 美元/小时)

spaces-tpu

快来在 Hugging Face Spaces 上构建并与社区分享令人惊叹的基于 TPU 的 ML 演示吧!

我们为与 Google 共同取得的成就感到自豪,迫不及待地想看到您如何在自己的项目中使用 TPU。

社区

看来这个功能已经被移除了,或者还没有公开添加。我在 Hugging Face 网站的推理端点中没有看到任何可用的 TPU。

即使对于上面提到的、在推理端点中启用了 Google TPU 的示例模型,我也没有看到它有可用的 TPU:https://endpoints.huggingface.co/new?repository=meta-llama%2FMeta-Llama-3-8B&vendor=aws&region=us-east&accelerator=gpu&instance_id=aws-us-east-1-nvidia-l4-x1&task=text-generation&no_suggested_compute=true

如果此功能已删除,那也没关系。我想知道其价格/性能与其他可用选项相比如何。我可以直接使用 Google Cloud 访问 Google 模型,或使用 Google Vertex AI 模型库访问其他模型。

文章作者

@appleCorePotatoes 的确如此,我们目前已暂停在推理端点上使用 TPU,此选项已不再可用,但您可以找到其他部署解决方案,并提供不同的价格/性能替代方案。

注册登录 发表评论