Google Cloud TPU 现已对 Hugging Face 用户开放

我们很高兴分享一些好消息!AI 开发者现在可以在 Hugging Face Inference Endpoints 和 Spaces 上使用 Google Cloud TPU 来加速他们的应用程序了!
对于可能不熟悉的用户,TPU 是 Google 设计的定制 AI 硬件。它们以其经济高效的扩展能力和在各种 AI 工作负载中的卓越性能而闻名。这种硬件在 Google 最新的一些创新中发挥了关键作用,包括 Gemma 2 开放模型的开发。我们很高兴地宣布,TPU 现在可用于 Inference Endpoints 和 Spaces。
这是我们持续合作的一大步,旨在为您提供最佳的 AI 项目工具和资源。我们非常期待看到您将利用这项新功能创造出什么惊人的成果!
Hugging Face Inference Endpoints 对 TPU 的支持
Hugging Face Inference Endpoints 提供了一种无缝部署生成式 AI 模型的方式,只需点击几下即可在专用、托管的基础设施上,使用您选择的云提供商进行部署。从今天起,Google TPU v5e 已在 Inference Endpoints 上可用。选择您想要部署的模型,选择 Google Cloud Platform,选择 us-west1,您就可以选择 TPU 配置了。
我们有 3 种实例配置,未来还会更多
- v5litepod-1 TPU v5e 配备 1 个核心和 16 GB 内存(1.375 美元/小时)
- v5litepod-4 TPU v5e 配备 4 个核心和 64 GB 内存(5.50 美元/小时)
- v5litepod-8 TPU v5e 配备 8 个核心和 128 GB 内存(11.00 美元/小时)
虽然您可以轻松使用 v5litepod-1 处理参数不超过 20 亿的模型,但我们建议对更大的模型使用 v5litepod-4,以避免内存预算问题。配置越大,延迟越低。
我们与 Google 的产品和工程团队携手,很高兴能将 TPU 的性能和成本效益带给我们的 Hugging Face 社区。这次合作带来了一些重要的进展:
- 我们创建了一个名为 Optimum TPU 的开源库,它让您在 Google TPU 上训练和部署 Hugging Face 模型变得超级简单。
- Inference Endpoints 使用 Optimum TPU 和 Text Generation Inference (TGI) 在 TPU 上服务大型语言模型 (LLM)。
- 我们一直在努力支持各种模型架构。从今天开始,您只需点击几下即可部署 Gemma、Llama 和 Mistral。(Optimum TPU 支持的模型)。
Hugging Face Spaces 对 TPU 的支持
Hugging Face Spaces 为开发者提供了一个平台,可以快速创建、部署和共享 AI 驱动的演示和应用程序。我们很高兴推出对 Hugging Face Spaces 新的 TPU v5e 实例支持。要将您的 Space 升级为在 TPU 上运行,请导航到 Space 中的“设置”按钮,然后选择所需的配置。
- v5litepod-1 TPU v5e 配备 1 个核心和 16 GB 内存(1.375 美元/小时)
- v5litepod-4 TPU v5e 配备 4 个核心和 64 GB 内存(5.50 美元/小时)
- v5litepod-8 TPU v5e 配备 8 个核心和 128 GB 内存(11.00 美元/小时)
快来在 Hugging Face Spaces 上构建并与社区分享令人惊叹的基于 TPU 的 ML 演示吧!
我们为与 Google 共同取得的成就感到自豪,迫不及待地想看到您如何在自己的项目中使用 TPU。