Google Cloud TPU 现已对 Hugging Face 用户开放

发布于 2024 年 7 月 9 日

在 GitHub 上更新

我们很高兴分享一些好消息！AI 开发者现在可以在 Hugging Face Inference Endpoints 和 Spaces 上使用 Google Cloud TPU 来加速他们的应用程序了！

对于可能不熟悉的用户，TPU 是 Google 设计的定制 AI 硬件。它们以其经济高效的扩展能力和在各种 AI 工作负载中的卓越性能而闻名。这种硬件在 Google 最新的一些创新中发挥了关键作用，包括 Gemma 2 开放模型的开发。我们很高兴地宣布，TPU 现在可用于 Inference Endpoints 和 Spaces。

这是我们持续合作的一大步，旨在为您提供最佳的 AI 项目工具和资源。我们非常期待看到您将利用这项新功能创造出什么惊人的成果！

Hugging Face Inference Endpoints 对 TPU 的支持

Hugging Face Inference Endpoints 提供了一种无缝部署生成式 AI 模型的方式，只需点击几下即可在专用、托管的基础设施上，使用您选择的云提供商进行部署。从今天起，Google TPU v5e 已在 Inference Endpoints 上可用。选择您想要部署的模型，选择 Google Cloud Platform，选择 us-west1，您就可以选择 TPU 配置了。

我们有 3 种实例配置，未来还会更多

v5litepod-1 TPU v5e 配备 1 个核心和 16 GB 内存（1.375 美元/小时）
v5litepod-4 TPU v5e 配备 4 个核心和 64 GB 内存（5.50 美元/小时）
v5litepod-8 TPU v5e 配备 8 个核心和 128 GB 内存（11.00 美元/小时）

虽然您可以轻松使用 v5litepod-1 处理参数不超过 20 亿的模型，但我们建议对更大的模型使用 v5litepod-4，以避免内存预算问题。配置越大，延迟越低。

我们与 Google 的产品和工程团队携手，很高兴能将 TPU 的性能和成本效益带给我们的 Hugging Face 社区。这次合作带来了一些重要的进展：

我们创建了一个名为 Optimum TPU 的开源库，它让您在 Google TPU 上训练和部署 Hugging Face 模型变得超级简单。
Inference Endpoints 使用 Optimum TPU 和 Text Generation Inference (TGI) 在 TPU 上服务大型语言模型 (LLM)。
我们一直在努力支持各种模型架构。从今天开始，您只需点击几下即可部署 Gemma、Llama 和 Mistral。（Optimum TPU 支持的模型）。

Hugging Face Spaces 对 TPU 的支持

Hugging Face Spaces 为开发者提供了一个平台，可以快速创建、部署和共享 AI 驱动的演示和应用程序。我们很高兴推出对 Hugging Face Spaces 新的 TPU v5e 实例支持。要将您的 Space 升级为在 TPU 上运行，请导航到 Space 中的“设置”按钮，然后选择所需的配置。