🚀 利用 TGI 在 Intel Gaudi 上加速 LLM 推理

发布日期：2025 年 3 月 28 日

在 GitHub 上更新

我们很高兴地宣布，Text Generation Inference (TGI)，我们用于大型语言模型 (LLM) 的生产就绪服务解决方案，已原生集成 Intel Gaudi 硬件支持。此次集成将 Intel 专用 AI 加速器的强大功能引入我们的高性能推理堆栈，为开源 AI 社区提供了更多的部署选择🎉

✨ 新功能？

我们已将 Gaudi 支持完全集成到 TGI 的主代码库中，详见 PR #3091。此前，我们为 Gaudi 设备维护了一个独立的 fork，位于 tgi-gaudi。这给用户带来了不便，并阻碍了我们在发布时支持最新的 TGI 功能。现在，通过新的 TGI 多后端架构，我们直接在 TGI 上支持 Gaudi——不再需要在自定义仓库上进行繁琐的操作🙌

此集成支持 Intel 全系列的 Gaudi 硬件

Gaudi1 💻：可在 AWS EC2 DL1 实例上使用
Gaudi2 💻💻：可在 Intel Tiber AI Cloud 和 Denvr Dataworks 上使用
Gaudi3 💻💻💻：可在 Intel Tiber AI Cloud、IBM Cloud 以及 Dell、HP 和 Supermicro 等原始设备制造商 (OEM) 处使用

您还可以在 Intel Gaudi 产品页面上找到更多关于 Gaudi 硬件的信息

🌟 为什么这很重要

TGI 的 Gaudi 后端提供了几个关键优势：

硬件多样性 🔄：除了传统的 GPU，LLM 生产部署有了更多选择。
成本效益 💰：Gaudi 硬件通常为特定工作负载提供极具竞争力的性价比。
生产就绪 ⚙️：TGI 的所有稳健功能（动态批处理、流式响应等）现在都可在 Gaudi 上使用。
模型支持 🤖：在 Gaudi 硬件上运行 Llama 3.1、Mixtral、Mistral 等热门模型。
高级功能 🔥：支持多卡推理（分片）、视觉-语言模型和 FP8 精度。

🚦 在 Gaudi 上开始使用 TGI

在 Gaudi 上运行 TGI 最简单的方法是使用我们的官方 Docker 镜像。您需要在 Gaudi 硬件机器上运行该镜像。以下是一个简单的示例，可帮助您入门

model=meta-llama/Meta-Llama-3.1-8B-Instruct 
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run 
hf_token=YOUR_HF_ACCESS_TOKEN

docker run --runtime=habana --cap-add=sys_nice --ipc=host \
 -p 8080:80 \
 -v $volume:/data \
 -e HF_TOKEN=$hf_token \
 -e HABANA_VISIBLE_DEVICES=all \
 ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
 --model-id $model

服务器运行后，您可以发送推理请求

curl 127.0.0.1:8080/generate
 -X POST
 -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
 -H 'Content-Type: application/json'

有关在 Gaudi 上使用 TGI 的完整文档，包括操作指南和高级配置，请参阅新的专用 Gaudi 后端文档。

🎉 主要功能

我们已针对单卡和多卡配置优化了以下模型。这意味着这些模型在 Intel Gaudi 上运行速度尽可能快。我们专门优化了建模代码以针对 Intel Gaudi 硬件，确保我们提供最佳性能并充分利用 Gaudi 的功能

Llama 3.1 (8B 和 70B)
Llama 3.3 (70B)
Llama 3.2 Vision (11B)
Mistral (7B)
Mixtral (8x7B)
CodeLlama (13B)
Falcon (180B)
Qwen2 (72B)
Starcoder 和 Starcoder2
Gemma (7B)
Llava-v1.6-Mistral-7B
Phi-2

🏃‍♂️ 我们还在 Gaudi 硬件上提供了许多高级功能，例如通过 Intel Neural Compressor (INC) 实现的 FP8 量化，从而实现更强大的性能优化。

✨ 即将推出！我们很高兴能通过 DeepSeek-r1/v3、QWen-VL 和更多强大模型等尖端新增功能来扩展我们的模型阵容，为您的 AI 应用提供支持！🚀

💪 参与其中

我们邀请社区在 Gaudi 硬件上试用 TGI 并提供反馈。完整文档可在 TGI Gaudi 后端文档中找到。📚 如果您有兴趣贡献，请查看我们的贡献指南或在 GitHub 上提出问题并提供您的反馈。🤝 通过将 Intel Gaudi 支持直接引入 TGI，我们正在继续我们的使命，即提供灵活、高效且生产就绪的工具来部署 LLM。我们很高兴看到您将利用这项新功能构建什么！🎉

更多博客文章