🚀 利用 TGI 在 Intel Gaudi 上加速 LLM 推理

发布日期:2025 年 3 月 28 日
在 GitHub 上更新

我们很高兴地宣布,Text Generation Inference (TGI),我们用于大型语言模型 (LLM) 的生产就绪服务解决方案,已原生集成 Intel Gaudi 硬件支持。此次集成将 Intel 专用 AI 加速器的强大功能引入我们的高性能推理堆栈,为开源 AI 社区提供了更多的部署选择🎉

✨ 新功能?

我们已将 Gaudi 支持完全集成到 TGI 的主代码库中,详见 PR #3091。此前,我们为 Gaudi 设备维护了一个独立的 fork,位于 tgi-gaudi。这给用户带来了不便,并阻碍了我们在发布时支持最新的 TGI 功能。现在,通过新的 TGI 多后端架构,我们直接在 TGI 上支持 Gaudi——不再需要在自定义仓库上进行繁琐的操作🙌

此集成支持 Intel 全系列的 Gaudi 硬件

您还可以在 Intel Gaudi 产品页面上找到更多关于 Gaudi 硬件的信息

🌟 为什么这很重要

TGI 的 Gaudi 后端提供了几个关键优势:

  • 硬件多样性 🔄:除了传统的 GPU,LLM 生产部署有了更多选择。
  • 成本效益 💰:Gaudi 硬件通常为特定工作负载提供极具竞争力的性价比。
  • 生产就绪 ⚙️:TGI 的所有稳健功能(动态批处理、流式响应等)现在都可在 Gaudi 上使用。
  • 模型支持 🤖:在 Gaudi 硬件上运行 Llama 3.1、Mixtral、Mistral 等热门模型。
  • 高级功能 🔥:支持多卡推理(分片)、视觉-语言模型和 FP8 精度。

🚦 在 Gaudi 上开始使用 TGI

在 Gaudi 上运行 TGI 最简单的方法是使用我们的官方 Docker 镜像。您需要在 Gaudi 硬件机器上运行该镜像。以下是一个简单的示例,可帮助您入门

model=meta-llama/Meta-Llama-3.1-8B-Instruct 
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run 
hf_token=YOUR_HF_ACCESS_TOKEN

docker run --runtime=habana --cap-add=sys_nice --ipc=host \
 -p 8080:80 \
 -v $volume:/data \
 -e HF_TOKEN=$hf_token \
 -e HABANA_VISIBLE_DEVICES=all \
 ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
 --model-id $model 

服务器运行后,您可以发送推理请求

curl 127.0.0.1:8080/generate
 -X POST
 -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
 -H 'Content-Type: application/json'

有关在 Gaudi 上使用 TGI 的完整文档,包括操作指南和高级配置,请参阅新的专用 Gaudi 后端文档

🎉 主要功能

我们已针对单卡和多卡配置优化了以下模型。这意味着这些模型在 Intel Gaudi 上运行速度尽可能快。我们专门优化了建模代码以针对 Intel Gaudi 硬件,确保我们提供最佳性能并充分利用 Gaudi 的功能

  • Llama 3.1 (8B 和 70B)
  • Llama 3.3 (70B)
  • Llama 3.2 Vision (11B)
  • Mistral (7B)
  • Mixtral (8x7B)
  • CodeLlama (13B)
  • Falcon (180B)
  • Qwen2 (72B)
  • Starcoder 和 Starcoder2
  • Gemma (7B)
  • Llava-v1.6-Mistral-7B
  • Phi-2

🏃‍♂️ 我们还在 Gaudi 硬件上提供了许多高级功能,例如通过 Intel Neural Compressor (INC) 实现的 FP8 量化,从而实现更强大的性能优化。

✨ 即将推出!我们很高兴能通过 DeepSeek-r1/v3、QWen-VL 和更多强大模型等尖端新增功能来扩展我们的模型阵容,为您的 AI 应用提供支持!🚀

💪 参与其中

我们邀请社区在 Gaudi 硬件上试用 TGI 并提供反馈。完整文档可在 TGI Gaudi 后端文档中找到。📚 如果您有兴趣贡献,请查看我们的贡献指南或在 GitHub 上提出问题并提供您的反馈。🤝 通过将 Intel Gaudi 支持直接引入 TGI,我们正在继续我们的使命,即提供灵活、高效且生产就绪的工具来部署 LLM。我们很高兴看到您将利用这项新功能构建什么!🎉

社区

干得好!

好文章!

注册登录 以评论