🚀 利用 TGI 在 Intel Gaudi 上加速 LLM 推理
我们很高兴地宣布,Text Generation Inference (TGI),我们用于大型语言模型 (LLM) 的生产就绪服务解决方案,已原生集成 Intel Gaudi 硬件支持。此次集成将 Intel 专用 AI 加速器的强大功能引入我们的高性能推理堆栈,为开源 AI 社区提供了更多的部署选择🎉
✨ 新功能?
我们已将 Gaudi 支持完全集成到 TGI 的主代码库中,详见 PR #3091。此前,我们为 Gaudi 设备维护了一个独立的 fork,位于 tgi-gaudi。这给用户带来了不便,并阻碍了我们在发布时支持最新的 TGI 功能。现在,通过新的 TGI 多后端架构,我们直接在 TGI 上支持 Gaudi——不再需要在自定义仓库上进行繁琐的操作🙌
此集成支持 Intel 全系列的 Gaudi 硬件
- Gaudi1 💻:可在 AWS EC2 DL1 实例上使用
- Gaudi2 💻💻:可在 Intel Tiber AI Cloud 和 Denvr Dataworks 上使用
- Gaudi3 💻💻💻:可在 Intel Tiber AI Cloud、IBM Cloud 以及 Dell、HP 和 Supermicro 等原始设备制造商 (OEM) 处使用
您还可以在 Intel Gaudi 产品页面上找到更多关于 Gaudi 硬件的信息
🌟 为什么这很重要
TGI 的 Gaudi 后端提供了几个关键优势:
- 硬件多样性 🔄:除了传统的 GPU,LLM 生产部署有了更多选择。
- 成本效益 💰:Gaudi 硬件通常为特定工作负载提供极具竞争力的性价比。
- 生产就绪 ⚙️:TGI 的所有稳健功能(动态批处理、流式响应等)现在都可在 Gaudi 上使用。
- 模型支持 🤖:在 Gaudi 硬件上运行 Llama 3.1、Mixtral、Mistral 等热门模型。
- 高级功能 🔥:支持多卡推理(分片)、视觉-语言模型和 FP8 精度。
🚦 在 Gaudi 上开始使用 TGI
在 Gaudi 上运行 TGI 最简单的方法是使用我们的官方 Docker 镜像。您需要在 Gaudi 硬件机器上运行该镜像。以下是一个简单的示例,可帮助您入门
model=meta-llama/Meta-Llama-3.1-8B-Instruct
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
hf_token=YOUR_HF_ACCESS_TOKEN
docker run --runtime=habana --cap-add=sys_nice --ipc=host \
-p 8080:80 \
-v $volume:/data \
-e HF_TOKEN=$hf_token \
-e HABANA_VISIBLE_DEVICES=all \
ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
--model-id $model
服务器运行后,您可以发送推理请求
curl 127.0.0.1:8080/generate
-X POST
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
-H 'Content-Type: application/json'
有关在 Gaudi 上使用 TGI 的完整文档,包括操作指南和高级配置,请参阅新的专用 Gaudi 后端文档。
🎉 主要功能
我们已针对单卡和多卡配置优化了以下模型。这意味着这些模型在 Intel Gaudi 上运行速度尽可能快。我们专门优化了建模代码以针对 Intel Gaudi 硬件,确保我们提供最佳性能并充分利用 Gaudi 的功能
- Llama 3.1 (8B 和 70B)
- Llama 3.3 (70B)
- Llama 3.2 Vision (11B)
- Mistral (7B)
- Mixtral (8x7B)
- CodeLlama (13B)
- Falcon (180B)
- Qwen2 (72B)
- Starcoder 和 Starcoder2
- Gemma (7B)
- Llava-v1.6-Mistral-7B
- Phi-2
🏃♂️ 我们还在 Gaudi 硬件上提供了许多高级功能,例如通过 Intel Neural Compressor (INC) 实现的 FP8 量化,从而实现更强大的性能优化。
✨ 即将推出!我们很高兴能通过 DeepSeek-r1/v3、QWen-VL 和更多强大模型等尖端新增功能来扩展我们的模型阵容,为您的 AI 应用提供支持!🚀
💪 参与其中
我们邀请社区在 Gaudi 硬件上试用 TGI 并提供反馈。完整文档可在 TGI Gaudi 后端文档中找到。📚 如果您有兴趣贡献,请查看我们的贡献指南或在 GitHub 上提出问题并提供您的反馈。🤝 通过将 Intel Gaudi 支持直接引入 TGI,我们正在继续我们的使命,即提供灵活、高效且生产就绪的工具来部署 LLM。我们很高兴看到您将利用这项新功能构建什么!🎉