Text Generation Inference 引入多后端支持 (TRT-LLM, vLLM)

发布于 2025 年 1 月 16 日
在 GitHub 上更新

引言

自 2022 年首次发布以来,Text-Generation-Inference (TGI) 为 Hugging Face 和 AI 社区提供了一个注重性能的解决方案,可以轻松部署大型语言模型 (LLM)。TGI 最初提供了一个几乎无需代码的解决方案,用于从 Hugging Face Hub 加载模型并在 NVIDIA GPU 上进行生产部署。随着时间的推移,支持范围扩展到包括 AMD Instinct GPU、Intel GPU、AWS Trainium/Inferentia、Google TPU 和 Intel Gaudi。
多年来,出现了多种推理解决方案,包括 vLLM、SGLang、llama.cpp、TensorRT-LLM 等,将整个生态系统分割开来。不同的模型、硬件和用例可能需要特定的后端才能实现最佳性能。然而,正确配置每个后端、管理许可证以及将它们集成到现有基础设施中对用户来说可能具有挑战性。

为了解决这个问题,我们很高兴引入 TGI 后端的概念。这种新架构提供了灵活性,可以通过 TGI 作为单一统一的前端层与上述任何解决方案集成。这一变化使社区更容易为其生产工作负载获得最佳性能,根据其建模、硬件和性能要求切换后端。

Hugging Face 团队很高兴能与构建 vLLM、llama.cpp、TensorRT-LLM 的团队以及 AWS、Google、NVIDIA、AMD 和 Intel 的团队合作,为 TGI 用户提供强大且一致的用户体验,无论他们想使用哪种后端和硬件。

TGI multi-backend stack

TGI 后端:幕后故事

TGI 由多个组件组成,主要用 Rust 和 Python 编写。Rust 负责 HTTP 和调度层,而 Python 仍然是建模的首选。

长话短说:Rust 使我们能够通过静态分析和基于编译器的内存安全强制来提高服务层的整体鲁棒性:它带来了在相同安全保证下更容易扩展到多个核心的能力。利用 Rust 强大的类型系统构建 HTTP 层和调度器,可以避免内存问题,同时最大化并发性,绕过基于 Python 环境中的全局解释器锁 (GIL)。

说到 Rust……惊喜的是,这是 TGI 集成新后端的起点 - 🤗

今年早些时候,TGI 团队致力于公开基本设置,以解开实际的 HTTP 服务器和调度器是如何耦合在一起的。这项工作引入了新的 Rust `trait Backend` 来接口当前的推理引擎和未来的引擎。

有了这个新的 `Backend` 接口(或 Rust 术语中的 trait),为模块化铺平了道路,并使得将传入请求实际路由到不同的建模和执行引擎成为可能。

展望:2025

TGI 的新多后端功能开启了许多重要的路线图机会。展望 2025 年,我们很高兴分享一些我们最期待的 TGI 发展。

  • NVIDIA TensorRT-LLM 后端:我们正在与 NVIDIA TensorRT-LLM 团队合作,为社区带来所有优化的 NVIDIA GPU + TensorRT 性能。这项工作将在即将发布的博客文章中更广泛地介绍。它与我们的使命密切相关,即通过 `optimum-nvidia` 量化/构建/评估 TensorRT 兼容工件的开源可用性以及 TGI+TRT-LLM 轻松在 NVIDIA GPU 上部署、执行和扩展部署,从而赋能 AI 构建者。
  • Llama.cpp 后端:我们正在与 llama.cpp 团队合作,扩展对服务器生产用例的支持。TGI 的 llama.cpp 后端将为任何希望在 Intel、AMD 或 ARM CPU 服务器上部署的用户提供强大的基于 CPU 的选项。
  • vLLM 后端:我们正在为 vLLM 项目做出贡献,并计划在 25 年第一季度将 vLLM 集成到 TGI 后端。
  • AWS Neuron 后端:我们正在与 AWS 的 Neuron 团队合作,在 TGI 中原生支持 Inferentia 2 和 Trainium 2。
  • Google TPU 后端:我们正在与 Google Jetstream & TPU 团队合作,通过 TGI 提供最佳性能。

我们相信 TGI 后端将有助于简化 LLM 的部署,为所有 TGI 用户带来多功能性和性能。您很快就能直接在 Inference Endpoints 中使用 TGI 后端。客户将能够轻松地在各种硬件上使用 TGI 后端部署模型,并开箱即用地获得顶级性能和可靠性。

请继续关注下一篇博客文章,我们将深入探讨即将推出的后端的技​​术细节和性能基准!

社区

出色的工作,期待发布!

太酷了!感谢所有的辛勤工作。

太棒了!2025 年对 TGI 来说将是精彩的一年!🤗

冲啊!!

太棒了!

注册登录 发表评论