text-generation-inference 文档

多后端支持

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

多后端支持

TGI (Text Generation Inference) 通过支持多个后端来为大型语言模型 (LLM) 提供服务,从而提供灵活性。通过多后端支持,您可以选择最适合您需求的后端,无论您优先考虑性能、易用性还是与特定硬件的兼容性。与 TGI 的 API 交互在后端之间保持一致,使您可以在它们之间无缝切换。

支持的后端

  • TGI CUDA 后端:这种高性能后端针对 NVIDIA GPU 进行了优化,是 TGI 中的默认选项。它由内部开发,拥有众多优化,并被包括 Hugging Face 的项目在内的各种项目在生产中使用。
  • TGI TRTLLM 后端:此后端利用 NVIDIA 的 TensorRT 库来加速 LLM 推理。它利用专门的优化和自定义内核来增强性能。但是,它需要为每个 GPU 架构执行特定于模型的编译步骤。
  • TGI Llamacpp 后端:此后端通过集成 [llama.cpp][llama.cpp](一种针对 CPU 和 GPU 计算进行优化的高级推理引擎)来促进大型语言模型 (LLM) 的部署。
  • TGI Neuron 后端:此后端利用 AWS Neuron SDK 允许在 AWS Trainium 和 Inferentia 芯片上部署大型语言模型 (LLM)。
< > 在 GitHub 上更新