text-generation-inference 文档
多后端支持
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
多后端支持
TGI (Text Generation Inference) 通过支持多个后端来为大型语言模型 (LLM) 提供服务,从而提供灵活性。通过多后端支持,您可以选择最适合您需求的后端,无论您优先考虑性能、易用性还是与特定硬件的兼容性。与 TGI 的 API 交互在后端之间保持一致,使您可以在它们之间无缝切换。
支持的后端
- TGI CUDA 后端:这种高性能后端针对 NVIDIA GPU 进行了优化,是 TGI 中的默认选项。它由内部开发,拥有众多优化,并被包括 Hugging Face 的项目在内的各种项目在生产中使用。
- TGI TRTLLM 后端:此后端利用 NVIDIA 的 TensorRT 库来加速 LLM 推理。它利用专门的优化和自定义内核来增强性能。但是,它需要为每个 GPU 架构执行特定于模型的编译步骤。
- TGI Llamacpp 后端:此后端通过集成 [llama.cpp][llama.cpp](一种针对 CPU 和 GPU 计算进行优化的高级推理引擎)来促进大型语言模型 (LLM) 的部署。
- TGI Neuron 后端:此后端利用 AWS Neuron SDK 允许在 AWS Trainium 和 Inferentia 芯片上部署大型语言模型 (LLM)。