文本生成推理

多后端支持

TGI（文本生成推理）通过支持多个后端来灵活地服务大型语言模型（LLMs）。通过多后端支持，您可以选择最适合您需求的后端，无论是优先考虑性能、易用性还是与特定硬件的兼容性。与TGI的API交互在不同后端之间保持一致，让您可以在它们之间无缝切换。

支持的后端

TGI CUDA后端：这个高性能后端针对NVIDIA GPU进行了优化，是TGI中的默认选项。它由内部开发，拥有众多优化，并被包括Hugging Face在内的各种项目投入生产使用。
TGI TRTLLM后端：此后端利用NVIDIA的TensorRT库来加速LLM推理。它利用专门的优化和自定义内核来增强性能。但是，它需要为每个GPU架构进行模型特定的编译步骤。
TGI Llamacpp后端：此后端通过集成[llama.cpp][llama.cpp]来促进大型语言模型（LLMs）的部署，llama.cpp是一种针对CPU和GPU计算都进行了优化的先进推理引擎。
TGI Neuron后端：此后端利用AWS Neuron SDK来实现在AWS Trainium和Inferentia芯片上部署大型语言模型（LLMs）。