text-generation-inference 文档

多后端支持

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

多后端支持

TGI(文本生成推理)通过支持多个后端来灵活地服务大型语言模型(LLMs)。通过多后端支持,您可以选择最适合您需求的后端,无论是优先考虑性能、易用性还是与特定硬件的兼容性。与TGI的API交互在不同后端之间保持一致,让您可以在它们之间无缝切换。

支持的后端

  • TGI CUDA后端:这个高性能后端针对NVIDIA GPU进行了优化,是TGI中的默认选项。它由内部开发,拥有众多优化,并被包括Hugging Face在内的各种项目投入生产使用。
  • TGI TRTLLM后端:此后端利用NVIDIA的TensorRT库来加速LLM推理。它利用专门的优化和自定义内核来增强性能。但是,它需要为每个GPU架构进行模型特定的编译步骤。
  • TGI Llamacpp后端:此后端通过集成[llama.cpp][llama.cpp]来促进大型语言模型(LLMs)的部署,llama.cpp是一种针对CPU和GPU计算都进行了优化的先进推理引擎。
  • TGI Neuron后端:此后端利用AWS Neuron SDK来实现在AWS Trainium和Inferentia芯片上部署大型语言模型(LLMs)。
< > 在 GitHub 上更新