text-generation-inference 文档
文本生成推理
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
文本生成推理
文本生成推理现已进入维护模式。今后,我们将接受用于次要错误修复、文档改进和轻量级维护任务的拉取请求。
TGI 已经开启了优化推理引擎依赖 `transformers` 模型架构的运动。这种方法现已被下游推理引擎采用,我们为此做出了贡献,并建议今后使用这些引擎:vllm、SGLang,以及具有内部兼容性的本地引擎,如 llama.cpp 或 MLX。
文本生成推理 (TGI) 是一个用于部署和提供大型语言模型 (LLM) 的工具包。TGI 为最流行的开源 LLM(包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5)实现了高性能的文本生成。

文本生成推理实现了许多优化和功能,例如
- 简单的启动器可用于部署最流行的 LLM
- 生产就绪(通过 Open Telemetry 进行分布式追踪,Prometheus 指标)
- 张量并行,用于在多个 GPU 上实现更快的推理
- 使用服务器发送事件 (SSE) 进行 token 流式传输
- 持续批量处理传入请求,以提高总吞吐量
- 使用 Flash Attention 和 Paged Attention 对最流行的架构进行优化的 transformers 代码
- 使用 bitsandbytes 和 GPT-Q 进行量化
- Safetensors 权重加载
- 使用 大型语言模型水印 进行水印
- Logits 调节器(温度缩放、top-p、top-k、重复惩罚)
- 停止序列
- 对数概率
- 微调支持:利用微调模型执行特定任务,以实现更高的准确性和性能。
- Guidance:通过强制模型根据您预定义的输出模式生成结构化输出,实现函数调用和工具使用。
文本生成推理已在多个项目中投入生产,例如
- Hugging Chat,一个用于 Open Assistant 和 Llama 等开放访问模型的开源接口
- OpenAssistant,一个开源社区,致力于公开训练 LLM
- nat.dev,一个探索和比较 LLM 的实验平台。