text-generation-inference 文档

文本生成推理

text-generation-inference

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

文本生成推理

文本生成推理 (Text Generation Inference, TGI) 是一个用于部署和服务大型语言模型 (LLM) 的工具包。TGI 为最受欢迎的开源 LLM（包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5）提供高性能的文本生成服务。

Text Generation Inference

文本生成推理实现了许多优化和功能，例如：

简单的启动器，可为最流行的 LLM 提供服务
生产就绪（通过 Open Telemetry 进行分布式追踪，Prometheus 指标）
张量并行，可在多个 GPU 上实现更快的推理
使用服务器发送事件 (SSE) 进行 token 流式传输
对传入请求进行连续批处理，以提高总吞吐量
在最流行的架构上使用 Flash Attention 和 Paged Attention 优化 transformers 推理代码
使用 bitsandbytes 和 GPT-Q 进行量化
Safetensors 权重加载
使用 A Watermark for Large Language Models 添加水印
Logits 处理器（温度缩放、top-p、top-k、重复惩罚）
停止序列
对数概率
微调支持：利用针对特定任务微调的模型，以实现更高的准确性和性能。
引导（Guidance）：通过强制模型根据您自己预定义的输出模式生成结构化输出来实现函数调用和工具使用。

文本生成推理已被多个项目用于生产环境，例如：

Hugging Chat，一个为 Open Assistant 和 Llama 等开放模型提供的开源界面
OpenAssistant，一个开放的社区项目，致力于以开放的方式训练 LLM
nat.dev，一个探索和比较 LLM 的平台。

< > 在 GitHub 上更新

快速导览→

© . This site is unofficial and not affiliated with Hugging Face, Inc.