text-generation-inference 文档

文本生成推理

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

文本生成推理

Text Generation Inference (TGI) 是一个用于部署和提供大型语言模型(LLM)的工具包。TGI 为最流行的开源 LLM 实现了高性能文本生成,包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5。

Text Generation Inference

Text Generation Inference 实现了许多优化和功能,例如

  • 简单的启动器,用于服务最流行的 LLM
  • 已为生产环境做好准备(使用 Open Telemetry 进行分布式追踪,Prometheus 指标)
  • 张量并行,可在多个 GPU 上实现更快的推理
  • 使用服务器发送事件 (SSE) 的令牌流式传输
  • 持续批处理传入请求,以提高总吞吐量
  • 优化的 transformers 代码,用于在使用 Flash AttentionPaged Attention 的最流行架构上进行推理
  • 使用 bitsandbytesGPT-Q 进行量化
  • Safetensors 权重加载
  • 使用 大型语言模型的水印 进行水印
  • Logits warper(温度缩放、top-p、top-k、重复惩罚)
  • 停止序列
  • 对数概率
  • 微调支持:利用针对特定任务进行微调的模型,以实现更高的准确性和性能。
  • Guidance:通过强制模型根据您自己预定义的输出模式生成结构化输出,从而实现函数调用和工具使用。

Text Generation Inference 已在多个项目中投入生产使用,例如

  • Hugging Chat,一个用于开放访问模型的开源界面,例如 Open Assistant 和 Llama
  • OpenAssistant,一项在开放环境中训练 LLM 的开源社区工作
  • nat.dev,一个探索和比较 LLM 的平台。
< > 更新 在 GitHub 上