文本生成推理
文本生成推理 (TGI) 是一种用于部署和提供大型语言模型 (LLM) 的工具包。TGI 为最流行的开源 LLM 提供高性能文本生成,包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5。
文本生成推理实现了许多优化和功能,例如
- 简单的启动器,用于提供最流行的 LLM
- 生产就绪(使用 Open Telemetry 进行分布式跟踪,Prometheus 指标)
- 张量并行,以便在多个 GPU 上更快地进行推理
- 使用服务器发送事件 (SSE) 进行令牌流式传输
- 连续批处理传入请求以提高总吞吐量
- 针对推理优化的 transformers 代码,使用 Flash Attention 和 Paged Attention 在最流行的架构上
- 使用 bitsandbytes 和 GPT-Q 进行量化
- Safetensors 权重加载
- 使用 大型语言模型的水印 进行水印
- Logits 扭曲器(温度缩放、top-p、top-k、重复惩罚)
- 停止序列
- 对数概率
- 微调支持:利用微调模型执行特定任务,以实现更高的准确性和性能。
- Guidance:通过强制模型根据您自己的预定义输出模式生成结构化输出,来启用函数调用和工具使用。
文本生成推理在多个项目的生产中使用,例如
- Hugging Chat,一个用于开放访问模型的开源界面,例如 Open Assistant 和 Llama
- OpenAssistant,一个开源社区努力,旨在公开训练 LLM
- nat.dev,一个探索和比较 LLM 的游乐场。