准备模型

文本生成推理在多个方面改进了模型。

量化

TGI 支持 bits-and-bytes、GPT-Q、AWQ、Marlin、EETQ、EXL2 和 fp8 量化。要通过量化加速推理，只需将 quantize 标志设置为 bitsandbytes、gptq、awq、marlin、exl2、eetq 或 fp8，具体取决于您希望使用的量化技术。使用 GPT-Q 量化时，您需要指向此处的模型之一。同样，当使用 AWQ 量化时，您需要指向这些模型之一。要获得关于量化的更多信息，请参考量化指南

RoPE 缩放

RoPE 缩放可用于在推理时增加模型的序列长度，而无需对其进行微调。要启用 RoPE 缩放，只需在通过 CLI 运行时传递 --rope-scaling、--max-input-length 和 --rope-factors 标志。--rope-scaling 可以取值 linear 或 dynamic。如果您的模型未针对更长的序列长度进行微调，请使用 dynamic。--rope-factor 是预期最大序列长度与模型原始最大序列长度之间的比率。确保传递 --max-input-length 以提供扩展的最大输入长度。

我们建议使用 dynamic RoPE 缩放。

Safetensors

Safetensors 是一种用于深度学习模型的快速且安全的持久性格式，并且是张量并行所必需的。TGI 在底层支持 safetensors 模型加载。默认情况下，给定一个包含 safetensors 和 pytorch 权重的存储库，TGI 将始终加载 safetensors。如果没有 pytorch 权重，TGI 会将权重转换为 safetensors 格式。

< > 在 GitHub 上更新

text-generation-inference

准备模型

量化

RoPE 缩放

Safetensors