text-generation-inference 文档
准备模型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
准备模型
文本生成推理在多个方面改进了模型。
量化
TGI 支持 bits-and-bytes、GPT-Q、AWQ、Marlin、EETQ、EXL2 和 fp8 量化。为了通过量化加速推理,只需将 quantize
标志设置为 bitsandbytes
、gptq
、awq
、marlin
、exl2
、eetq
或 fp8
,具体取决于您希望使用的量化技术。使用 GPT-Q 量化时,您需要指向此处的模型之一。同样,使用 AWQ 量化时,您需要指向这些模型之一。要获取有关量化的更多信息,请参阅量化指南
RoPE 缩放
RoPE 缩放可用于在推理时增加模型的序列长度,而无需进行微调。要启用 RoPE 缩放,只需通过 CLI 运行命令时传递 --rope-scaling
、--max-input-length
和 --rope-factors
标志。--rope-scaling
可以取值 linear
或 dynamic
。如果您的模型未针对更长的序列长度进行微调,请使用 dynamic
。--rope-factor
是预期最大序列长度与模型原始最大序列长度之间的比率。请确保传递 --max-input-length
以提供最大输入长度进行扩展。
我们建议使用 dynamic
RoPE 缩放。
Safetensors
Safetensors 是一种快速且安全的深度学习模型持久化格式,是张量并行所必需的。TGI 在底层支持 safetensors
模型加载。默认情况下,如果一个仓库同时包含 safetensors
和 pytorch
权重,TGI 总是会加载 safetensors
。如果没有 pytorch
权重,TGI 会将权重转换为 safetensors
格式。