text-generation-inference 文档

模型准备

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

模型准备

文本生成推理在几个方面对模型进行了改进。

量化

TGI 支持 bits-and-bytesGPT-QAWQMarlinEETQEXL2fp8 量化。为了使用量化加速推理,只需将 quantize 标志设置为 bitsandbytesgptqawqmarlinexl2eetqfp8,具体取决于您要使用的量化技术。使用 GPT-Q 量化时,您需要指向 此处 的其中一个模型。类似地,使用 AWQ 量化时,您需要指向 这些模型 之一。要获得有关量化的更多信息,请参阅 量化指南

RoPE 缩放

RoPE 缩放可用于在推理时增加模型的序列长度,而无需对其进行微调。要启用 RoPE 缩放,只需在通过 CLI 运行时传递 --rope-scaling--max-input-length--rope-factors 标志即可。--rope-scaling 可以取值 lineardynamic。如果您的模型没有针对更长的序列长度进行微调,请使用 dynamic--rope-factor 是目标最大序列长度与模型原始最大序列长度之间的比率。请确保传递 --max-input-length 以提供扩展的最大输入长度。

我们建议使用 dynamic RoPE 缩放。

Safetensors

Safetensors 是一种用于深度学习模型的快速安全持久化格式,是张量并行的必要条件。TGI 支持在后台加载 safetensors 模型。默认情况下,在具有 safetensorspytorch 权重的存储库中,TGI 将始终加载 safetensors。如果没有 pytorch 权重,TGI 将会将权重转换为 safetensors 格式。

< > 更新 在GitHub 上