TRL 文档

加速训练

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

加速训练

正在建设中。欢迎贡献!

vLLM 用于在线方法中的快速生成

诸如 GRPO 或 Online DPO 等在线方法需要模型生成补全,这通常是一个缓慢的过程,并且会显著影响训练时间。为了加速生成,您可以使用 vLLM,这是一个通过分页注意力等技术实现快速生成的库。TRL 的在线训练器支持 vLLM,大大提高了训练速度。

要使用 vLLM,请首先使用以下命令安装它

pip install vllm

或者

pip install "trl[vllm]"
Online DPO
GRPO

然后,在训练参数中传递 use_vllm=True 来启用它。

from trl import OnlineDPOConfig

training_args = OnlineDPOConfig(..., use_vllm=True)
< > 更新 on GitHub