TRL 文档
加快训练速度
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
加快训练速度
此部分正在建设中。欢迎贡献!
使用 vLLM 在在线方法中实现快速生成
像 GRPO 或 Online DPO 这样的在线方法需要模型生成补全,这通常是一个缓慢的过程,并且会显著影响训练时间。为了加快生成速度,您可以使用 vLLM,这是一个通过 PagedAttention 等技术实现快速生成的库。TRL 的在线训练器支持 vLLM,极大地提高了训练速度。
要使用 vLLM,请先使用以下命令安装它
pip install vllm
或者
pip install "trl[vllm]"
Online DPO
GRPO
然后,在训练参数中传递 use_vllm=True
来启用它。
from trl import OnlineDPOConfig
training_args = OnlineDPOConfig(..., use_vllm=True)