TRL

加快训练速度

此部分正在建设中。欢迎贡献！

使用 vLLM 在在线方法中实现快速生成

像 GRPO 或 Online DPO 这样的在线方法需要模型生成补全，这通常是一个缓慢的过程，并且会显著影响训练时间。为了加快生成速度，您可以使用 vLLM，这是一个通过 PagedAttention 等技术实现快速生成的库。TRL 的在线训练器支持 vLLM，极大地提高了训练速度。

要使用 vLLM，请先使用以下命令安装它

pip install vllm

或者

pip install "trl[vllm]"

Online DPO

GRPO