减少内存使用

本节正在建设中。欢迎贡献！

截断

数据集中序列的长度可能差异很大。当数据被批处理时，序列会被填充以匹配批次中最长的序列，即使大多数序列相对较短，也可能导致高内存使用。

为了减少内存使用，将序列截断到合理的长度非常重要。虽然 TRL 训练器默认会截断序列，但您可能需要调整默认截断长度，以更好地适应您的特定用例。

DPO

SFT

此技术仅适用于 SFT。

截断有几个缺点

打包，由 Raffel 等人在 2020 年提出，通过对序列进行分组而不是截断来解决这些问题。它将数据集序列连接并拆分为所需的长度。

打包消除了填充，保留了所有序列信息，并允许灵活的序列长度，使其成为比截断更有效的替代方案。要启用打包，请在 SFTConfig 中使用 packing=True

from trl import SFTConfig

training_args = SFTConfig(..., packing=True, max_length=512)

打包可能会导致批次污染，其中相邻序列相互影响。这对于某些应用程序来说可能存在问题。有关更多详细信息，请参阅 #1230。

无填充批处理是减少内存使用的另一种方法。在此方法中，首先对批次进行采样，然后将其展平为单个序列，从而避免填充。与打包不同，打包可能会通过组合不同样本的部分而导致序列不完整，而无填充批处理可确保所有序列保持完整和完整。

强烈建议将无填充批处理与 Flash Attention 2 一起使用。否则，您可能会遇到批次污染问题。

DPO

SFT

当使用 DeepSpeed ZeRO-3 时，模型权重会跨多个 GPU 分片。在线方法涉及在训练过程中从模型生成补全。在此步骤中，模型权重会临时收集在单个 GPU 上以进行生成。对于非常大的模型，这种收集可能会导致内存不足 (OOM) 错误，如本问题 #2250 中所述。

如果您遇到此问题，可以通过设置以下参数来禁用模型权重收集以进行生成

GRPO

Online DPO

PPO

RLOO

此调整可防止模型权重被收集，从而避免 OOM 错误，但可能会导致生成速度变慢。