Trainer

Trainer 是一个用于 Transformers PyTorch 模型的完整训练和评估循环。将模型、预处理器、数据集和训练参数插入 Trainer，让它处理其余部分，从而更快地开始训练。

Trainer 还由 Accelerate 提供支持，Accelerate 是一个用于处理大型模型以进行分布式训练的库。

本指南将向你展示 Trainer 如何工作以及如何使用回调函数为你的用例进行自定义。

!pip install accelerate --upgrade

Trainer 包含训练循环的所有必要组件。

计算训练步骤的损失
使用 backward 方法计算梯度
根据梯度更新权重
重复直到达到预定 epoch 数

每次手动编写此训练循环可能很不方便，或者如果你刚开始接触机器学习，这可能是一个障碍。Trainer 抽象了此过程，使你能够专注于模型、数据集和训练设计选择。

使用来自 TrainingArguments 的超参数和选项配置你的训练，它支持许多功能，例如分布式训练、torch.compile、混合精度训练和将模型保存到 Hub。

TrainingArguments 中可用的参数数量可能一开始会让人望而生畏。如果你想使用某个特定的超参数或功能，请尝试直接搜索它。否则，请随意从默认值开始，随着你对训练过程越来越熟悉，逐步对其进行自定义。

下面的示例演示了一个 TrainingArguments 示例，它在每个 epoch 结束时评估并保存模型。它还会加载训练期间找到的最佳模型并将其推送到 Hub。

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="your-model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=2,
    weight_decay=0.01,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=True,
)

将你的模型、数据集、预处理器和 TrainingArguments 传递给 Trainer，然后调用 train() 开始训练。

有关训练过程的更完整概述，请参阅微调指南。

from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    processing_class=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

trainer.train()

检查点

Trainer 将检查点（默认不保存优化器状态）保存到 TrainingArguments 中的 output_dir 目录下的 checkpoint-000 子文件夹。末尾的数字是保存检查点时的训练步数。

保存检查点对于恢复训练或在遇到错误时恢复训练进度很有用。设置 train() 中的 resume_from_checkpoint 参数可从最后一个检查点或特定检查点恢复训练。

日志记录

Trainer 默认设置为 logging.INFO，用于报告错误、警告和其他基本信息。使用 log_level() 更改日志级别和日志详细程度。

下面的示例将主代码和模块设置为使用相同的日志级别。

logger = logging.getLogger(__name__)

logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
    datefmt="%m/%d/%Y %H:%M:%S",
    handlers=[logging.StreamHandler(sys.stdout)],
)

log_level = training_args.get_process_log_level()
logger.setLevel(log_level)
datasets.utils.logging.set_verbosity(log_level)
transformers.utils.logging.set_verbosity(log_level)

trainer = Trainer(...)

在分布式环境中，Trainer 副本设置为 logging.WARNING，仅报告错误和警告。使用 log_level_replica() 更改日志级别和日志详细程度。要配置每个节点的日志级别，请使用 log_on_each_node() 确定是否在每个节点或仅主节点上使用特定的日志级别。

使用 log_level 和 log_level_replica 的不同组合来配置每个节点上记录的内容。

单节点

多节点

在 __init__() 方法中为每个节点单独设置日志级别。如果你在创建 Trainer 实例之前使用其他 Transformers 功能，请考虑尽早设置此选项。

自定义

通过子类化或重写其方法，根据你的用例定制 Trainer，以支持你想要添加或使用的功能，而无需从头开始重写整个训练循环。下表列出了一些可以自定义的方法。

方法	描述
get_train_dataloader()	创建训练 DataLoader
get_eval_dataloader()	创建评估 DataLoader
get_test_dataloader()	创建测试 DataLoader
log()	记录有关训练过程的信息
create_optimizer_and_scheduler()	创建优化器和学习率调度器（如果未在 `__init__` 中传入，也可以通过 create_optimizer() 和 create_scheduler() 单独自定义）
compute_loss()	计算一批训练输入的损失
training_step()	执行训练步骤
prediction_step()	执行预测和测试步骤
evaluate()	评估模型并返回评估指标
predict()	在测试集上进行预测（如果标签可用，则带指标）

例如，要使用加权损失，请重写 Trainer 内部的 compute_loss()。

from torch import nn
from transformers import Trainer

class CustomTrainer(Trainer):
    def compute_losss(self, model: nn.Module, inputs: dict[str, Union[torch.Tensor, Any]], return_outputs: bool = False num_items_in_batch: Optional[torch.Tensor] = None):
        labels = inputs.pop("labels")
        # forward pass
        outputs = model(**inputs)
        logits = outputs.get("logits")
        # compute custom loss for 3 labels with different weights
        reduction = "mean" if num_items_in_batch is not None else "sum"
        loss_fct = nn.CrossEntropyLoss(weight=torch.tensor([1.0, 2.0, 3.0], device=model.device, reduction=reduction))
        loss = loss_fct(logits.view(-1, self.model.config.num_labels), labels.view(-1))
        if num_items_in_batch is not None:
            loss = loss / num_items_in_batch
        return (loss, outputs) if return_outputs else loss

回调

回调是自定义 Trainer 的另一种方式，但它们不改变 *训练循环内部* 的任何内容。相反，回调会检查训练循环状态并根据状态执行某些操作（提前停止、日志记录等）。例如，你不能使用回调实现自定义损失函数，因为这需要重写 compute_loss()。

要使用回调，请创建一个继承自 TrainerCallback 的类，并实现你想要的功能。然后将回调传递给 Trainer 中的 callback 参数。下面的示例实现了一个提前停止回调，它在 10 步后停止训练。

from transformers import TrainerCallback, Trainer

class EarlyStoppingCallback(TrainerCallback):
    def __init__(self, num_steps=10):
        self.num_steps = num_steps

    def on_step_end(self, args, state, control, **kwargs):
        if state.global_step >= self.num_steps:
            return {"should_training_stop": True}
        else:
            return {}

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    processing_class=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    callbacks=[EarlyStoppingCallback()],
)

Accelerate

Accelerate 是一个简化分布式环境和不同硬件之间训练的库。它与 Trainer 的集成意味着 Trainer 支持分布式训练框架，如 Fully Sharded Data Parallel (FSDP) 和 DeepSpeed。

在完全分片数据并行指南中，了解更多关于 FSDP 分片策略、CPU 卸载以及与 Trainer 相关的更多信息。

要将 Accelerate 与 Trainer 一起使用，请运行 accelerate_config 命令来配置你的训练环境。此命令会创建一个 config_file.yaml 文件，该文件存储你的训练环境的配置设置，并且在你每次启动训练脚本时都会使用它。下面显示了一些分布式训练配置示例。

分布式数据并行

完全分片数据并行

DeepSpeed

带有 Accelerate 插件的 DeepSpeed

运行 accelerate_launch 以使用 config_file.yaml 中设置的配置开始训练。此文件将保存到 Accelerate 缓存文件夹中，并在你运行 accelerate_launch 时自动加载。

下面的示例使用前面显示的 FSDP 配置启动 run_glue.py 脚本。config_file.yaml 文件中的参数也可以直接在命令行中设置。

accelerate launch \
    ./examples/pytorch/text-classification/run_glue.py \
    --model_name_or_path google-bert/bert-base-cased \
    --task_name $TASK_NAME \
    --do_train \
    --do_eval \
    --max_seq_length 128 \
    --per_device_train_batch_size 16 \
    --learning_rate 5e-5 \
    --num_train_epochs 3 \
    --output_dir /tmp/$TASK_NAME/ \
    --overwrite_output_dir

请参阅启动您的 Accelerate 脚本教程，了解有关 accelerate_launch 和自定义配置的更多信息。

优化

Trainer 支持各种优化以提高 *训练* 性能（减少内存并提高训练速度）和 *模型* 性能。

torch.compile

torch.compile 可以显著加速训练并减少计算开销。在 TrainingArguments 中配置你的 torch.compile 设置。将 torch_compile 设置为 True，并选择后端和编译模式。

from transformers import TrainingArguments

training_args = TrainingArguments(
    torch_compile=True,
    torch_compile_backend="inductor",
    torch_compile_mode="default",
    ...,
)

GaLore

梯度低秩投影 (GaLore) 显著降低了训练大型语言模型 (LLM) 时的内存使用。GaLore 的主要优势之一是 *全参数* 学习，这与 LoRA 等低秩适应方法不同，后者能产生更好的模型性能。

安装 GaLore 和 TRL 库。

pip install galore-torch trl

选择一个 GaLore 优化器（"galore_adamw"、"galore_adafactor"、"galore_adamw_8bit”）并将其传递给 trl.SFTConfig 中的 optim 参数。使用 optim_target_modules 参数指定要适应的模块（可以是字符串列表、正则表达式或完整路径）。

GaLore 支持的额外参数 rank、update_proj_gap 和 scale 应传递给 trl.SFTConfig 中的 optim_args 参数。

下面的示例使用正则表达式启用 SFTTrainer 的 GaLore，目标是 attn 和 mlp 层。

训练开始可能需要一些时间（在 NVIDIA A100 上，2B 模型约 3 分钟）。

GaLore 优化器

带有分层优化的 GaLore 优化器

只有被认为是 GaLore 层的线性层才能通过低秩分解进行训练。模型的其余层以常规方式进行优化。

Liger

Liger Kernel 是一系列层，例如 RMSNorm、RoPE、SwiGLU、CrossEntropy、FusedLinearCrossEntropy 等，它们已被融合到单个 Triton 内核中，用于训练 LLM。这些内核还与 FlashAttention、FSDP 和 DeepSpeed 兼容。因此，Liger Kernel 可以提高多 GPU 训练吞吐量并减少内存使用。这对于多头训练和支持更大的词汇量、更大的批处理大小和更长的上下文长度非常有用。

pip install liger-kernel

通过在 TrainingArguments 中设置 use_liger_kernel=True 来启用 Liger Kernel 进行训练。这会将模型中对应的层打上 Ligers 内核补丁。

Liger Kernel 支持 Llama、Gemma、Mistral 和 Mixtral 模型。有关支持模型的最新列表，请参阅补丁列表。

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="your-model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=2,
    weight_decay=0.01,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=True,
    use_liger_kernel=True
)

您还可以使用 `liger_kernel_config` 参数配置要应用哪些特定内核。该字典作为关键字参数传递给 `_apply_liger_kernel_to_instance` 函数，从而可以精细控制内核使用。可用选项因模型而异，但通常包括：`rope`、`swiglu`、`cross_entropy`、`fused_linear_cross_entropy`、`rms_norm` 等。

from transformers import TrainingArguments

# Apply only specific kernels
training_args = TrainingArguments(
    output_dir="your-model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=2,
    weight_decay=0.01,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=True,
    use_liger_kernel=True,
    liger_kernel_config={
        "rope": True,
        "cross_entropy": True,
        "rms_norm": False,  # Don't apply Liger's RMSNorm kernel
        "swiglu": True,
    }
)

NEFTune

NEFTune 在训练期间向嵌入向量添加噪声以提高模型性能。在 Trainer 中启用它，使用 TrainingArguments 中的 neftune_noise_alpha 参数来控制添加的噪声量。

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(..., neftune_noise_alpha=0.1)
trainer = Trainer(..., args=training_args)

训练后恢复原始嵌入层，以避免任何意外行为。

< > 在 GitHub 上更新