优化

.optimization 模块提供了

一个带有权重衰减修正的优化器，可用于微调模型，以及
几个以调度器对象形式存在的调度策略，它们都继承自 _LRSchedule
一个用于累积多个批次梯度的梯度累积类

AdaFactor (PyTorch)

class transformers.Adafactor

( params lr = None eps = (1e-30, 0.001) clip_threshold = 1.0 decay_rate = -0.8 beta1 = None weight_decay = 0.0 scale_parameter = True relative_step = True warmup_init = False )

参数

params (Iterable[nn.parameter.Parameter]) — 可迭代的待优化参数或定义参数组的字典。
lr (float, optional) — 外部学习率。
eps (tuple[float, float], optional, defaults to (1e-30, 0.001)) — 分别用于梯度平方和参数尺度的正则化常数
clip_threshold (float, optional, defaults to 1.0) — 最终梯度更新的均方根阈值
decay_rate (float, optional, defaults to -0.8) — 用于计算平方运行平均值的系数
beta1 (float, optional) — 用于计算梯度运行平均值的系数
weight_decay (float, optional, defaults to 0.0) — 权重衰减 (L2 惩罚)
scale_parameter (bool, optional, defaults to True) — 如果为 True，学习率将按均方根进行缩放
relative_step (bool, optional, defaults to True) — 如果为 True，则计算与时间相关的学习率，而不是外部学习率
warmup_init (bool, optional, defaults to False) — 与时间相关的学习率计算取决于是否使用预热初始化

AdaFactor pytorch 实现可以作为 Adam 原始 fairseq 代码的直接替代品：https://github.com/pytorch/fairseq/blob/master/fairseq/optim/adafactor.py

论文：Adafactor: Adaptive Learning Rates with Sublinear Memory Cost https://huggingface.co/papers/1804.04235 请注意，此优化器根据 scale_parameter、relative_step 和 warmup_init 选项在内部调整学习率。要使用手动（外部）学习率调度，应设置 scale_parameter=False 和 relative_step=False。

此实现处理低精度（FP16，bfloat）值，但我们尚未进行彻底测试。

推荐的 T5 微调设置 (https://discuss.huggingface.co/t/t5-finetuning-tips/684/3)

不建议在没有 LR 预热或 clip_threshold 的情况下进行训练。
- 使用预定的 LR 预热到固定的 LR
- 使用 clip_threshold=1.0 (https://huggingface.co/papers/1804.04235)
禁用相对更新
使用 scale_parameter=False
不应将梯度裁剪等其他优化器操作与 Adafactor 一起使用

示例

Adafactor(model.parameters(), scale_parameter=False, relative_step=False, warmup_init=False, lr=1e-3)

其他人报告以下组合效果很好

Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True, lr=None)

当在 Trainer 中使用 lr=None 时，您很可能需要使用 AdafactorSchedule

调度器如下

from transformers.optimization import Adafactor, AdafactorSchedule

optimizer = Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True, lr=None)
lr_scheduler = AdafactorSchedule(optimizer)
trainer = Trainer(..., optimizers=(optimizer, lr_scheduler))

用法

# replace AdamW with Adafactor
optimizer = Adafactor(
    model.parameters(),
    lr=1e-3,
    eps=(1e-30, 1e-3),
    clip_threshold=1.0,
    decay_rate=-0.8,
    beta1=None,
    weight_decay=0.0,
    relative_step=False,
    scale_parameter=False,
    warmup_init=False,
)

步骤

< 来源 >

( closure = None )

参数

closure (callable, optional) — 一个重新评估模型并返回损失的闭包。

执行单个优化步骤

AdamWeightDecay (TensorFlow)

class transformers.AdamWeightDecay

< 来源 >

( learning_rate: typing.Union[float, tf_keras.src.optimizers.schedules.learning_rate_schedule.LearningRateSchedule] = 0.001 beta_1: float = 0.9 beta_2: float = 0.999 epsilon: float = 1e-07 amsgrad: bool = False weight_decay_rate: float = 0.0 include_in_weight_decay: typing.Optional[list[str]] = None exclude_from_weight_decay: typing.Optional[list[str]] = None name: str = 'AdamWeightDecay' **kwargs )

参数

learning_rate (Union[float, LearningRateSchedule], optional, defaults to 0.001) — 要使用的学习率或调度器。
beta_1 (float, optional, defaults to 0.9) — Adam 中的 beta1 参数，即一阶动量估计的指数衰减率。
beta_2 (float, optional, defaults to 0.999) — Adam 中的 beta2 参数，即二阶动量估计的指数衰减率。
epsilon (float, optional, defaults to 1e-07) — Adam 中的 epsilon 参数，是一个用于数值稳定性的小常数。
amsgrad (bool, optional, defaults to False) — 是否应用此算法的 AMSGrad 变体，参见 On the Convergence of Adam and Beyond。
weight_decay_rate (float, optional, defaults to 0.0) — 要应用的权重衰减率。
include_in_weight_decay (list[str], optional) — 要应用权重衰减的参数名称列表（或正则表达式模式）。如果未传递，则默认对所有参数应用权重衰减（除非它们在 exclude_from_weight_decay 中）。
exclude_from_weight_decay (list[str], optional) — 要从权重衰减中排除的参数名称列表（或正则表达式模式）。如果传递了 include_in_weight_decay，则其中的名称将覆盖此列表。
name (str, optional, defaults to "AdamWeightDecay") — 应用梯度时创建的操作的可选名称。
kwargs (dict[str, Any], optional) — 关键字参数。允许为 {clipnorm, clipvalue, lr, decay}。clipnorm 是按范数裁剪梯度；clipvalue 是按值裁剪梯度，decay 是为了向后兼容而包含的，允许学习率的时间反向衰减。lr 也是为了向后兼容而包含的，推荐使用 learning_rate。

Adam 启用 L2 权重衰减和梯度的 clip_by_global_norm。仅仅将权重的平方添加到损失函数中并*不是*在 Adam 中使用 L2 正则化/权重衰减的正确方法，因为这会以奇怪的方式与 m 和 v 参数交互，如 Decoupled Weight Decay Regularization 中所示。

相反，我们希望以一种不与 m/v 参数交互的方式来衰减权重。这相当于在普通（非动量）SGD 中将权重的平方添加到损失中。

from_config

< 来源 >

( config )

使用 WarmUp 自定义对象从其配置中创建一个优化器。

transformers.create_optimizer

< 来源 >

( init_lr: float num_train_steps: int num_warmup_steps: int min_lr_ratio: float = 0.0 adam_beta1: float = 0.9 adam_beta2: float = 0.999 adam_epsilon: float = 1e-08 adam_clipnorm: typing.Optional[float] = None adam_global_clipnorm: typing.Optional[float] = None weight_decay_rate: float = 0.0 power: float = 1.0 include_in_weight_decay: typing.Optional[list[str]] = None )

参数

init_lr (float) — 预热阶段结束时期望的学习率。
num_train_steps (int) — 训练总步数。
num_warmup_steps (int) — 预热步数。
min_lr_ratio (float, optional, defaults to 0) — 线性衰减结束时的最终学习率将是 init_lr * min_lr_ratio。
adam_beta1 (float, optional, defaults to 0.9) — Adam 中使用的 beta1。
adam_beta2 (float, optional, defaults to 0.999) — Adam 中使用的 beta2。
adam_epsilon (float, optional, defaults to 1e-8) — Adam 中使用的 epsilon。
adam_clipnorm (float, optional, defaults to None) — 如果不为 None，将每个权重张量的梯度范数裁剪到此值。
adam_global_clipnorm (float, optional, defaults to None) — 如果不为 None，将梯度范数裁剪到此值。使用此参数时，范数是在所有权重张量上计算的，就像它们被连接成一个单一向量一样。
weight_decay_rate (float, optional, defaults to 0) — 要使用的权重衰减率。
power (float, optional, defaults to 1.0) — 用于 PolynomialDecay 的幂。
include_in_weight_decay (list[str], optional) — 要应用权重衰减的参数名称列表（或正则表达式模式）。如果未传递，则对除偏置和层归一化参数外的所有参数应用权重衰减。

创建一个优化器，其学习率调度策略包含预热阶段和随后的线性衰减。

调度器

学习率调度器 (PyTorch)

class transformers.SchedulerType

< 来源 >

( value names = None module = None qualname = None type = None start = 1 )

TrainingArguments 中参数 lr_scheduler_type 的调度器名称。默认情况下，它使用“linear”。在内部，它从 Trainer 中检索 get_linear_schedule_with_warmup 调度器。调度器类型

“linear” = get_linear_schedule_with_warmup
“cosine” = get_cosine_schedule_with_warmup
“cosine_with_restarts” = get_cosine_with_hard_restarts_schedule_with_warmup
“polynomial” = get_polynomial_decay_schedule_with_warmup
“constant” = get_constant_schedule
“constant_with_warmup” = get_constant_schedule_with_warmup
“inverse_sqrt” = get_inverse_sqrt_schedule
“reduce_lr_on_plateau” = get_reduce_on_plateau_schedule
“cosine_with_min_lr” = get_cosine_with_min_lr_schedule_with_warmup
“warmup_stable_decay” = get_wsd_schedule

transformers.get_scheduler

< source >

( name: typing.Union[str, transformers.trainer_utils.SchedulerType] optimizer: Optimizer num_warmup_steps: typing.Optional[int] = None num_training_steps: typing.Optional[int] = None scheduler_specific_kwargs: typing.Optional[dict] = None )

参数

name (str 或 SchedulerType) — 要使用的调度器名称。
optimizer (torch.optim.Optimizer) — 训练期间将使用的优化器。
num_warmup_steps (int, 可选) — 要执行的预热（warmup）步数。并非所有调度器都需要此参数（因此该参数是可选的），如果未设置而调度器类型需要它，函数将引发错误。
num_training_steps (`int`, 可选) — 要执行的训练步数。并非所有调度器都需要此参数（因此该参数是可选的），如果未设置而调度器类型需要它，函数将引发错误。
scheduler_specific_kwargs (dict, 可选) — 调度器的额外参数，例如带重启的余弦（cosine with restarts）调度器。不匹配的调度器类型和调度器参数将导致调度器函数引发 TypeError。

通过名称获取任何调度器的统一 API。

transformers.get_constant_schedule

< source >

( optimizer: Optimizer last_epoch: int = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个具有恒定学习率的调度器，使用在优化器中设置的学习率。

transformers.get_constant_schedule_with_warmup

< source >

( optimizer: Optimizer num_warmup_steps: int last_epoch: int = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个调度器，其学习率在预热期内从 0 线性增加到优化器中设置的初始学习率，然后保持恒定。

transformers.get_cosine_schedule_with_warmup

< source >

( optimizer: Optimizer num_warmup_steps: int num_training_steps: int num_cycles: float = 0.5 last_epoch: int = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
num_training_steps (int) — 训练的总步数。
num_cycles (float, 可选, 默认为 0.5) — 余弦调度器中的波形数量（默认是遵循半个余弦周期从最大值减少到 0）。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个调度器，其学习率在预热期内从 0 线性增加到优化器中设置的初始学习率，然后遵循余弦函数的值从初始学习率降至 0。

transformers.get_cosine_with_hard_restarts_schedule_with_warmup

< source >

( optimizer: Optimizer num_warmup_steps: int num_training_steps: int num_cycles: int = 1 last_epoch: int = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
num_training_steps (int) — 训练的总步数。
num_cycles (int, 可选, 默认为 1) — 要使用的硬重启次数。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个调度器，其学习率在预热期内从 0 线性增加到优化器中设置的初始学习率，然后遵循余弦函数的值从初始学习率降至 0，并带有多次硬重启。

transformers.get_linear_schedule_with_warmup

< source >

( optimizer num_warmup_steps num_training_steps last_epoch = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
num_training_steps (int) — 训练的总步数。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个调度器，其学习率在预热期内从 0 线性增加到优化器中设置的初始学习率，然后从初始学习率线性降低到 0。

transformers.get_polynomial_decay_schedule_with_warmup

< source >

( optimizer num_warmup_steps num_training_steps lr_end = 1e-07 power = 1.0 last_epoch = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
num_training_steps (int) — 训练的总步数。
lr_end (float, 可选, 默认为 1e-7) — 最终学习率。
power (float, 可选, 默认为 1.0) — 幂因子。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个调度器，其学习率在预热期内从 0 线性增加到优化器中设置的初始学习率，然后从初始学习率多项式衰减到由 lr_end 定义的最终学习率。

注意：power 默认为 1.0，与 fairseq 实现一致，而 fairseq 的实现又基于原始 BERT 的实现，见 https://github.com/google-research/bert/blob/f39e881b169b9d53bea03d2d341b31707a6c052b/optimization.py#L37

transformers.get_inverse_sqrt_schedule

< source >

( optimizer: Optimizer num_warmup_steps: int timescale: typing.Optional[int] = None last_epoch: int = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
timescale (int, 可选, 默认为 num_warmup_steps) — 时间尺度。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个具有逆平方根学习率的调度器，在预热期内学习率从 0 线性增加到优化器中设置的初始学习率，之后从初始学习率开始衰减。

transformers.get_wsd_schedule

< source >

( optimizer: Optimizer num_warmup_steps: int num_decay_steps: int num_training_steps: typing.Optional[int] = None num_stable_steps: typing.Optional[int] = None warmup_type: str = 'linear' decay_type: str = 'cosine' min_lr_ratio: float = 0 num_cycles: float = 0.5 last_epoch: int = -1 )

参数

optimizer (~torch.optim.Optimizer) — 用于调度学习率的优化器。
num_warmup_steps (int) — 预热（warmup）阶段的步数。
num_decay_steps (int) — 衰减阶段的步数。
num_training_steps (int, 可选) — 训练的总步数。这是预热、稳定和衰减阶段步数的总和。如果未提供 `num_stable_steps`，则稳定阶段将为 `num_training_steps - num_warmup_steps - num_decay_steps`。
num_stable_steps (int, 可选) — 稳定阶段的步数。请确保 `num_warmup_steps + num_stable_steps + num_decay_steps` 等于 `num_training_steps`，否则其他步骤将默认为最小学习率。
warmup_type (str, 可选, 默认为 “linear”) — 使用的预热类型。可以是 ‘linear’、‘cosine’ 或 ‘1-sqrt’。
decay_type (str, 可选, 默认为 “cosine”) — 使用的衰减类型。可以是 ‘linear’、‘cosine’ 或 ‘1-sqrt’。
min_lr_ratio (float, 可选, 默认为 0) — 最小学习率与初始学习率的比率。
num_cycles (float, 可选, 默认为 0.5) — 余弦调度器中的波形数量（默认是遵循半个余弦周期从最大值减少到 0）。
last_epoch (int, 可选, 默认为 -1) — 恢复训练时最后一个周期的索引。

创建一个具有三个阶段学习率的调度器

预热（warmup）：按照 warmup_type 从初始学习率的 min_lr_ratio 倍增加到初始学习率。
稳定（stable）：恒定学习率。
衰减（decay）：按照 decay_type 从初始学习率降低到初始学习率的 min_lr_ratio 倍。

Warmup (TensorFlow)

class transformers.WarmUp

< source >

( initial_learning_rate: float decay_schedule_fn: typing.Callable warmup_steps: int power: float = 1.0 name: typing.Optional[str] = None )

参数

initial_learning_rate (float) — 预热后的调度初始学习率（因此这将是预热结束时的学习率）。
decay_schedule_fn (Callable) — 预热后应用于剩余训练过程的调度函数。
warmup_steps (int) — 训练中预热部分的步数。
power (float, optional, defaults to 1.0) — 用于多项式预热的幂（默认为线性预热）。
name (str, optional) — 可选的名称前缀，用于调度期间返回的张量。

对给定的学习率衰减调度应用预热调度。

梯度策略

GradientAccumulator (TensorFlow)

class transformers.GradientAccumulator

< 源码 >

( )

梯度累积工具。当与分布策略一起使用时，累积器应在副本上下文中调用。梯度将在每个副本上本地累积，无需同步。用户应随后调用 .gradients，根据需要缩放梯度，并将结果传递给 apply_gradients。

重置

< 源码 >

( )

重置当前副本上累积的梯度。

< > 在 GitHub 上更新

Transformers

优化

AdaFactor (PyTorch)

class transformers.Adafactor

步骤

AdamWeightDecay (TensorFlow)

class transformers.AdamWeightDecay

from_config

transformers.create_optimizer

调度器

学习率调度器 (PyTorch)

class transformers.SchedulerType

transformers.get_scheduler

transformers.get_constant_schedule

transformers.get_constant_schedule_with_warmup

transformers.get_cosine_schedule_with_warmup

transformers.get_cosine_with_hard_restarts_schedule_with_warmup

transformers.get_linear_schedule_with_warmup

transformers.get_polynomial_decay_schedule_with_warmup

transformers.get_inverse_sqrt_schedule

transformers.get_wsd_schedule

Warmup (TensorFlow)

class transformers.WarmUp

梯度策略

GradientAccumulator (TensorFlow)

class transformers.GradientAccumulator

重置