LARS
LARS (层自适应率缩放) 是一种针对大型批量大小训练的优化器,旨在加速训练。LARS 使用每个 层 的单独学习率,而不是每个参数。学习率由层中权重和梯度范数的 信任率 计算得出。这有助于校准稳定的更新大小。
LARS
类 bitsandbytes.optim.LARS
< 源代码 >( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False optim_bits = 32 args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )
__init__
< source >( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False optim_bits = 32 args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )
参数
- params (
torch.tensor
) — 要优化的输入参数。 - lr (
float
) — 学习率。 - momentum (
float
, 默认值为0) — 动量值,通过采取更大的步长来加速优化器。 - dampening (
float
, 默认值为0) — 减缓动量的值。 - weight_decay (
float
, 默认值为1e-2) — 优化器的权重复合值。 - nesterov (
bool
,默认为False
) — 是否使用Nesterov动量。 - optim_bits (
int
,默认为32) — 优化器状态的位数。 - args (
object
,默认为None
) — 包含额外参数的实例。 - min_8bit_size (
int
,默认为4096) — 对于8位优化的参数张量的最小元素数。 - percentile_clipping (
int
, 默认值为100) — 通过跟踪最后100个梯度范数来自动调整裁剪阈值,并在某个百分位数处裁剪梯度以改善稳定性。 - max_unorm (
float
, 默认值为0.02) — 最大梯度范数。
基LARS优化器。
LARS8bit
类 bitsandbytes.optim.LARS8bit
< 来源 >( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )
__init__
< 源代码 >( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )
8位LARS优化器。
LARS32bit
类 bitsandbytes.optim.LARS32bit
< source >( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )
__init__
< 源代码 >( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )
参数
- params (
torch.tensor
) — 要优化的输入参数。 - lr (
float
) — 学习率。 - momentum (
float
, 默认值 0) — 动量值,通过增大步幅加快优化过程。 - 阻尼系数 (
float
,默认为0) — 阻尼系数可以减少优化器的动量。 - 权重衰减 (
float
,默认为1e-2) — 优化器的权重衰减值。 - Nesterov动量 (
bool
,默认为False
) — 是否使用Nesterov动量。 - 额外参数 (
object
,默认为None
) — 包含额外参数的对象。 - min_8bit_size (
int
, 默认为4096) — 8位优化参数张量的最小元素数量。 - percentile_clipping (
int
, 默认为100) — 通过跟踪最后100个梯度范数来自动调整剪辑阈值,并在某个百分位数修剪梯度以改善稳定性。 - max_unorm (
float
, 默认为0.02) — 最大梯度范数。
32位LARS优化器。