Bitsandbytes文档

LARS

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

以开始使用

LARS

LARS (层自适应率缩放) 是一种针对大型批量大小训练的优化器,旨在加速训练。LARS 使用每个 的单独学习率,而不是每个参数。学习率由层中权重和梯度范数的 信任率 计算得出。这有助于校准稳定的更新大小。

LARS

bitsandbytes.optim.LARS

< >

( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False optim_bits = 32 args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )

__init__

< >

( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False optim_bits = 32 args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )

参数

  • params (torch.tensor) — 要优化的输入参数。
  • lr (float) — 学习率。
  • momentum (float, 默认值为0) — 动量值,通过采取更大的步长来加速优化器。
  • dampening (float, 默认值为0) — 减缓动量的值。
  • weight_decay (float, 默认值为1e-2) — 优化器的权重复合值。
  • nesterov (bool,默认为False) — 是否使用Nesterov动量。
  • optim_bits (int,默认为32) — 优化器状态的位数。
  • args (object,默认为None) — 包含额外参数的实例。
  • min_8bit_size (int,默认为4096) — 对于8位优化的参数张量的最小元素数。
  • percentile_clipping (int, 默认值为100) — 通过跟踪最后100个梯度范数来自动调整裁剪阈值,并在某个百分位数处裁剪梯度以改善稳定性。
  • max_unorm (float, 默认值为0.02) — 最大梯度范数。

基LARS优化器。

LARS8bit

bitsandbytes.optim.LARS8bit

< >

( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )

__init__

< >

( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )

参数

  • weight_decay (浮点型, 默认为 1e-2) — 优化器的权重衰减值。
  • nesterov (布尔型, 默认为 False) — 是否使用Nesterov动量。
  • args (对象, 默认为 None) — 包含附加参数的对象。
  • min_8bit_size (整数型, 默认为 4096) — 8位优化的参数张量元素的最小数量。
  • percentile_clipping (int, 默认值为100) — 通过跟踪最后100个梯度范数的值来自动调整剪切阈值,并在一定百分比的梯度上剪切,以提高稳定性。
  • max_unorm (float, 默认值为0.02) — 最大梯度范数。

8位LARS优化器。

LARS32bit

bitsandbytes.optim.LARS32bit

< >

( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )

__init__

< >

( params lr momentum = 0 dampening = 0 weight_decay = 0 nesterov = False args = None min_8bit_size = 4096 percentile_clipping = 100 max_unorm = 0.02 )

参数

  • params (torch.tensor) — 要优化的输入参数。
  • lr (float) — 学习率。
  • momentum (float, 默认值 0) — 动量值,通过增大步幅加快优化过程。
  • 阻尼系数 (float,默认为0) — 阻尼系数可以减少优化器的动量。
  • 权重衰减 (float,默认为1e-2) — 优化器的权重衰减值。
  • Nesterov动量 (bool,默认为False) — 是否使用Nesterov动量。
  • 额外参数 (object,默认为None) — 包含额外参数的对象。
  • min_8bit_size (int, 默认为4096) — 8位优化参数张量的最小元素数量。
  • percentile_clipping (int, 默认为100) — 通过跟踪最后100个梯度范数来自动调整剪辑阈值,并在某个百分位数修剪梯度以改善稳定性。
  • max_unorm (float, 默认为0.02) — 最大梯度范数。

32位LARS优化器。

< > 在GitHub上更新