优化

此页面包含 timm 中学习率优化器的 API 参考文档。

优化器

工厂函数

timm.optim.create_optimizer_v2

( model_or_params: typing.Union[torch.nn.modules.module.Module, typing.Iterable[torch.Tensor], typing.Iterable[typing.Dict[str, typing.Any]], typing.Iterable[typing.Tuple[str, torch.Tensor]]] opt: str = 'sgd' lr: typing.Optional[float] = None weight_decay: float = 0.0 momentum: float = 0.9 foreach: typing.Optional[bool] = None filter_bias_and_bn: bool = True layer_decay: typing.Optional[float] = None param_group_fn: typing.Optional[typing.Callable[[torch.nn.modules.module.Module], typing.Union[typing.Iterable[torch.Tensor], typing.Iterable[typing.Dict[str, typing.Any]], typing.Iterable[typing.Tuple[str, torch.Tensor]]]]] = None **kwargs: typing.Any )

参数

model_or_params — 一个 PyTorch 模型或参数/参数组的可迭代对象。如果提供模型，将根据其他参数自动提取和分组参数。
opt — 要创建的优化器的名称（例如，‘adam’、‘adamw’、‘sgd’）。使用 list_optimizers() 查看可用选项。
lr — 学习率。如果为 None，将使用优化器的默认值。
weight_decay — 权重衰减因子。如果 model_or_params 是模型，将用于创建参数组。
momentum — 支持动量的优化器的动量因子。仅当选择的优化器接受动量参数时使用。
foreach — 如果可用，启用/禁用 foreach（多张量）实现。如果为 None，将使用特定于优化器的默认值。
filter_bias_and_bn — 如果为 True，则偏差、归一化层参数（所有 1d 参数）将不会应用权重衰减。仅当 model_or_params 是模型且 weight_decay > 0 时使用。
layer_decay — 可选的逐层学习率衰减因子。如果提供，学习率将按 layer_decay^(max_depth - layer_depth) 缩放。仅当 model_or_params 是模型时使用。
param_group_fn — 用于创建自定义参数组的可选函数。如果提供，将忽略其他参数分组选项。
**kwargs — 其他特定于优化器的参数（例如，Adam 的 betas）。

通过 timm 注册表创建优化器实例。

创建和配置具有适当参数组和设置的优化器。支持为权重衰减和逐层学习率自动创建参数组，以及自定义参数分组。

示例

使用模型的基本用法

optimizer = create_optimizer_v2(model, ‘adamw’, lr=1e-3)

具有动量和权重衰减的 SGD

optimizer = create_optimizer_v2( … model, ‘sgd’, lr=0.1, momentum=0.9, weight_decay=1e-4 … )

具有逐层学习率衰减的 Adam

optimizer = create_optimizer_v2( … model, ‘adam’, lr=1e-3, layer_decay=0.7 … )

自定义参数组

def group_fn(model): … return [ … {‘params’: model.backbone.parameters(), ‘lr’: 1e-4}, … {‘params’: model.head.parameters(), ‘lr’: 1e-3} … ] optimizer = create_optimizer_v2( … model, ‘sgd’, param_group_fn=group_fn … )

注意：参数组处理优先级

如果提供了 param_group_fn，将独占使用它。
如果提供了 layer_decay，将创建逐层组。
如果 weight_decay > 0 且 filter_bias_and_bn 为 True，将创建权重衰减组。
否则，所有参数将位于单个组中。

timm.optim.list_optimizers

< 源代码 >

( filter: typing.Union[str, typing.List[str]] = '' exclude_filters: typing.Optional[typing.List[str]] = None with_description: bool = False ) → 如果 with_description 为 False

参数

filter — 通配符样式的过滤器字符串或过滤器字符串列表（例如，‘adam*’ 代表所有 Adam 变体，或 [‘adam*’, ‘*8bit’] 代表 Adam 变体和 8 位优化器）。空字符串表示不进行过滤。
exclude_filters — 要排除的通配符模式的可选列表。例如，[’*8bit’, ‘fused*’] 将排除 8 位和融合实现。
with_description — 如果为 True，则返回 (name, description) 元组，而不是仅返回名称。描述提供了优化器特性的简要说明。

如果 with_description 为 False

优化器名称字符串列表（例如，[‘adam’、‘adamw’、…]）。如果 with_description 为 True：(name, description) 元组列表（例如，[(‘adam’, ‘Adaptive Moment…’), …]）

列出可用的优化器名称，可选择过滤。

列出所有已注册的优化器，可选择使用通配符模式进行过滤。可以使用包含和排除模式过滤优化器，并且可以选择返回每个优化器名称的描述。

示例

list_optimizers() [‘adam’, ‘adamw’, ‘sgd’, …]

list_optimizers([‘la*’, ‘nla*’]) # 列出 lamb 和 lars [‘lamb’, ‘lambc’, ‘larc’, ‘lars’, ‘nlarc’, ‘nlars’]

list_optimizers(’*adam*’, exclude_filters=[‘bnb*’, ‘fused*’]) # 排除 bnb 和 apex adam 优化器 [‘adam’, ‘adamax’, ‘adamp’, ‘adamw’, ‘nadam’, ‘nadamw’, ‘radam’]

list_optimizers(with_description=True) # 获取描述 [(‘adabelief’, ‘根据梯度预测误差调整学习率’), (‘adadelta’, ‘torch.optim Adadelta, 根据梯度运行窗口调整学习率’), (‘adafactor’, ‘Adam 的内存高效实现，具有分解梯度’), …]

timm.optim.get_optimizer_class

< 源代码 >

( name: str bind_defaults: bool = True ) → 如果 bind_defaults 为 False

参数

name — 要检索的优化器的名称（例如，‘adam’、‘sgd’）
bind_defaults — 如果为 True，则返回一个部分函数，其中包含来自 OptimInfo 绑定的默认参数。如果为 False，则返回原始优化器类。

如果 bind_defaults 为 False

优化器类（例如，torch.optim.Adam）。如果 bind_defaults 为 True：具有默认参数绑定的部分函数。

抛出

ValueError

ValueError — 如果在注册表中找不到优化器名称

通过名称获取优化器类，可以选择绑定默认参数。

检索优化器类或具有默认参数绑定的部分函数。这允许直接实例化优化器及其默认配置，而无需经过完整的工厂。

示例

获取带有Nesterov动量默认值的SGD

SGD = get_optimizer_class(‘sgd’) # nesterov=True bound opt = SGD(model.parameters(), lr=0.1, momentum=0.9)

获取原始优化器类

SGD = get_optimizer_class(‘sgd’) opt = SGD(model.parameters(), lr=1e-3, momentum=0.9)

timm

优化

优化器

工厂函数

timm.optim.create_optimizer_v2

使用模型的基本用法

具有动量和权重衰减的 SGD

具有逐层学习率衰减的 Adam

自定义参数组

timm.optim.list_optimizers

timm.optim.get_optimizer_class

获取带有Nesterov动量默认值的SGD

获取原始优化器类

优化器类

class timm.optim.AdaBelief

step

class timm.optim.Adafactor

step

class timm.optim.AdafactorBigVision

class timm.optim.Adahessian

get_params

set_hessian

step

zero_hessian

class timm.optim.AdamP

class timm.optim.Adan

step

class timm.optim.Adopt

step

class timm.optim.Lamb

step

class timm.optim.LaProp

step

class timm.optim.Lars

step

class timm.optim.Lion

step

class timm.optim.Lookahead

class timm.optim.MADGRAD

step

class timm.optim.Mars

step

class timm.optim.NAdamW

step

class timm.optim.NvNovoGrad

step

class timm.optim.RMSpropTF

step

class timm.optim.SGDP

class timm.optim.SGDW

step