自定义模型
一些微调技术,例如提示调优,特定于语言模型。这意味着在 🤗 PEFT 中,假设使用的是 🤗 Transformers 模型。但是,其他微调技术 - 例如 LoRA - 不受限于特定的模型类型。
在本指南中,我们将了解如何将 LoRA 应用于多层感知器、来自 timm 库的计算机视觉模型或新的 🤗 Transformers 架构。
多层感知器
假设我们想用 LoRA 微调一个多层感知器。以下是定义
from torch import nn
class MLP(nn.Module):
def __init__(self, num_units_hidden=2000):
super().__init__()
self.seq = nn.Sequential(
nn.Linear(20, num_units_hidden),
nn.ReLU(),
nn.Linear(num_units_hidden, num_units_hidden),
nn.ReLU(),
nn.Linear(num_units_hidden, 2),
nn.LogSoftmax(dim=-1),
)
def forward(self, X):
return self.seq(X)
这是一个简单的多层感知器,包含输入层、隐藏层和输出层。
对于这个玩具示例,我们选择了一个非常大的隐藏单元数量来突出显示 PEFT 带来的效率提升,但这些提升与更真实的示例一致。
此模型中有一些线性层可以用 LoRA 进行调优。在使用常见的 🤗 Transformers 模型时,PEFT 会知道将 LoRA 应用于哪些层,但在这种情况下,需要由用户来选择层。要确定要调优的层的名称
print([(n, type(m)) for n, m in MLP().named_modules()])
这应该会打印
[('', __main__.MLP),
('seq', torch.nn.modules.container.Sequential),
('seq.0', torch.nn.modules.linear.Linear),
('seq.1', torch.nn.modules.activation.ReLU),
('seq.2', torch.nn.modules.linear.Linear),
('seq.3', torch.nn.modules.activation.ReLU),
('seq.4', torch.nn.modules.linear.Linear),
('seq.5', torch.nn.modules.activation.LogSoftmax)]
假设我们想要将 LoRA 应用于输入层和隐藏层,它们分别对应于 'seq.0'
和 'seq.2'
。此外,假设我们想要更新输出层而不使用 LoRA,输出层对应于 'seq.4'
。相应的配置如下所示:
from peft import LoraConfig
config = LoraConfig(
target_modules=["seq.0", "seq.2"],
modules_to_save=["seq.4"],
)
有了这个配置,我们就可以创建我们的 PEFT 模型并检查训练参数的比例。
from peft import get_peft_model
model = MLP()
peft_model = get_peft_model(model, config)
peft_model.print_trainable_parameters()
# prints trainable params: 56,164 || all params: 4,100,164 || trainable%: 1.369798866581922
最后,我们可以使用任何我们喜欢的训练框架,或者编写我们自己的训练循环,来训练 peft_model
。
有关完整示例,请查看此笔记本。
timm 模型
timm 库包含大量预训练的计算机视觉模型。这些模型也可以使用 PEFT 进行微调。让我们看看在实践中它是如何工作的。
首先,确保 timm 已安装在 Python 环境中。
python -m pip install -U timm
接下来,我们加载一个用于图像分类任务的 timm 模型。
import timm
num_classes = ...
model_id = "timm/poolformer_m36.sail_in1k"
model = timm.create_model(model_id, pretrained=True, num_classes=num_classes)
同样,我们需要决定将 LoRA 应用于哪些层。由于 LoRA 支持 2D 卷积层,并且这些层是该模型的主要构建块,因此我们应该将 LoRA 应用于 2D 卷积层。为了识别这些层的名称,让我们查看所有层名称。
print([(n, type(m)) for n, m in model.named_modules()])
这将打印一个非常长的列表,我们只显示前几个。
[('', timm.models.metaformer.MetaFormer),
('stem', timm.models.metaformer.Stem),
('stem.conv', torch.nn.modules.conv.Conv2d),
('stem.norm', torch.nn.modules.linear.Identity),
('stages', torch.nn.modules.container.Sequential),
('stages.0', timm.models.metaformer.MetaFormerStage),
('stages.0.downsample', torch.nn.modules.linear.Identity),
('stages.0.blocks', torch.nn.modules.container.Sequential),
('stages.0.blocks.0', timm.models.metaformer.MetaFormerBlock),
('stages.0.blocks.0.norm1', timm.layers.norm.GroupNorm1),
('stages.0.blocks.0.token_mixer', timm.models.metaformer.Pooling),
('stages.0.blocks.0.token_mixer.pool', torch.nn.modules.pooling.AvgPool2d),
('stages.0.blocks.0.drop_path1', torch.nn.modules.linear.Identity),
('stages.0.blocks.0.layer_scale1', timm.models.metaformer.Scale),
('stages.0.blocks.0.res_scale1', torch.nn.modules.linear.Identity),
('stages.0.blocks.0.norm2', timm.layers.norm.GroupNorm1),
('stages.0.blocks.0.mlp', timm.layers.mlp.Mlp),
('stages.0.blocks.0.mlp.fc1', torch.nn.modules.conv.Conv2d),
('stages.0.blocks.0.mlp.act', torch.nn.modules.activation.GELU),
('stages.0.blocks.0.mlp.drop1', torch.nn.modules.dropout.Dropout),
('stages.0.blocks.0.mlp.norm', torch.nn.modules.linear.Identity),
('stages.0.blocks.0.mlp.fc2', torch.nn.modules.conv.Conv2d),
('stages.0.blocks.0.mlp.drop2', torch.nn.modules.dropout.Dropout),
('stages.0.blocks.0.drop_path2', torch.nn.modules.linear.Identity),
('stages.0.blocks.0.layer_scale2', timm.models.metaformer.Scale),
('stages.0.blocks.0.res_scale2', torch.nn.modules.linear.Identity),
('stages.0.blocks.1', timm.models.metaformer.MetaFormerBlock),
('stages.0.blocks.1.norm1', timm.layers.norm.GroupNorm1),
('stages.0.blocks.1.token_mixer', timm.models.metaformer.Pooling),
('stages.0.blocks.1.token_mixer.pool', torch.nn.modules.pooling.AvgPool2d),
...
('head.global_pool.flatten', torch.nn.modules.linear.Identity),
('head.norm', timm.layers.norm.LayerNorm2d),
('head.flatten', torch.nn.modules.flatten.Flatten),
('head.drop', torch.nn.modules.linear.Identity),
('head.fc', torch.nn.modules.linear.Linear)]
]
仔细检查后,我们发现 2D 卷积层的名称类似于 "stages.0.blocks.0.mlp.fc1"
和 "stages.0.blocks.0.mlp.fc2"
。我们如何专门匹配这些层名称?您可以编写正则表达式来匹配层名称。对于我们的案例,正则表达式 r".*\.mlp\.fc\d"
应该可以完成这项工作。
此外,与第一个示例一样,我们应该确保输出层(在本例中为分类头)也得到更新。查看上面打印的列表末尾,我们可以看到它名为 'head.fc'
。考虑到这一点,这是我们的 LoRA 配置:
config = LoraConfig(target_modules=r".*\.mlp\.fc\d", modules_to_save=["head.fc"])
然后,我们只需要通过将我们的基础模型和配置传递给 get_peft_model
来创建 PEFT 模型。
peft_model = get_peft_model(model, config)
peft_model.print_trainable_parameters()
# prints trainable params: 1,064,454 || all params: 56,467,974 || trainable%: 1.88505789139876
这表明我们只需要训练不到 2% 的所有参数,这大大提高了效率。
有关完整示例,请查看此笔记本。
新的 Transformer 架构
当发布新的流行 Transformer 架构时,我们会尽最大努力将其快速添加到 PEFT 中。如果您遇到一个未开箱即用支持的 Transformer 模型,请不要担心,如果配置正确,它很可能仍然可以工作。具体来说,您必须识别应该调整的层,并在初始化相应的配置类(例如 LoraConfig
)时正确设置它们。以下是一些帮助您完成此操作的提示。
第一步,建议查看现有的模型以获取灵感。您可以在 PEFT 存储库中的constants.py 中找到它们。通常,您会找到一个使用相同名称的类似架构。例如,如果新的模型架构是“mistral”模型的变体,并且您想要应用 LoRA,您可以看到 TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING
中“mistral”的条目包含 ["q_proj", "v_proj"]
。这告诉您,对于“mistral”模型,LoRA 的 target_modules
应为 ["q_proj", "v_proj"]
。
from peft import LoraConfig, get_peft_model
my_mistral_model = ...
config = LoraConfig(
target_modules=["q_proj", "v_proj"],
..., # other LoRA arguments
)
peft_model = get_peft_model(my_mistral_model, config)
如果这没有帮助,请使用 named_modules
方法检查模型架构中的现有模块,并尝试识别注意力层,尤其是键、查询和值层。这些层通常具有 c_attn
、query
、q_proj
等名称。键层并不总是被调整,理想情况下,您应该检查是否包含它会导致更好的性能。
此外,线性层是常见的调整目标(例如,在QLoRA 论文中,作者建议也调整它们)。它们的名称通常包含字符串 fc
或 dense
。
如果您想将新模型添加到 PEFT,请在constants.py 中创建一个条目,并在存储库 上打开一个拉取请求。请不要忘记更新README。
验证参数和层
您可以通过几种方式验证是否已正确将 PEFT 方法应用于您的模型。
- 使用print_trainable_parameters() 方法检查可训练参数的比例。如果此数字低于或高于预期,请通过打印模型来检查模型的
repr
。这将显示模型中所有层类型的名称。确保只有目标层被适配器层替换。例如,如果 LoRA 应用于nn.Linear
层,那么您应该只看到使用了lora.Linear
层。
peft_model.print_trainable_parameters()
- 另一种查看适配层的的方法是使用
targeted_module_names
属性列出每个已适配模块的名称。
print(peft_model.targeted_module_names)
不支持的模块类型
像 LoRA 这样的方法只有在目标模块受 PEFT 支持时才能工作。例如,可以将 LoRA 应用于 nn.Linear
和 nn.Conv2d
层,但不能应用于 nn.LSTM
。如果您发现想要应用 PEFT 的层类不受支持,您可以:
- 定义自定义映射以动态调度 LoRA 中的自定义模块。
- 打开问题并请求此功能,维护人员将实现它或指导您如何在需求足够高的情况下自行实现它。
LoRA 中自定义模块的动态调度实验性支持
此功能处于实验阶段,可能会根据社区的反馈而发生变化。如果对此功能有大量需求,我们将引入一个公开且稳定的 API。
PEFT 支持 LoRA 的自定义模块类型的实验性 API。假设您有一个用于 LSTM 的 LoRA 实现。通常,您无法告诉 PEFT 使用它,即使它在理论上可以与 PEFT 一起工作。但是,使用自定义层的动态调度可以实现这一点。
当前实验性 API 如下所示:
class MyLoraLSTMLayer:
...
base_model = ... # load the base model that uses LSTMs
# add the LSTM layer names to target_modules
config = LoraConfig(..., target_modules=["lstm"])
# define a mapping from base layer type to LoRA layer type
custom_module_mapping = {nn.LSTM: MyLoraLSTMLayer}
# register the new mapping
config._register_custom_module(custom_module_mapping)
# after registration, create the PEFT model
peft_model = get_peft_model(base_model, config)
# do training
当您调用get_peft_model() 时,您会看到一个警告,因为 PEFT 无法识别目标模块类型。在这种情况下,您可以忽略此警告。
通过提供自定义映射,PEFT 首先根据自定义映射检查基础模型的层,如果存在匹配项,则调度到自定义 LoRA 层类型。如果没有匹配项,PEFT 会检查内置的 LoRA 层类型以查找匹配项。
因此,此功能还可以用于覆盖现有的调度逻辑,例如,如果您想使用自己的 LoRA 层来代替 PEFT 提供的 nn.Linear
层。
在创建自定义 LoRA 模块时,请遵循与现有 LoRA 模块相同的规则。一些需要考虑的重要约束条件:
- 自定义模块应继承自
nn.Module
和peft.tuners.lora.layer.LoraLayer
。 - 自定义模块的
__init__
方法应具有位置参数base_layer
和adapter_name
。在此之后,还有额外的**kwargs
,您可以自由使用或忽略它们。 - 可学习的参数应该存储在
nn.ModuleDict
或nn.ParameterDict
中,其中键对应于特定适配器的名称(请记住,一个模型可以同时拥有多个适配器)。 - 这些可学习参数属性的名称应该以
"lora_"
开头,例如self.lora_new_param = ...
。 - 某些方法是可选的,例如,如果您想支持权重合并,则只需要实现
merge
和unmerge
。
目前,当您保存模型时,自定义模块的信息不会持久化。加载模型时,您必须重新注册自定义模块。
# saving works as always and includes the parameters of the custom modules
peft_model.save_pretrained(<model-path>)
# loading the model later:
base_model = ...
# load the LoRA config that you saved earlier
config = LoraConfig.from_pretrained(<model-path>)
# register the custom module again, the same way as the first time
custom_module_mapping = {nn.LSTM: MyLoraLSTMLayer}
config._register_custom_module(custom_module_mapping)
# pass the config instance to from_pretrained:
peft_model = PeftModel.from_pretrained(model, tmp_path / "lora-custom-module", config=config)
如果您使用此功能并发现它有用,或者如果您遇到问题,请通过在GitHub上创建问题或讨论来告知我们。这使我们能够评估对该功能的需求,并在需求足够高的情况下添加公共API。
< > 在GitHub上更新