模型合并

为每个任务训练一个模型可能成本高昂、占用存储空间，并且模型无法学习新信息以提高其性能。多任务学习通过训练一个模型来学习多个任务，可以克服其中一些限制，但它的训练成本很高，并且为其设计数据集也具有挑战性。模型合并通过将多个预训练模型组合成一个模型，提供了一种解决这些挑战的方案，使其具有每个独立模型的组合能力，而无需任何额外训练。

PEFT 提供了几种模型合并方法，例如线性或 SVD 组合。本指南重点介绍两种更高效地合并 LoRA 适配器的方法，通过消除冗余参数

TIES - TrIm, Elect, and Merge (TIES) 是一种三步模型合并方法。首先，修剪冗余参数，然后将冲突的符号解析为聚合向量，最后将符号与聚合符号相同的参数进行平均。此方法考虑了某些值（冗余和符号不一致）可能会降低合并模型性能的情况。
DARE - Drop And REscale 是一种可用于准备其他模型合并方法（如 TIES）的方法。它通过根据丢弃率随机丢弃参数并重新缩放剩余参数来工作。这有助于减少多个模型之间的冗余和潜在干扰参数的数量。

模型使用 add_weighted_adapter() 方法合并，并且在 combination_type 参数中指定具体的模型合并方法。

合并方法

通过 TIES 和 DARE，通过将 combination_type 和 density 设置为保留自各个模型的权重的某个值来启用合并。例如，让我们合并三个微调的 TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T 模型：tinyllama_lora_nobots、tinyllama_lora_sql 和 tinyllama_lora_adcopy。

当您尝试使用 TIES 合并完全训练好的模型时，您应该注意每个模型可能已添加到嵌入层中但不是原始检查点词汇表一部分的任何特殊令牌。这可能会导致问题，因为每个模型可能已将特殊令牌添加到相同的嵌入位置。如果是这种情况，您应该使用 resize_token_embeddings 方法来避免在相同的嵌入索引处合并特殊令牌。

如果您只合并从相同基础模型训练的 LoRA 适配器，则不应该出现此问题。

加载基础模型并可以使用 load_adapter() 方法加载并为每个适配器分配名称

from peft import PeftConfig, PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

config = PeftConfig.from_pretrained("smangrul/tinyllama_lora_norobots")
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, load_in_4bit=True, device_map="auto").eval()
tokenizer = AutoTokenizer.from_pretrained("smangrul/tinyllama_lora_norobots")

model.config.vocab_size = 32005
model.resize_token_embeddings(32005)

model = PeftModel.from_pretrained(model, "smangrul/tinyllama_lora_norobots", adapter_name="norobots")
_ = model.load_adapter("smangrul/tinyllama_lora_sql", adapter_name="sql")
_ = model.load_adapter("smangrul/tinyllama_lora_adcopy", adapter_name="adcopy")

使用 add_weighted_adapter() 方法设置适配器、权重、adapter_name、combination_type 和 density。

TIES

DARE

使用 set_adapter() 方法将新合并的模型设置为活动模型。

model.set_adapter("merge")

现在你可以使用合并后的模型作为指令微调模型来撰写广告文案或 SQL 查询！

指令

广告文案

SQL

合并 (IA)³ 模型

(IA)³ 模型支持适配器的线性合并。要合并 (IA)³ 模型中的适配器，请使用 IA3Model 类中的 add_weighted_adapter 方法。此方法类似于 LoraModel 中使用的 add_weighted_adapter 方法，主要区别在于缺少 combination_type 参数。例如，要将三个 (IA)³ 适配器合并到 PEFT 模型中，您可以按如下方式进行

adapters = ["adapter1", "adapter2", "adapter3"]
weights = [0.4, 0.3, 0.3]
adapter_name = "merge"
model.add_weighted_adapter(adapters, weights, adapter_name)

建议权重总和为 1.0 以保持模型规模。然后可以使用 set_adapter 方法将合并后的模型设置为活动模型

model.set_adapter("merge")

< > 在 GitHub 上更新