IA3
本概念指南简要概述了 IA3,一种参数高效微调技术,旨在改进 LoRA。
为了使微调更有效,IA3(通过抑制和放大内部激活来注入适配器)使用学习的向量重新缩放内部激活。这些学习的向量被注入到典型基于 Transformer 架构的注意力和前馈模块中。这些学习的向量是微调期间唯一的可训练参数,因此原始权重保持冻结。处理学习的向量(而不是像 LoRA 一样处理权重矩阵的学习低秩更新)使可训练参数的数量大大减少。
IA3 与 LoRA 类似,具有许多相同的优势。
- IA3 通过大幅减少可训练参数数量,使微调更有效。(对于 T0,IA3 模型只有大约 0.01% 的可训练参数,而即使 LoRA 也超过 0.1%)
- 原始预训练权重保持冻结,这意味着您可以基于这些权重构建多个轻量级且可移植的 IA3 模型,用于各种下游任务。
- 使用 IA3 微调的模型的性能与完全微调模型的性能相当。
- IA3 不会增加任何推理延迟,因为适配器权重可以与基础模型合并。
原则上,IA3 可以应用于神经网络中任何权重矩阵的子集,以减少可训练参数的数量。按照作者的实现,IA3 权重被添加到 Transformer 模型的键、值和前馈层。具体而言,对于 Transformer 模型,IA3 权重被添加到键和值层的输出,以及每个 Transformer 块中第二个前馈层的输入。
给定用于注入 IA3 参数的目标层,可训练参数的数量可以根据权重矩阵的大小确定。
PEFT 中的 IA3 通用参数
与 PEFT 支持的其他方法一样,要使用 IA3 微调模型,您需要
- 实例化一个基础模型。
- 创建一个配置(
IA3Config
),您可以在其中定义 IA3 特定参数。 - 使用
get_peft_model()
包装基础模型以获得可训练的PeftModel
。 - 像通常训练基础模型一样训练
PeftModel
。
IA3Config
允许您通过以下参数控制 IA3 如何应用于基础模型
target_modules
:要应用 IA3 向量 的模块(例如,注意力块)。feedforward_modules
:要被视为target_modules
中前馈层的模块列表。当学习到的向量与注意力块的输出激活相乘时,向量与经典前馈层的输入相乘。请注意,feedforward_modules
必须是target_modules
的子集。modules_to_save
:除 IA3 层之外的要设置为可训练并保存在最终检查点中的模块列表。这些通常包括模型的自定义头部,该头部是为微调任务随机初始化的。
示例用法
对于序列分类任务,可以为 Llama 模型初始化 IA3 配置如下
peft_config = IA3Config(
task_type=TaskType.SEQ_CLS, target_modules=["k_proj", "v_proj", "down_proj"], feedforward_modules=["down_proj"]
)