PEFT 文档

FourierFT: 离散傅里叶变换微调

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

FourierFT:离散傅里叶变换微调

FourierFT 是一种参数高效的微调技术,它利用离散傅里叶变换来压缩模型的可调权重。该方法在使用更少参数的情况下,在 GLUE 基准测试和常见的 ViT 分类任务中优于 LoRA。

FourierFT 目前有以下约束

  • 仅支持 nn.Linear 层。
  • 不支持量化层。

如果这些约束不适用于您的用例,请考虑其他方法。

论文摘要如下

低秩适配 (LoRA) 近期在微调基础模型方面引起了广泛关注。它通过引入低秩矩阵 A 和 B 来表示权重变化,即 Delta W=BA,有效地减少了可训练参数的数量。尽管 LoRA 取得了进展,但在处理广泛的定制适配或更大的基础模型时,它面临存储挑战。在这项工作中,我们的目标是通过利用傅里叶变换强大的表达能力来进一步压缩可训练参数。具体来说,我们引入了 FourierFT,它将 Delta W 视为空间域中的矩阵,并且仅学习其频谱系数的一小部分。通过训练后的频谱系数,我们实现逆离散傅里叶变换来恢复 Delta W。 经验结果表明,我们的 FourierFT 方法在各种任务上,包括自然语言理解、自然语言生成、指令调优和图像分类,都表现出与 LoRA 相当或更好的性能,同时参数更少。例如,在 LLaMA2-7B 模型上执行指令调优时,FourierFT 仅使用 0.064M 可训练参数就超越了 LoRA,而 LoRA 则需要 33.5M。

FourierFTConfig

class peft.FourierFTConfig

< >

( task_type: typing.Union[str, peft.utils.peft_types.TaskType, NoneType] = None peft_type: typing.Union[str, peft.utils.peft_types.PeftType, NoneType] = None auto_mapping: typing.Optional[dict] = None base_model_name_or_path: typing.Optional[str] = None revision: typing.Optional[str] = None inference_mode: bool = False n_frequency: int = 1000 scaling: float = 150.0 random_loc_seed: Optional[int] = 777 fan_in_fan_out: bool = False target_modules: Optional[Union[list[str], str]] = None exclude_modules: Optional[Union[list[str], str]] = None bias: str = 'none' modules_to_save: Optional[list[str]] = None layers_to_transform: Optional[Union[list[int], int]] = None layers_pattern: Optional[Union[list[str], str]] = None n_frequency_pattern: Optional[dict] = <factory> init_weights: bool = False )

参数

  • n_frequency (int) — 离散傅里叶变换的可学习频率数量。 ‘n_frequency’ 是一个整数,它大于 0 且小于或等于 d^2(假设权重 W 的维度为 d x d)。此外,它还是更新每个 delta W 权重所需的可训练参数的数量。 ‘n_frequency’ 将影响 PEFT 的性能和效率。具体来说,它对训练速度影响不大,但较高的值(通常)会导致更大的 GPU 内存成本和更好的准确性。在相同的 target_modules 下,LoRA 的参数数量是 FourierFT 的 (2dr/n_frequency) 倍。 以下关于 ‘n_frequency’ 的设置示例可供用户参考。对于使用 RoBERTa-large 模型的 NLU 任务,采用 ‘n_frequency’: 1000 几乎可以达到与 LoRA 中 ‘r’: 8 相似的结果。此时,LoRA 的参数数量约为 FourierFT 的 16 倍。对于使用 Vit-large 模型的图像分类任务,采用 ‘n_frequency’: 3000 几乎可以达到与 LoRA 中 ‘r’: 16 相似的结果,其中 LoRA 的参数数量约为 FourierFT 的 11 倍。
  • scaling (float) — delta W 矩阵的缩放值。这是一个用于缩放的重要超参数,类似于 LoRA 方法中的 ‘lora_alpha’ 参数。 ‘scaling’ 可以在超参数搜索过程中确定。但是,如果用户想要跳过此过程,可以参考以下场景中的设置。对于所有 NLU (GLUE) 任务中的 RoBERTa-base 和 RoBERTa-large 模型,此参数可以设置为 100.0 或 150.0。对于所有指令调优的 LLaMA 系列模型,此参数可以设置为 300.0。对于所有图像分类任务中的 ViT-base 和 ViT-large 模型,此参数可以设置为 300.0。
  • random_loc_seed (int) — 频率随机位置的种子,即频谱条目矩阵。
  • target_modules (Union[list[str],str]) — 要用 FourierFT 替换的模块名称列表或模块名称的正则表达式。例如,[‘q’, ‘v’] 或 ‘.decoder.(SelfAttention|EncDecAttention).*(q|v)$’。 仅支持线性层。
  • exclude_modules (Optional[Union[List[str], str]]) — 不应用适配器的模块名称。当传递字符串时,将执行正则表达式匹配。当传递字符串列表时,将执行精确匹配,或者检查模块名称是否以任何传递的字符串结尾。
  • fan_in_fan_out (bool) — 如果要替换的层存储的权重类似 (fan_in, fan_out),则设置为 True。
  • bias (str) — FourierFT 的 bias 类型。可以是 ‘none’、‘all’ 或 ‘fourier_only’。
  • modules_to_save (list[str]) — 除 FourierFT 层之外,要设置为可训练并在最终检查点中保存的模块列表。例如,在序列分类或 Token 分类任务中,最终层 classifier/score 是随机初始化的,因此需要可训练并保存。
  • layers_to_transform (Union[list[int],int]) — 要转换的层索引,如果指定此参数,PEFT 将仅转换此列表中指定的层索引。如果传递单个整数,PEFT 将仅转换此索引处的层。
  • layers_pattern (Optional[Union[List[str], str]]) — 层模式名称,仅当 layers_to_transform 与 None 不同且层模式不在常用层模式中时使用。这应该针对模型的 nn.ModuleList,通常称为 'layers''h'
  • n_frequency_pattern (dict) — 从层名称或正则表达式到 n_frequency 的映射,这些映射与指定的默认值不同。例如,{model.decoder.layers.0.encoder_attn.k_proj: 1000}。
  • init_weights (bool) — Fourier 权重的初始化。如果频谱初始化为标准正态分布,请将其设置为 False。如果频谱初始化为零,请将其设置为 True。

这是用于存储 FourierFTModel 配置的配置类。

FourierFTModel

class peft.FourierFTModel

< >

( model config adapter_name low_cpu_mem_usage: bool = False ) torch.nn.Module

参数

  • model (torch.nn.Module) — 要适配的模型。
  • config (FourierFTConfig) — FourierFT 模型的配置。
  • adapter_name (str) — 适配器的名称,默认为 "default"
  • low_cpu_mem_usage (bool, optional, defaults to False) — 在 meta 设备上创建空的适配器权重。有助于加速加载过程。

返回:

torch.nn.Module

FourierFT 模型。

从预训练的 transformers 模型创建 FourierFT 模型。

该方法在 https://arxiv.org/abs/2405.03003 中详细描述。

属性::

delete_adapter

< >

( adapter_name: str )

参数

  • adapter_name (str) — 要删除的适配器的名称。

删除现有适配器。

disable_adapter_layers

< >

( )

禁用所有适配器。

当禁用所有适配器时,模型输出对应于基础模型的输出。

enable_adapter_layers

< >

( )

启用所有适配器。

如果您之前禁用了所有适配器并想要重新启用它们,请调用此方法。

merge_and_unload

< >

( progressbar: bool = False safe_merge: bool = False adapter_names: Optional[list[str]] = None )

参数

  • progressbar (bool) — 是否显示进度条以指示卸载和合并过程
  • safe_merge (bool) — 是否激活安全合并检查,以检查适配器权重中是否存在任何潜在的 Nan 值
  • adapter_names (List[str], optional) — 应该合并的适配器名称列表。如果为 None,则将合并所有活动的适配器。默认为 None

此方法将 Fourier 层合并到基础模型中。如果有人想要将基础模型用作独立模型,则需要这样做。

set_adapter

< >

( adapter_name: str | list[str] )

参数

  • adapter_name (str or list[str]) — 要激活的适配器名称。

设置活动适配器。

unload

< >

( )

通过删除所有 Fourier 模块而不合并,返回基础模型。这会返回原始基础模型。

< > Update on GitHub