LoRA 方法

一种高效训练大模型的流行方法是插入（通常在注意力模块中）较小的可训练矩阵，这些矩阵是微调期间要学习的权重增量矩阵的低秩分解。预训练模型的原始权重矩阵被冻结，只有较小的矩阵在训练期间更新。这减少了可训练参数的数量，从而减少了内存使用和训练时间，而对于大型模型来说，这些成本可能非常高。

有几种不同的方法可以将权重矩阵表示为低秩分解，但低秩适应（LoRA）是最常见的方法。PEFT 库支持其他几种 LoRA 变体，例如低秩哈达玛积（LoHa）、低秩克罗内克积（LoKr）和自适应低秩适应（AdaLoRA）。你可以在适配器指南中从概念上了解这些方法的工作原理。如果你有兴趣将这些方法应用于其他任务和用例，如语义分割、词元分类，请查看我们的notebooks 合集！

此外，PEFT 还支持 X-LoRA (LoRA 专家混合) 方法。

本指南将向您展示如何使用低秩分解方法快速训练一个图像分类模型，以识别图像中显示的食物类别。

对训练图像分类模型的一般流程有一些熟悉会非常有帮助，并能让您专注于低秩分解方法。如果您是新手，我们建议您先阅读 Transformers 文档中的图像分类指南。当您准备好后，再回来看看将 PEFT 引入到您的训练中是多么容易！

在开始之前，请确保您已安装所有必要的库。

pip install -q peft transformers datasets

数据集

在本指南中，您将使用 Food-101 数据集，其中包含 101 个食物类别的图像（可以查看数据集查看器以更好地了解数据集的样子）。

使用 load_dataset 函数加载数据集。

from datasets import load_dataset

ds = load_dataset("food101")

每个食物类别都用一个整数标记，为了更容易理解这些整数代表什么，您将创建一个 label2id 和 id2label 字典，将整数映射到其类别标签。

labels = ds["train"].features["label"].names
label2id, id2label = dict(), dict()
for i, label in enumerate(labels):
    label2id[label] = i
    id2label[i] = label

id2label[2]
"baklava"

加载一个图像处理器，以正确调整和归一化训练和评估图像的像素值。

from transformers import AutoImageProcessor

image_processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")

您也可以使用图像处理器来准备一些用于数据增强和像素缩放的转换函数。

from torchvision.transforms import (
    CenterCrop,
    Compose,
    Normalize,
    RandomHorizontalFlip,
    RandomResizedCrop,
    Resize,
    ToTensor,
)

normalize = Normalize(mean=image_processor.image_mean, std=image_processor.image_std)
train_transforms = Compose(
    [
        RandomResizedCrop(image_processor.size["height"]),
        RandomHorizontalFlip(),
        ToTensor(),
        normalize,
    ]
)

val_transforms = Compose(
    [
        Resize(image_processor.size["height"]),
        CenterCrop(image_processor.size["height"]),
        ToTensor(),
        normalize,
    ]
)

def preprocess_train(example_batch):
    example_batch["pixel_values"] = [train_transforms(image.convert("RGB")) for image in example_batch["image"]]
    return example_batch

def preprocess_val(example_batch):
    example_batch["pixel_values"] = [val_transforms(image.convert("RGB")) for image in example_batch["image"]]
    return example_batch

定义训练和验证数据集，并使用 set_transform 函数来实时应用转换。

train_ds = ds["train"]
val_ds = ds["validation"]

train_ds.set_transform(preprocess_train)
val_ds.set_transform(preprocess_val)

最后，您需要一个数据整理器来创建一批训练和评估数据，并将标签转换为 torch.tensor 对象。

import torch

def collate_fn(examples):
    pixel_values = torch.stack([example["pixel_values"] for example in examples])
    labels = torch.tensor([example["label"] for example in examples])
    return {"pixel_values": pixel_values, "labels": labels}

模型

现在让我们加载一个预训练模型作为基础模型。本指南使用 google/vit-base-patch16-224-in21k 模型，但您可以使用任何您想要的图像分类模型。将 label2id 和 id2label 字典传递给模型，使其知道如何将整数标签映射到其类别标签，并且如果您要微调一个已经微调过的检查点，可以任选地传递 ignore_mismatched_sizes=True 参数。

from transformers import AutoModelForImageClassification, TrainingArguments, Trainer

model = AutoModelForImageClassification.from_pretrained(
    "google/vit-base-patch16-224-in21k",
    label2id=label2id,
    id2label=id2label,
    ignore_mismatched_sizes=True,
)

PEFT 配置和模型

每种 PEFT 方法都需要一个配置，该配置包含指定如何应用 PEFT 方法的所有参数。配置设置好后，将其与基础模型一起传递给 get_peft_model() 函数，以创建一个可训练的 PeftModel。

调用 print_trainable_parameters() 方法来比较 PeftModel 的参数数量与基础模型的参数数量！

LoRA

LoHa

LoKr

AdaLoRA

训练

对于训练，我们使用 Transformers 的 Trainer 类。Trainer 包含一个 PyTorch 训练循环，当您准备好后，调用 train 开始训练。要自定义训练过程，请在 TrainingArguments 类中配置训练超参数。使用类 LoRA 方法，您可以使用更高的批量大小和学习率。

AdaLoRA 有一个 update_and_allocate() 方法，应在每个训练步骤中调用，以更新参数预算和掩码，否则将不执行适应步骤。这需要编写一个自定义训练循环或对 Trainer 进行子类化以整合此方法。例如，请看这个自定义训练循环。

from transformers import TrainingArguments, Trainer

account = "stevhliu"
peft_model_id = f"{account}/google/vit-base-patch16-224-in21k-lora"
batch_size = 128

args = TrainingArguments(
    peft_model_id,
    remove_unused_columns=False,
    eval_strategy="epoch",
    save_strategy="epoch",
    learning_rate=5e-3,
    per_device_train_batch_size=batch_size,
    gradient_accumulation_steps=4,
    per_device_eval_batch_size=batch_size,
    fp16=True,
    num_train_epochs=5,
    logging_steps=10,
    load_best_model_at_end=True,
    label_names=["labels"],
)

使用 train 开始训练。

trainer = Trainer(
    model,
    args,
    train_dataset=train_ds,
    eval_dataset=val_ds,
    processing_class=image_processor,
    data_collator=collate_fn,
)
trainer.train()

分享您的模型

训练完成后，您可以使用 push_to_hub 方法将您的模型上传到 Hub。您需要先登录您的 Hugging Face 账户，并在提示时输入您的令牌。

from huggingface_hub import notebook_login

notebook_login()

调用 push_to_hub 将您的模型保存到您的仓库中。

model.push_to_hub(peft_model_id)

推理

让我们从 Hub 加载模型，并在食物图像上进行测试。

from peft import PeftConfig, PeftModel
from transformers import AutoImageProcessor
from PIL import Image
import requests

config = PeftConfig.from_pretrained("stevhliu/vit-base-patch16-224-in21k-lora")
model = AutoModelForImageClassification.from_pretrained(
    config.base_model_name_or_path,
    label2id=label2id,
    id2label=id2label,
    ignore_mismatched_sizes=True,
)
model = PeftModel.from_pretrained(model, "stevhliu/vit-base-patch16-224-in21k-lora")

url = "https://huggingface.co/datasets/sayakpaul/sample-datasets/resolve/main/beignets.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
image

将图像转换为 RGB 并返回底层的 PyTorch 张量。

encoding = image_processor(image.convert("RGB"), return_tensors="pt")

现在运行模型并返回预测的类别！

with torch.no_grad():
    outputs = model(**encoding)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
"Predicted class: beignets"

< > 在 GitHub 上更新