TRL 文档
使用 peft 和 trl 通过低秩自适应(LoRA)微调 8 位模型的示例
并获得增强的文档体验
开始使用
使用 peft 和 trl 通过低秩自适应(LoRA)微调 8 位模型的示例
此示例中的 notebook 和脚本展示了如何使用低秩自适应(LoRA)以内存高效的方式微调模型。peft 库支持大多数 PEFT 方法,但请注意,某些 PEFT 方法(如 Prompt tuning)不受支持。有关 LoRA 的更多信息,请参阅原始论文。
以下是 trl 仓库中启用了 peft
的 notebook 和脚本的概述
文件 | 任务 | 描述 |
---|---|---|
stack_llama/rl_training.py | RLHF | 使用学习的奖励模型和 peft 对 70 亿参数的 LLaMA 模型进行分布式微调。 |
stack_llama/reward_modeling.py | 奖励模型 | 使用 peft 对 70 亿参数的 LLaMA 奖励模型进行分布式训练。 |
stack_llama/supervised_finetuning.py | SFT | 使用 peft 对 70 亿参数的 LLaMA 模型进行分布式指令/监督微调。 |
安装
注意:peft 正在积极开发中,因此我们直接从它们的 Github 页面安装。Peft 还依赖于最新版本的 transformers。
pip install trl[peft]
pip install bitsandbytes loralib
pip install git+https://github.com/huggingface/transformers.git@main
#optional: wandb
pip install wandb
注意:如果你不想使用 wandb
记录日志,请在脚本/notebook 中移除 log_with="wandb"
。你也可以将其替换为accelerate
支持的你喜欢的实验追踪器。
如何使用?
只需在你的脚本中声明一个 PeftConfig
对象,并将其传递给 .from_pretrained
来加载 TRL+PEFT 模型。
from peft import LoraConfig
from trl import AutoModelForCausalLMWithValueHead
model_id = "edbeeching/gpt-neo-125M-imdb"
lora_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
)
model = AutoModelForCausalLMWithValueHead.from_pretrained(
model_id,
peft_config=lora_config,
)
如果你想以 8 位精度加载模型
pretrained_model = AutoModelForCausalLMWithValueHead.from_pretrained(
config.model_name,
load_in_8bit=True,
peft_config=lora_config,
)
… 或以 4 位精度
pretrained_model = AutoModelForCausalLMWithValueHead.from_pretrained(
config.model_name,
peft_config=lora_config,
load_in_4bit=True,
)
启动脚本
trl
库由 accelerate
提供支持。因此,最好使用以下命令来配置和启动训练
accelerate config # will prompt you to define the training configuration
accelerate launch examples/scripts/ppo.py --use_peft # launch`es training
使用 trl + peft 和数据并行
只要你能将训练过程放入单个设备中,就可以扩展到任意数量的 GPU。唯一需要应用的调整是按如下方式加载模型
from peft import LoraConfig
...
lora_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
)
pretrained_model = AutoModelForCausalLMWithValueHead.from_pretrained(
config.model_name,
peft_config=lora_config,
)
如果你想以 8 位精度加载模型
pretrained_model = AutoModelForCausalLMWithValueHead.from_pretrained(
config.model_name,
peft_config=lora_config,
load_in_8bit=True,
)
… 或以 4 位精度
pretrained_model = AutoModelForCausalLMWithValueHead.from_pretrained(
config.model_name,
peft_config=lora_config,
load_in_4bit=True,
)
最后,确保奖励也在正确的设备上计算,为此你可以使用 ppo_trainer.model.current_device
。
针对大型模型(>60B 参数)的朴素流水线并行(NPP)
trl
库也支持针对大型模型(>60B 参数)的朴素流水线并行(NPP)。这是一种在多个 GPU 之间并行化模型的简单方法。这种被称为“朴素流水线并行”(NPP)的范式是一种在多个 GPU 上并行化模型的简单方法。我们在多个 GPU 上加载模型和适配器,激活和梯度将会在 GPU 之间进行简单的通信。这也支持 int8
模型以及其他 dtype
模型。

如何使用 NPP?
只需在 from_pretrained
中使用自定义的 device_map
参数加载模型,即可将模型分布在多个设备上。请查看这篇很棒的教程,了解如何为你的模型正确创建 device_map
。
另外,请确保 lm_head
模块在第一个 GPU 设备上,否则可能会抛出错误。在撰写本文时,你需要安装 accelerate
的 main
分支:pip install git+https://github.com/huggingface/accelerate.git@main
和 peft
:pip install git+https://github.com/huggingface/peft.git@main
。
启动脚本
虽然 trl
库由 accelerate
提供支持,但你应该在单个进程中运行你的训练脚本。请注意,我们目前还不支持数据并行与 NPP 同时使用。
python PATH_TO_SCRIPT
微调 Llama-2 模型
你可以使用 SFTTrainer
和官方脚本轻松微调 Llama2 模型!例如,要在 Guanaco 数据集上微调 llama2-7b,请运行(在单个 NVIDIA T4-16GB 上测试过)
python trl/scripts/sft.py --output_dir sft_openassistant-guanaco --model_name meta-llama/Llama-2-7b-hf --dataset_name timdettmers/openassistant-guanaco --load_in_4bit --use_peft --per_device_train_batch_size 4 --gradient_accumulation_steps 2