使用脚本训练
除了 🤗 Transformers 的 笔记本 之外,还有一些示例脚本演示了如何使用 PyTorch、TensorFlow 或 JAX/Flax 为任务训练模型。
您还会发现我们在 研究项目 和 遗留示例 中使用的脚本,这些脚本大多是由社区贡献的。这些脚本并未积极维护,需要特定版本的 🤗 Transformers,这很可能与库的最新版本不兼容。
示例脚本不保证在每个问题上都能直接运行,您可能需要根据要解决的问题调整脚本。为了帮助您,大多数脚本完全公开数据预处理的方式,允许您根据需要对其进行编辑以满足您的用例。
对于您想在示例脚本中实现的任何功能,请在提交拉取请求之前,在 论坛 或 问题 中进行讨论。虽然我们欢迎错误修复,但我们不太可能合并以可读性为代价增加更多功能的拉取请求。
本指南将向您展示如何在 PyTorch 和 TensorFlow 中运行一个示例摘要训练脚本。除非另有说明,所有示例都预计可以使用这两个框架。
设置
要成功运行最新版本的示例脚本,您必须在新的虚拟环境中从源代码安装 🤗 Transformers
git clone https://github.com/huggingface/transformers
cd transformers
pip install .
对于旧版本的示例脚本,请点击下面的切换按钮
旧版本的 🤗 Transformers 示例
然后将您当前克隆的 🤗 Transformers 切换到特定版本,例如 v3.5.1
git checkout tags/v3.5.1
设置好正确的库版本后,导航到您选择的示例文件夹,并安装示例特定的依赖项
pip install -r requirements.txt
运行脚本
示例脚本从 🤗 Datasets 库下载并预处理数据集。然后,脚本使用 Trainer 在支持摘要的架构上微调数据集。以下示例展示了如何在 CNN/DailyMail 数据集上微调 T5-small。T5 模型需要一个额外的 source_prefix
参数,因为它是在特定方式训练的。这个提示让 T5 知道这是一个摘要任务。
python examples/pytorch/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--overwrite_output_dir \
--predict_with_generate
示例脚本从 🤗 Datasets 库下载并预处理数据集。然后,脚本使用 Keras 在支持摘要的架构上微调数据集。以下示例展示了如何在 CNN/DailyMail 数据集上微调 T5-small。T5 模型需要一个额外的 source_prefix
参数,因为它是在特定方式训练的。这个提示让 T5 知道这是一个摘要任务。
python examples/tensorflow/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size 8 \
--per_device_eval_batch_size 16 \
--num_train_epochs 3 \
--do_train \
--do_eval
分布式训练和混合精度
Trainer 支持分布式训练和混合精度,这意味着您也可以在脚本中使用它。要启用这两个功能
- 添加
fp16
或bf16
参数以启用混合精度。XPU 设备仅支持bf16
用于混合精度训练。 - 使用
nproc_per_node
参数设置要使用的 GPU 数量。
torchrun \
--nproc_per_node 8 pytorch/summarization/run_summarization.py \
--fp16 \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--overwrite_output_dir \
--predict_with_generate
TensorFlow 脚本使用 MirroredStrategy
进行分布式训练,您无需向训练脚本添加任何其他参数。如果 TensorFlow 脚本可用的 GPU 多个,它将默认使用多个 GPU。
在 TPU 上运行脚本
张量处理单元 (TPU) 专为加速性能而设计。PyTorch 通过 XLA 深度学习编译器支持 TPU(有关更多详细信息,请参阅 此处)。要使用 TPU,请启动 xla_spawn.py
脚本,并使用 num_cores
参数设置要使用的 TPU 内核数量。
python xla_spawn.py --num_cores 8 \
summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--overwrite_output_dir \
--predict_with_generate
张量处理单元 (TPU) 专为加速性能而设计。TensorFlow 脚本使用 TPUStrategy
在 TPU 上进行训练。要使用 TPU,请将 TPU 资源的名称传递给 tpu
参数。
python run_summarization.py \
--tpu name_of_tpu_resource \
--model_name_or_path google-t5/t5-small \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size 8 \
--per_device_eval_batch_size 16 \
--num_train_epochs 3 \
--do_train \
--do_eval
使用 🤗 Accelerate 运行脚本
🤗 Accelerate 是一个仅支持 PyTorch 的库,它提供了一种统一的方法,可以在多种类型的设置(仅 CPU、多个 GPU、TPU)上训练模型,同时保持对 PyTorch 训练循环的完全可见性。如果您还没有,请确保已安装 🤗 Accelerate
注意:由于 Accelerate 正在快速发展,因此必须安装 accelerate 的 git 版本才能运行脚本
pip install git+https://github.com/huggingface/accelerate
您需要使用 run_summarization_no_trainer.py
脚本,而不是 run_summarization.py
脚本。🤗 Accelerate 支持的脚本将在文件夹中包含一个 task_no_trainer.py
文件。首先运行以下命令以创建并保存配置文件
accelerate config
测试您的设置以确保配置正确
accelerate test
现在您可以启动训练了
accelerate launch run_summarization_no_trainer.py \
--model_name_or_path google-t5/t5-small \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir ~/tmp/tst-summarization
使用自定义数据集
摘要脚本支持自定义数据集,只要它们是 CSV 或 JSON Line 文件。当您使用自己的数据集时,需要指定一些额外的参数。
train_file
和validation_file
指定训练和验证文件的路径。text_column
是要摘要的输入文本。summary_column
是要输出的目标文本。
使用自定义数据集的摘要脚本如下所示
python examples/pytorch/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--train_file path_to_csv_or_jsonlines_file \
--validation_file path_to_csv_or_jsonlines_file \
--text_column text_column_name \
--summary_column summary_column_name \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--overwrite_output_dir \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--predict_with_generate
测试脚本
在将整个数据集(可能需要数小时才能完成)投入使用之前,最好在少量数据集示例上运行脚本,以确保一切按预期工作。使用以下参数将数据集截断为最大样本数
max_train_samples
max_eval_samples
max_predict_samples
python examples/pytorch/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--max_train_samples 50 \
--max_eval_samples 50 \
--max_predict_samples 50 \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--overwrite_output_dir \
--predict_with_generate
并非所有示例脚本都支持 max_predict_samples
参数。如果您不确定您的脚本是否支持此参数,请添加 -h
参数进行检查
examples/pytorch/summarization/run_summarization.py -h
从检查点恢复训练
另一个有用的选项是启用从之前的检查点恢复训练。这将确保您可以在训练中断的情况下从中断的地方继续,而无需重新开始。有两种方法可以从检查点恢复训练。
第一种方法使用 output_dir previous_output_dir
参数从存储在 output_dir
中的最新检查点恢复训练。在这种情况下,您应该删除 overwrite_output_dir
python examples/pytorch/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--output_dir previous_output_dir \
--predict_with_generate
第二种方法使用 resume_from_checkpoint path_to_specific_checkpoint
参数从特定的检查点文件夹恢复训练。
python examples/pytorch/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--overwrite_output_dir \
--resume_from_checkpoint path_to_specific_checkpoint \
--predict_with_generate
分享您的模型
所有脚本都可以将您的最终模型上传到 模型中心。在开始之前,请确保您已登录 Hugging Face。
huggingface-cli login
然后将 push_to_hub
参数添加到脚本中。此参数将使用您的 Hugging Face 用户名和在 output_dir
中指定的文件夹名创建一个存储库。
要为您的存储库指定名称,请使用 push_to_hub_model_id
参数将其添加。存储库将自动列在您的命名空间下。
以下示例演示如何上传具有特定存储库名称的模型
python examples/pytorch/summarization/run_summarization.py \
--model_name_or_path google-t5/t5-small \
--do_train \
--do_eval \
--dataset_name cnn_dailymail \
--dataset_config "3.0.0" \
--source_prefix "summarize: " \
--push_to_hub \
--push_to_hub_model_id finetuned-t5-cnn_dailymail \
--output_dir /tmp/tst-summarization \
--per_device_train_batch_size=4 \
--per_device_eval_batch_size=4 \
--overwrite_output_dir \
--predict_with_generate