Transformers 文档

快速入门

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

快速入门

Transformers 的设计旨在快速易用,让每个人都能开始学习或构建 Transformer 模型。

面向用户的抽象化仅限于三个用于实例化模型的类,以及两个用于推理或训练的 API。本快速入门将向您介绍 Transformers 的主要功能,并向您展示如何

  • 加载预训练模型
  • 使用 Pipeline 进行推理
  • 使用 Trainer 微调模型

设置

首先,我们建议您创建一个 Hugging Face 账户。账户可以使您在 Hugging Face Hub 上托管和访问版本控制的模型、数据集和 Spaces,这是一个用于发现和构建的协作平台。

创建一个 用户访问令牌 并登录您的账户。

notebook
CLI

在提示登录时,将您的用户访问令牌粘贴到 notebook_login 中。

from huggingface_hub import notebook_login

notebook_login()

安装 PyTorch。

!pip install torch

然后,从 Hugging Face 生态系统中安装最新版本的 Transformers 和一些附加库,用于访问数据集和视觉模型、评估训练以及优化大型模型的训练。

!pip install -U transformers datasets evaluate accelerate timm

预训练模型

每个预训练模型都继承自三个基类。

分类 描述
PreTrainedConfig 一个指定模型属性(如注意力头数量或词汇量大小)的文件。
PreTrainedModel 一个由配置文件中的模型属性定义的模型(或架构)。预训练模型仅返回原始隐藏状态。对于特定任务,请使用适当的模型头将原始隐藏状态转换为有意义的结果(例如,LlamaModelLlamaForCausalLM)。
Preprocessor 一个用于将原始输入(文本、图像、音频、多模态)转换为模型数值输入的类。例如,PreTrainedTokenizer 将文本转换为张量,ImageProcessingMixin 将像素转换为张量。

我们建议使用 AutoClass API 来加载模型和预处理器,因为它会根据预训练权重和配置文件名称或路径,自动推断适合每个任务和机器学习框架的架构。

使用 from_pretrained() 从 Hub 加载模型和预处理器类的权重和配置文件。

加载模型时,请配置以下参数以确保模型被最优加载。

  • device_map="auto" 会自动将模型权重优先分配到您最快的设备上。
  • dtype="auto" 会直接以存储格式初始化模型权重,这有助于避免重复加载权重(PyTorch 默认以 torch.float32 加载权重)。
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf", dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

使用分词器对文本进行分词并返回 PyTorch 张量。如果可用,将模型移动到加速器以加速推理。

model_inputs = tokenizer(["The secret to baking a good cake is "], return_tensors="pt").to(model.device)

模型现在已准备好进行推理或训练。

对于推理,将分词后的输入传递给 generate() 来生成文本。使用 batch_decode() 将令牌 ID 解码回文本。

generated_ids = model.generate(**model_inputs, max_length=30)
tokenizer.batch_decode(generated_ids)[0]
'<s> The secret to baking a good cake is 100% in the preparation. There are so many recipes out there,'

跳至 Trainer 部分,了解如何微调模型。

Pipeline

Pipeline 类是使用预训练模型进行推理的最便捷方式。它支持许多任务,如文本生成、图像分割、自动语音识别、文档问答等。

请参阅 Pipeline API 参考文档,获取可用任务的完整列表。

创建一个 Pipeline 对象并选择一个任务。默认情况下,Pipeline 会为给定任务下载并缓存一个默认的预训练模型。通过 model 参数传递模型名称来选择特定模型。

文本生成
图像分割
自动语音识别

使用 Accelerator 自动检测可用的推理加速器。

from transformers import pipeline
from accelerate import Accelerator

device = Accelerator().device

pipeline = pipeline("text-generation", model="meta-llama/Llama-2-7b-hf", device=device)

使用一些初始文本来提示 Pipeline 以生成更多文本。

pipeline("The secret to baking a good cake is ", max_length=50)
[{'generated_text': 'The secret to baking a good cake is 100% in the batter. The secret to a great cake is the icing.\nThis is why we’ve created the best buttercream frosting reci'}]

Trainer

Trainer 是 PyTorch 模型的完整训练和评估循环。它抽象了编写手动训练循环通常涉及的大部分样板代码,因此您可以更快地开始训练并专注于训练设计选择。您只需要一个模型、数据集、预处理器和一个数据整理器来从数据集中构建数据批次。

使用 TrainingArguments 类来自定义训练过程。它提供了许多用于训练、评估等的选项。尝试使用训练超参数和功能,如批次大小、学习率、混合精度、torch.compile 等,以满足您的训练需求。您也可以使用默认的训练参数来快速生成基线。

加载用于训练的模型、分词器和数据集。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from datasets import load_dataset

model = AutoModelForSequenceClassification.from_pretrained("distilbert/distilbert-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("distilbert/distilbert-base-uncased")
dataset = load_dataset("rotten_tomatoes")

创建一个函数来分词文本并将其转换为 PyTorch 张量。使用 map 方法将此函数应用于整个数据集。

def tokenize_dataset(dataset):
    return tokenizer(dataset["text"])
dataset = dataset.map(tokenize_dataset, batched=True)

加载数据整理器以创建数据批次,并将分词器传递给它。

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

接下来,设置 TrainingArguments,包含训练功能和超参数。

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="distilbert-rotten-tomatoes",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=2,
    push_to_hub=True,
)

最后,将所有这些独立组件传递给 Trainer 并调用 train() 来开始。

from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    processing_class=tokenizer,
    data_collator=data_collator,
)

trainer.train()

使用 push_to_hub() 将您的模型和分词器共享到 Hub。

trainer.push_to_hub()

恭喜,您已经成功使用 Transformers 训练了您的第一个模型!

后续步骤

现在您对 Transformers 及其提供的功能有了更好的了解,是时候继续探索并学习您最感兴趣的内容了。

  • 基类:了解更多关于配置、模型和处理器类。这将帮助您了解如何创建和自定义模型、预处理不同类型的输入(音频、图像、多模态),以及如何共享您的模型。
  • 推理:进一步探索 Pipeline,以及如何进行 LLM、代理的推理和聊天,以及如何使用您的机器学习框架和硬件优化推理。
  • 训练:更详细地研究 Trainer,以及分布式训练和在特定硬件上优化训练。
  • 量化:通过量化减少内存和存储需求,并通过使用更少的位数表示权重来加速推理。
  • 资源:正在寻找针对特定任务的模型训练和推理的端到端示例?请查看任务示例!
在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.