管道背后
让我们从一个完整的示例开始,看看我们在 第一章 中执行以下代码时幕后发生了什么
from transformers import pipeline
classifier = pipeline("sentiment-analysis")
classifier(
[
"I've been waiting for a HuggingFace course my whole life.",
"I hate this so much!",
]
)
并获得
[{'label': 'POSITIVE', 'score': 0.9598047137260437},
{'label': 'NEGATIVE', 'score': 0.9994558095932007}]
正如我们在 第一章 中看到的,此管道将三个步骤组合在一起:预处理、将输入传递到模型和后处理
让我们快速浏览一下每个步骤。
使用分词器进行预处理
与其他神经网络一样,Transformer 模型无法直接处理原始文本,因此我们管道的第一步是将文本输入转换为模型可以理解的数字。为此,我们使用一个分词器,它负责
- 将输入分成称为词元的单词、子词或符号(如标点符号)
- 将每个词元映射到一个整数
- 添加可能对模型有用的其他输入
所有这些预处理都必须与模型预训练时完全相同,因此我们需要先从 模型中心 下载这些信息。为此,我们使用 AutoTokenizer
类及其 from_pretrained()
方法。使用我们模型的检查点名称,它会自动获取与模型分词器相关联的数据并将其缓存(因此仅在您第一次运行以下代码时才会下载它)。
由于 sentiment-analysis
管道的默认检查点是 distilbert-base-uncased-finetuned-sst-2-english
(您可以查看其模型卡 这里),我们运行以下操作
from transformers import AutoTokenizer
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
获得分词器后,我们可以直接将我们的句子传递给它,然后我们会得到一个准备馈送到我们的模型的字典!剩下的唯一要做的事情就是将输入 ID 列表转换为张量。
您可以使用 🤗 Transformers,而无需担心使用哪个机器学习框架作为后端;它可能是 PyTorch 或 TensorFlow,或者对于某些模型,可能是 Flax。但是,Transformer 模型只接受张量作为输入。如果您第一次听说张量,您可以将它们视为 NumPy 数组。NumPy 数组可以是标量 (0D)、向量 (1D)、矩阵 (2D),或者具有更多维度。它实际上是一个张量;其他机器学习框架的张量行为类似,通常与 NumPy 数组一样容易实例化。
为了指定我们想要获得的张量类型(PyTorch、TensorFlow 或纯 NumPy),我们使用 return_tensors
参数
raw_inputs = [
"I've been waiting for a HuggingFace course my whole life.",
"I hate this so much!",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)
暂时不要担心填充和截断;我们将在后面解释它们。这里要记住的主要内容是您可以传递一个句子或一个句子列表,以及指定您想要获得的张量类型(如果未传递任何类型,则您将得到一个列表列表作为结果)。
以下是结果在 PyTorch 张量中显示的方式
{
'input_ids': tensor([
[ 101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102],
[ 101, 1045, 5223, 2023, 2061, 2172, 999, 102, 0, 0, 0, 0, 0, 0, 0, 0]
]),
'attention_mask': tensor([
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]
])
}
输出本身是一个字典,包含两个键,input_ids
和 attention_mask
。input_ids
包含两行整数(每句话一行),它们是每个句子中词元的唯一标识符。我们将在本章后面解释 attention_mask
是什么。
通过模型
我们可以像对分词器一样下载预训练模型。 🤗 Transformers 提供了一个 AutoModel
类,它也有一个 from_pretrained()
方法
from transformers import AutoModel
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)
在此代码片段中,我们下载了与之前在管道中使用的相同的检查点(实际上它应该已经被缓存了)并用它实例化了一个模型。
此架构只包含基本 Transformer 模块:给定一些输入,它输出我们将称为隐藏状态,也称为特征。对于每个模型输入,我们将检索一个高维向量,表示Transformer 模型对该输入的上下文理解。
如果这没有意义,请不要担心。我们将在后面解释所有这些。
虽然这些隐藏状态本身可能有用,但它们通常是模型另一个部分的输入,称为头。在 第一章 中,不同的任务可以用相同的架构执行,但这些任务中的每一个都将与其相关的不同头相关联。
高维向量?
Transformer 模块输出的向量通常很大。它通常具有三个维度
- 批次大小:一次处理的序列数量(在我们的示例中为 2)。
- 序列长度:序列的数字表示的长度(在我们的示例中为 16)。
- 隐藏大小:每个模型输入的向量维度。
由于最后一个值,它被称为“高维”。隐藏大小可以非常大(较小的模型通常为 768,而较大的模型可以达到 3072 或更多)。
如果我们将预处理的输入馈送到我们的模型,我们可以看到这一点
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)
torch.Size([2, 16, 768])
请注意,🤗 Transformers 模型的输出类似于namedtuple
s 或字典。您可以通过属性(如我们所做的那样)或键 (outputs["last_hidden_state"]
) 来访问元素,甚至可以通过索引访问,如果您确切地知道要查找的元素的位置 (outputs[0]
)。
模型头:从数字中获取意义
模型头将隐藏状态的高维向量作为输入,并将它们投影到不同的维度。它们通常由一个或几个线性层组成
Transformer 模型的输出直接发送到模型头进行处理。
在此图中,模型由其嵌入层和后续层表示。嵌入层将标记化输入中的每个输入 ID 转换为表示关联标记的向量。后续层使用注意力机制来操作这些向量,以生成句子的最终表示。
🤗 Transformers 中有许多不同的架构可用,每个架构都针对解决特定任务而设计。这是一个非详尽的列表
*Model
(检索隐藏状态)*ForCausalLM
*ForMaskedLM
*ForMultipleChoice
*ForQuestionAnswering
*ForSequenceClassification
*ForTokenClassification
- 等等 🤗
对于我们的示例,我们需要一个具有序列分类头的模型(能够将句子分类为正面或负面)。因此,我们实际上不会使用AutoModel
类,而是使用AutoModelForSequenceClassification
from transformers import AutoModelForSequenceClassification
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)
现在,如果我们查看输出的形状,维度将低得多:模型头将我们之前看到的那些高维向量作为输入,并输出包含两个值的向量(每个标签一个)
print(outputs.logits.shape)
torch.Size([2, 2])
由于我们只有两句话和两个标签,因此我们从模型中获得的结果形状为 2 x 2。
后处理输出
我们从模型中获得的输出值本身不一定有意义。让我们看一看
print(outputs.logits)
tensor([[-1.5607, 1.6123],
[ 4.1692, -3.3464]], grad_fn=<AddmmBackward>)
我们的模型对第一句话预测了[-1.5607, 1.6123]
,对第二句话预测了[ 4.1692, -3.3464]
。这些不是概率,而是logits,模型最后一层输出的原始、未归一化的分数。要转换为概率,它们需要经过SoftMax 层(所有 🤗 Transformers 模型都输出 logits,因为用于训练的损失函数通常会将最后一层激活函数(如 SoftMax)与实际损失函数(如交叉熵)融合在一起)
import torch
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)
tensor([[4.0195e-02, 9.5980e-01],
[9.9946e-01, 5.4418e-04]], grad_fn=<SoftmaxBackward>)
现在我们可以看到,模型对第一句话预测了[0.0402, 0.9598]
,对第二句话预测了[0.9995, 0.0005]
。这些是可识别的概率分数。
要获得与每个位置相对应的标签,我们可以检查模型配置的id2label
属性(下一节将详细介绍)。
model.config.id2label
{0: 'NEGATIVE', 1: 'POSITIVE'}
现在我们可以得出结论,模型预测了以下内容
- 第一句话:NEGATIVE: 0.0402, POSITIVE: 0.9598
- 第二句话:NEGATIVE: 0.9995, POSITIVE: 0.0005
我们已经成功地再现了流水线的三个步骤:使用标记器进行预处理,将输入通过模型,以及后处理!现在让我们花一些时间深入研究每个步骤。
✏️ 试一试!选择您自己的两个(或更多)文本,并将其通过sentiment-analysis
流水线运行。然后自行复制您在此处看到的步骤,并检查您是否获得了相同的结果!