处理多个序列

在上一节中，我们探讨了最简单的用例：对单个短序列进行推理。然而，一些问题已经出现

我们如何处理多个序列？
我们如何处理不同长度的多个序列？
词汇索引是使模型正常工作的唯一输入吗？
是否存在过长序列的概念？

让我们看看这些问题会带来哪些挑战，以及如何使用 🤗 Transformers API 解决它们。

模型期望一批输入

在之前的练习中，您看到了序列如何被转换为数字列表。让我们将此数字列表转换为张量并将其发送到模型

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor(ids)
# This line will fail.
model(input_ids)

IndexError: Dimension out of range (expected to be in range of [-1, 0], but got 1)

哦不！为什么失败了？“我们按照第 2 节中管道中的步骤进行操作。

问题是我们向模型发送了一个单个序列，而 🤗 Transformers 模型默认情况下期望多个句子。在这里，我们尝试做了分词器在将它应用于 sequence 时在幕后完成的所有操作。但是如果你仔细观察，你会发现分词器不仅仅是将输入 ID 列表转换为张量，它还在其之上添加了一个维度

tokenized_inputs = tokenizer(sequence, return_tensors="pt")
print(tokenized_inputs["input_ids"])

tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102]])

让我们再试一次，添加一个新维度

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)

input_ids = torch.tensor([ids])
print("Input IDs:", input_ids)

output = model(input_ids)
print("Logits:", output.logits)

我们打印了输入 ID 以及生成的 logits - 这是输出

Input IDs: [[ 1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,  2607, 2026,  2878,  2166,  1012]]
Logits: [[-2.7276,  2.8789]]

批处理是指一次性将多个句子通过模型发送的动作。如果你只有一个句子，你可以只用一个序列构建一个批处理

batched_ids = [ids, ids]

这是一个包含两个相同序列的批处理！

✏️ 尝试一下！ 将此 batched_ids 列表转换为张量并将其通过模型。检查您是否获得了与之前相同的 logits（但出现了两次）！

批处理允许模型在您向它提供多个句子时工作。使用多个序列与使用单个序列构建批处理一样简单。不过，还存在第二个问题。当你尝试将两个（或更多）句子一起批处理时，它们可能具有不同的长度。如果你之前使用过张量，你会知道它们需要具有矩形形状，因此你无法直接将输入 ID 列表转换为张量。为了解决这个问题，我们通常对输入进行填充。

填充输入

以下列表无法转换为张量

batched_ids = [
    [200, 200, 200],
    [200, 200]
]

为了解决这个问题，我们将使用填充来使我们的张量具有矩形形状。填充通过向单词较少的句子添加一个称为填充标记的特殊单词来确保所有句子都具有相同的长度。例如，如果你有 10 个包含 10 个单词的句子和 1 个包含 20 个单词的句子，填充将确保所有句子都包含 20 个单词。在我们的示例中，生成的张量如下所示

padding_id = 100

batched_ids = [
    [200, 200, 200],
    [200, 200, padding_id],
]

填充标记 ID 可以在 tokenizer.pad_token_id 中找到。让我们使用它并将两个句子分别发送到模型以及一起进行批处理

model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence1_ids = [[200, 200, 200]]
sequence2_ids = [[200, 200]]
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)
print(model(torch.tensor(batched_ids)).logits)

tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)
tensor([[ 1.5694, -1.3895],
        [ 1.3373, -1.2163]], grad_fn=<AddmmBackward>)

批处理预测中的 logits 有问题：第二行应该是第二个句子的 logits，但我们得到了完全不同的值！

这是因为 Transformer 模型的关键特征是上下文化每个标记的注意力层。它们将考虑填充标记，因为它们会关注序列的所有标记。为了在分别传递不同长度的单个句子或传递具有相同句子和应用填充的批处理时获得相同的结果，我们需要告诉这些注意力层忽略填充标记。这是通过使用注意力掩码完成的。

注意力掩码

注意力掩码是与输入 ID 张量具有完全相同形状的张量，填充了 0 和 1：1 表示应关注相应的标记，而 0 表示应忽略相应的标记（即，应被模型的注意力层忽略）。

让我们用注意力掩码完成前面的示例

batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

attention_mask = [
    [1, 1, 1],
    [1, 1, 0],
]

outputs = model(torch.tensor(batched_ids), attention_mask=torch.tensor(attention_mask))
print(outputs.logits)

tensor([[ 1.5694, -1.3895],
        [ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)

现在我们得到了批处理中第二个句子的相同 logits。

注意第二序列的最后一个值是填充 ID，它在注意力掩码中是 0 值。

✏️ 尝试一下！ 在第 2 节中使用的两个句子上手动应用分词（“我一生都在等待 HuggingFace 课程。”和“我太讨厌这个了！”）。将它们通过模型并检查你是否获得了与第 2 节中相同的 logits。现在使用填充标记将它们一起批处理，然后创建正确的注意力掩码。检查在通过模型时你是否获得了相同的结果！

更长的序列

使用 Transformer 模型时，我们可以传递给模型的序列长度有限制。大多数模型处理的序列长度最多为 512 或 1024 个 token，当要求处理更长的序列时，会崩溃。这个问题有两个解决方法

使用支持更长序列长度的模型。
截断您的序列。

模型支持的序列长度各不相同，有些模型专门用于处理很长的序列。 Longformer 是一个例子，另一个是 LED。如果您正在进行需要非常长序列的任务，建议您参考这些模型。

否则，建议您通过指定 max_sequence_length 参数来截断您的序列

sequence = sequence[:max_sequence_length]

NLP 课程

处理多个序列

模型期望一批输入

填充输入

注意力掩码

更长的序列