Transformers 文档

Longformer

Transformers

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Longformer

概述

Longformer 模型在 Longformer: The Long-Document Transformer 中被提出，作者是 Iz Beltagy、Matthew E. Peters 和 Arman Cohan。

该论文的摘要如下：

基于 Transformer 的模型由于其自注意力操作而无法处理长序列，自注意力操作的复杂度与序列长度成二次方增长。为了解决这个限制，我们引入了 Longformer，它采用的注意力机制的复杂度与序列长度成线性关系，从而可以轻松处理数千甚至更长 token 的文档。Longformer 的注意力机制是标准自注意力的直接替代品，它将局部窗口注意力与任务驱动的全局注意力相结合。与先前关于长序列 Transformer 的工作一致，我们在字符级语言建模上评估了 Longformer，并在 text8 和 enwik8 上取得了最先进的结果。与大多数先前工作不同，我们还预训练了 Longformer，并将其微调到各种下游任务中。我们的预训练 Longformer 在长文档任务中始终优于 RoBERTa，并在 WikiHop 和 TriviaQA 上创造了新的最先进结果。

此模型由 beltagy 贡献。作者的代码可以在这里找到。

使用技巧

由于 Longformer 是基于 RoBERTa 的，因此它没有 token_type_ids。您无需指示哪个 token 属于哪个段。只需使用分隔 token tokenizer.sep_token (或 </s>) 分隔您的段即可。
一个通过稀疏矩阵替换注意力矩阵以加快速度的 Transformer 模型。通常，局部上下文（例如，左右两个 token 是什么？）足以对给定的 token 采取行动。一些预选的输入 token 仍然被赋予全局注意力，但注意力矩阵的参数要少得多，从而加快了速度。有关更多信息，请参阅局部注意力部分。

Longformer 自注意力

Longformer 自注意力在“局部”上下文和“全局”上下文中都采用了自注意力。大多数 token 仅“局部地”相互关注，这意味着每个 token 关注其 $\frac{1}{2} w$ 之前的 token 和 $\frac{1}{2} w$ 随后的 token，窗口长度为 $w$ ，窗口长度在 config.attention_window 中定义。请注意，config.attention_window 可以是 List 类型，以定义不同的 $w$ 每层窗口大小。选定的少数 token “全局地”关注所有其他 token，就像 BertSelfAttention 中所有 token 的常规做法一样。

请注意，“局部”和“全局”关注 token 由不同的查询、键和值矩阵投影。另请注意，每个“局部”关注 token 不仅关注其窗口内的 token $w$ ，而且还关注所有“全局”关注 token，因此全局注意力是对称的。

用户可以通过在运行时适当设置 tensor global_attention_mask 来定义哪些 token “局部地”关注，哪些 token “全局地”关注。所有 Longformer 模型都对 global_attention_mask 采用以下逻辑

0：token “局部地”关注，
1：token “全局地”关注。

有关更多信息，请参阅 forward() 方法。

使用 Longformer 自注意力，查询-键矩阵乘法运算的内存和时间复杂度（通常代表内存和时间瓶颈）可以从 $\mathcal{O}(n_s \times n_s)$ 降低到 $\mathcal{O}(n_s \times w)$ ，其中 $n_s$ 是序列长度， $w$ 是平均窗口大小。假设“全局”关注 token 的数量与“局部”关注 token 的数量相比微不足道。

有关更多信息，请参阅官方论文。

训练

LongformerForMaskedLM 的训练方式与 RobertaForMaskedLM 完全相同，应按如下方式使用

input_ids = tokenizer.encode("This is a sentence from [MASK] training data", return_tensors="pt")
mlm_labels = tokenizer.encode("This is a sentence from the training data", return_tensors="pt")

loss = model(input_ids, labels=input_ids, masked_lm_labels=mlm_labels)[0]

Transformers

Longformer

概述

使用技巧

Longformer 自注意力

训练

资源

LongformerConfig

class transformers.LongformerConfig

LongformerTokenizer

class transformers.LongformerTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

LongformerTokenizerFast

class transformers.LongformerTokenizerFast

create_token_type_ids_from_sequences

Longformer 特定输出

class transformers.models.longformer.modeling_longformer.LongformerBaseModelOutput

class transformers.models.longformer.modeling_longformer.LongformerBaseModelOutputWithPooling

class transformers.models.longformer.modeling_longformer.LongformerMaskedLMOutput

class transformers.models.longformer.modeling_longformer.LongformerQuestionAnsweringModelOutput

class transformers.models.longformer.modeling_longformer.LongformerSequenceClassifierOutput

类 transformers.models.longformer.modeling_longformer.LongformerMultipleChoiceModelOutput

类 transformers.models.longformer.modeling_longformer.LongformerTokenClassifierOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutputWithPooling

class transformers.models.longformer.modeling_tf_longformer.TFLongformerMaskedLMOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerQuestionAnsweringModelOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerSequenceClassifierOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerMultipleChoiceModelOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerTokenClassifierOutput

LongformerModel

类 transformers.LongformerModel

forward

LongformerForMaskedLM

class transformers.LongformerForMaskedLM

forward

LongformerForSequenceClassification

class transformers.LongformerForSequenceClassification

forward

LongformerForMultipleChoice

class transformers.LongformerForMultipleChoice

forward

LongformerForTokenClassification

class transformers.LongformerForTokenClassification

forward

LongformerForQuestionAnswering

class transformers.LongformerForQuestionAnswering

forward

TFLongformerModel

class transformers.TFLongformerModel

call

TFLongformerForMaskedLM

class transformers.TFLongformerForMaskedLM

call

TFLongformerForQuestionAnswering

class transformers.TFLongformerForQuestionAnswering

call

TFLongformerForSequenceClassification

class transformers.TFLongformerForSequenceClassification

call

TFLongformerForTokenClassification

class transformers.TFLongformerForTokenClassification

call

TFLongformerForMultipleChoice

class transformers.TFLongformerForMultipleChoice

call