Transformers 文档

XLNet

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

XLNet

概述

XLNet 模型由 Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov 和 Quoc V. Le 在 XLNet: Generalized Autoregressive Pretraining for Language Understanding 中提出。XLNet 是 Transformer-XL 模型的扩展，它使用自回归方法进行预训练，通过最大化输入序列所有排列分解顺序的期望似然来学习双向上下文。

以下是论文的摘要

由于能够对双向上下文进行建模，像 BERT 这样基于去噪自编码器的预训练方法比基于自回归语言模型的预训练方法取得了更好的性能。然而，BERT 依赖于使用掩码来破坏输入，忽略了被掩盖位置之间的依赖关系，并存在预训练-微调差异的问题。鉴于这些优点和缺点，我们提出了 XLNet，这是一种广义的自回归预训练方法，它 (1) 通过最大化分解顺序所有排列的期望似然来学习双向上下文，并且 (2) 由于其自回归公式，克服了 BERT 的局限性。此外，XLNet 将来自 Transformer-XL（最先进的自回归模型）的思想融入到预训练中。经验表明，在可比较的实验设置下，XLNet 在 20 个任务上优于 BERT，通常优势很大，包括问答、自然语言推理、情感分析和文档排序。

此模型由 thomwolf 贡献。原始代码可以在这里找到。

使用技巧

可以使用 perm_mask 输入在训练和测试时控制特定的注意力模式。
由于在各种分解顺序上训练完全自回归模型的难度，XLNet 仅使用输出 tokens 的子集作为目标进行预训练，这些子集通过 target_mapping 输入进行选择。
要将 XLNet 用于顺序解码（即不在完全双向设置中），请使用 perm_mask 和 target_mapping 输入来控制注意力跨度和输出（请参阅 examples/pytorch/text-generation/run_generation.py 中的示例）
XLNet 是少数几个没有序列长度限制的模型之一。
XLNet 不是传统的自回归模型，而是使用建立在其基础上的训练策略。它置换句子中的 tokens，然后允许模型使用最后 n 个 tokens 来预测 token n+1。由于这一切都是通过掩码完成的，因此句子实际上是以正确的顺序输入到模型中的，但 XLNet 不是为 n+1 掩盖前 n 个 tokens，而是使用掩码来隐藏 1,…, 序列长度的给定排列中的先前 tokens。
XLNet 还使用了与 Transformer-XL 相同的循环机制来构建长期依赖关系。

Transformers

XLNet

概述

使用技巧

资源

XLNetConfig

class transformers.XLNetConfig

XLNetTokenizer

class transformers.XLNetTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

XLNetTokenizerFast

class transformers.XLNetTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

XLNet 特定的输出

class transformers.models.xlnet.modeling_xlnet.XLNetModelOutput

class transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput

class transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput

class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput

XLNetModel

class transformers.XLNetModel

forward

XLNetLMHeadModel

class transformers.XLNetLMHeadModel

forward

XLNetForSequenceClassification

class transformers.XLNetForSequenceClassification

forward

XLNetForMultipleChoice

class transformers.XLNetForMultipleChoice

forward

XLNetForTokenClassification

class transformers.XLNetForTokenClassification

forward

XLNetForQuestionAnsweringSimple

class transformers.XLNetForQuestionAnsweringSimple

forward

XLNetForQuestionAnswering

class transformers.XLNetForQuestionAnswering

forward

TFXLNetModel

class transformers.TFXLNetModel

call

TFXLNetLMHeadModel

class transformers.TFXLNetLMHeadModel

call

TFXLNetForSequenceClassification

class transformers.TFXLNetForSequenceClassification

call

TFXLNetForMultipleChoice

class transformers.TFXLNetForMultipleChoice

call

TFXLNetForTokenClassification

class transformers.TFXLNetForTokenClassification

call

TFXLNetForQuestionAnsweringSimple

class transformers.TFXLNetForQuestionAnsweringSimple

call