XLNet
概览
XLNet模型由杨志林,戴子航,杨一鸣,卡罗恩,萨拉赫图丁诺夫和Quoc V. Le在《XLNet:面向语言理解的泛化自回归预训练》一文中提出,即https://arxiv.org/abs/1906.08237。XLNet是Transformer-XL模型的一种扩展,使用自回归方法通过最大化输入序列分解顺序的预期似然来学习双向上下文。
论文的摘要如下
借助建模双向上下文的能力,基于去噪自编码器预训练的BERT(如BERT)相比基于自回归语言建模的预训练方法,实现了更好的性能。然而,BERT通过搪塞输入的方式,忽略了掩码位置之间的依赖关系,并遭受预训练-微调差异之苦。鉴于这些优劣,我们提出了XLNet,这是一种通用的自回归预训练方法,它(1)通过最大化所有分解顺序排列的期望似然,使双向上下文学习成为可能;(2)由于其自回归公式的存在,克服了BERT的局限性。此外,XLNet将Transformer-XL中最好的自回归模型的思想整合到预训练中。实证研究表明,在可比的实验设置下,XLNet在包括问答、自然语言推理、情感分析和文档排序在内的20个任务上,通常以很大优势超越BERT。
使用技巧
- 通过使用
perm_mask
输入,可以在训练和测试时间控制特定的注意力模式。 - 由于在各种分解顺序上训练完全自回归模型的困难,XLNet仅使用输出标记的子集作为目标进行预训练,并通过
target_mapping
输入选择这些标记。 - 要使用XLNet进行序列解码(即非全双向设置),请使用
perm_mask
和target_mapping
输入来控制注意力范围和输出(请参阅examples/pytorch/text-generation/run_generation.py中的示例) - XLNet是非常少数没有序列长度限制的模型之一。
- XLNet不是一个传统的自回归模型,而是采取基于自回归的培训策略。它将句中的标记进行排列,然后允许模型使用最后n个标记来预测标记n+1。由于这一切都是在掩码中完成的,所以实际上是按照正确的顺序将句子输入到模型中,但不是对n+1前面的n个标记进行掩码,XLNet使用一个掩码来隐藏在1,…,序列长度的一些给定排列中的前一个标记。
- XLNet还使用与Transformer-XL相同的递归机制来构建长期依赖关系。
资源
XLNetConfig
类 transformers.XLNetConfig
< 源代码 >( vocab_size = 32000d_model = 1024n_layer = 24n_head = 16d_inner = 4096ff_activation = 'gelu'untie_r = Trueattn_type = 'bi'initializer_range = 0.02layer_norm_eps = 1e-12dropout = 0.1mem_len = 512reuse_len = Noneuse_mems_eval = Trueuse_mems_train = Falsebi_data = Falseclamp_len = -1same_length = Falsesummary_type = 'last'summary_use_proj = Truesummary_activation = 'tanh'summary_last_dropout = 0.1start_n_top = 5end_n_top = 5pad_token_id = 5bos_token_id = 1eos_token_id = 2**kwargs )
参数
- vocab_size (
int
, 可选,默认为 32000) — XLNet 模型的词汇大小。定义了当调用 XLNetModel 或 TFXLNetModel 时,可以通过inputs_ids
传入的不同标记的数量。 - d_model (
int
, 可选,默认为 1024) — 编码层和池化层的维度。 - n_layer (
int
, 可选,默认为 24) — Transformer 编码器的隐藏层数量。 - n_head (
int
, 可选,默认为 16) — Transformer 编码器中每个注意力层的注意力头数。 - d_inner (
int
, 可选,默认为 4096) — Transformer 编码器中“中间”层(通常称为前馈层)的维度。 - ff_activation (
str
或Callable
,可选,默认为"gelu"
) — Transformer 中非线激活函数(函数或字符串)。如果为字符串,支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - untie_r (
bool
, 可选, 默认为True
) — 是否解除相对位置偏置的约束 - attn_type (
字符串
, 可选, 默认为"bi"
) — 模型使用的注意力类型。XLNet设置"bi"
,Transformer-XL设置"uni"
。 - initializer_range (
浮点数
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。 - layer_norm_eps (
浮点数
, 可选, 默认为 1e-12) — 层归一化层使用的epsilon值。 - dropout (
float
, 可选,默认值为0.1) — 嵌入层、编码器池化层中所有全连接层的dropout概率。 - mem_len (
int
或None
,可选) — 要缓存的项目数量。在之前的正向传递中已预先计算的键/值对将不会重新计算。有关更多信息,请参阅快速入门。 - reuse_len (
int
,可选) — 当前批中将被缓存和以后重用的token数量。 - bi_data (
bool
, 可选, 默认为False
) — 是否使用双向输入管道。通常在预训练期间设置为True
并在微调期间设置为False
。 - clamp_len (
int
, 可选, 默认为 -1) — 锁定所有大于 clamp_len 的相对距离。将此属性设置为 -1 表示不锁定。 - same_length (
bool
, 可选, 默认为False
) — 是否为每个标记使用相同的注意力长度。 - summary_type (
str
, 可选, 默认为“last”) — 用于进行序列摘要的参数。用于序列分类和多项选择模型。必须是以下选项之一:
"last"
:取最后一个标记的隐藏状态(如XLNet)。"first"
:取第一个标记的隐藏状态(如BERT)。"mean"
:取所有标记的隐藏状态的均值。"cls_index"
:提供包含分类标记位置的Tensor(如GPT/GPT-2)。"attn"
:目前未实现,使用多头注意力。
- summary_use_proj (
bool
, 可选, 默认为True
) — 用于进行序列摘要的参数。用于序列分类和多项选择模型。提取向量后是否添加投影。
- summary_activation (
str
, 可选) — 用于进行序列摘要的参数。用于序列分类和多项选择模型。将
"tanh"
传递给输出以获得tanh激活,任何其他值都会导致无激活。 - summary_proj_to_labels (
bool
, 可选, 默认为 true) — 用于序列分类和多项选择模型。 - summary_last_dropout (
float
, 可选, 默认为 0.1) — 用于序列分类和多项选择模型。 - start_n_top (
int
, 可选, 默认为 5) — 用于 SQuAD 评估脚本。 - end_n_top (
int
, 可选, 默认为 5) — 用于 SQuAD 评估脚本。 - use_mems_eval (
bool
, 可选,默认为True
) — 在评估模式中,模型是否应使用循环记忆机制。 - use_mems_train (
bool
, 可选,默认为False
) — 在训练模式中,模型是否应使用循环记忆机制。对于预训练,建议将
use_mems_train
设置为True
。对于微调,建议在此处讨论的情况下,将use_mems_train
设置为False
。如果将use_mems_train
设置为True
,则必须确保训练批次已正确预处理,例如batch_1 = [[This line is], [This is the]]
和batch_2 = [[ the first line], [ second line]]
,并且所有批次大小相等。
这是一个配置类,用于存储XLNetModel或TFXLNetModel的配置。它用于根据指定的参数实例化XLNet模型,定义模型架构。使用默认值创建的配置将获得与xlnet/xlnet-large-cased架构相似的配置。
配置对象继承自PretrainedConfig,可用于控制模型输出。更多信息请参见PretrainedConfig文档。
示例
>>> from transformers import XLNetConfig, XLNetModel
>>> # Initializing a XLNet configuration
>>> configuration = XLNetConfig()
>>> # Initializing a model (with random weights) from the configuration
>>> model = XLNetModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
XLNetTokenizer
类 transformers.XLNetTokenizer
< 源代码 >( vocab_file do_lower_case = False remove_space = True keep_accents = False bos_token = '<s>' eos_token = '</s>' unk_token = '<unk>' sep_token = '<sep>' pad_token = '<pad>' cls_token = '<cls>' mask_token = '<mask>' additional_special_tokens = ['<eop>', '<eod>'] sp_model_kwargs: Optional = None **kwargs )
参数
- vocab_file (
str
) — 包含构建分词器所需词汇表的 SentencePiece 文件(通常具有 .spm 扩展名)。 - do_lower_case (
bool
, 可选,默认为False
) — 分词时是否将输入转换为小写。 - remove_space (
bool
, 可选, 默认值为True
) — 是否在分词时消除文本中的空格(移除字符串前后多余的空格)。 - keep_accents (
bool
, 可选, 默认值为False
) — 是否在分词时保留重音符号。 - bos_token (
str
, 可选, 默认值为"<s>"
) — 预训练过程中使用的序列起始标记。可以用作序列分类标记。当使用特殊标记构建序列时,这并不是用于序列起始的标记。使用的标记是
cls_token
。 - eos_token (
str
, 可选,默认为""
) — 序列结束标记。 - unk_token (
str
, 可选,默认为"
) — 未知标记。不在词汇表中的标记无法转换为ID,并将其设置为该标记。" - sep_token (
str
, 可选,默认为""
) — 分隔标记,用于从多个序列(例如,用于序列分类的两个序列或用于问答的文本和问题)构建序列时。它还用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, 可选,默认为"
) — 用来填充的标记,例如在批量处理不同长度的序列时。" - cls_token (
str
, 可选,默认为"
) —用于序列分类(对整个序列的分类而不是逐个标记的分类)的分类器标记。在使用特殊标记构建时,它是序列的第一个标记。" - mask_token (
str
, 可选,默认为"
) —用于掩码值的标记。这是在训练这个模型使用掩码语言建模时所用的标记。这是模型将尝试预测的标记。" - additional_special_tokens (
List[str]
, 可选, 默认为['<eop>', '<eod>']
) — 分词器使用的额外特殊标记。 - sp_model_kwargs (
dict
, 可选) — 将传递给SentencePieceProcessor.__init__()
方法。Python 的 SentencePiece 封装器(See SentencePiece)可用于设置,例如: - sp_model (
SentencePieceProcessor
) — 用于每次转换(字符串、标记和 ID)的 SentencePiece 处理器。
构建一个 XLNet 分词器。基于 SentencePiece。
此分词器继承了 PreTrainedTokenizer,它包含大多数主要方法。用户应参阅此父类了解更多有关这些方法的信息。
build_inputs_with_special_tokens
< source >( token_ids_0: List token_ids_1: Optional = None ) → List[int]
通过连接和添加特殊标记来将序列或序列对构建成模型输入,用于序列分类任务。XLNet序列具有以下格式
- 单个序列:
X <sep> <cls>
- 序列对:
A <sep> B <sep> <cls>
get_special_tokens_mask
< source >( token_ids_0: 列表 token_ids_1: 可选 = None already_has_special_tokens: 布尔 = False ) → 列表[int]
参数
- token_ids_0 (
列表[int]
) — ID 列表。 - token_ids_1 (
列表[int]
, 可选) — 可选的第二条 ID 列表,用于序列对。 - already_has_special_tokens (
bool
, optional, default isFalse
) — Whether the token list is already formatted with special tokens for the model.
返回
List[int]
A set of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token.
Retrieve sequence IDs from a token list that does not have special tokens added. This method is called when adding special tokens using the prepare_for_model
tokenizer method.
create_token_type_ids_from_sequences
< source >( token_ids_0: List token_ids_1: Optional = None ) → List[int]
根据传入的两个序列创建一个掩码,用于序列对的分类任务。XLNet
如果 token_ids_1
是 None
,则该方法仅返回掩码的第一个部分(0)。
XLNetTokenizerFast
类 transformers.XLNetTokenizerFast
< source >( vocab_file = None tokenizer_file = None do_lower_case = False remove_space = True keep_accents = False bos_token = '<s>' eos_token = '</s>' unk_token = '<unk>' sep_token = '<sep>' pad_token = '<pad>' cls_token = '<cls>' mask_token = '<mask>' additional_special_tokens = ['<eop>', '<eod>'] **kwargs )
参数
- vocab_file (
str
) — 包含创建分词器所需词汇的SentencePiece文件(通常具有.spms后缀)。 - do_lower_case (
bool
, 可选,默认为True
) — 标记化时是否将输入转换为小写。 - remove_space (
bool
, 可选,默认为True
) — 标记化时是否清除额外的空格(字符串首尾的空格)。 - keep_accents (
bool
, 可选,默认为False
) — 标记化时是否保留重音符号。 - bos_token(《str》,可选,默认为`
`)— 在预训练期间使用的序列起始标记。可以用作序列分类标记。当使用特殊标记构建序列时,这不是用于序列起始的标记。使用的标记是`cls_token`。
- eos_token(《str》,可选,默认为``)— 序列结束标记。
当使用特殊标记构建序列时,这不是用于序列结束的标记。使用的标记是`sep_token`。
- unk_token(《str》,可选,默认为`
`)— 未知标记。不在词汇表中的标记无法转换为ID,并设置为该标记。 - sep_token (
str
,可选,默认为"<sep>"
) — 分隔符标记,用于构建由多个序列组成的序列时,例如分类或用于文本和问题的问答中的两个序列。它也用作由特殊标记构建的序列的最后一个标记。 - pad_token (
str
,可选,默认为"<pad>"
) — 填充标记,用于不同长度的序列批处理时,例如。 - cls_token (
str
,可选,默认为"<cls>"
) — 用于序列分类(对整个序列进行分类而不是逐个标记分类)的分类标记。当使用特殊标记构建序列时,它是序列的第一个标记。 - mask_token (
str
, 可选, 默认为"<mask>"
) — 用于遮罩值的标记。在用带遮罩的语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 - additional_special_tokens (
List[str]
, 可选, 默认为["<eop>", "<eod>"]
) — 由标记器使用的其他特殊标记。 - sp_model (
SentencePieceProcessor
) — 用于每个转换(字符串、标记和ID)的 SentencePiece 处理器。
构建一个“快速”的 XLNet 标记器(由 HuggingFace 的 tokenizers 库支持)。基于 Unigram。
此标记器继承自 PreTrainedTokenizerFast,其中包含大部分主要方法。用户应参考这个超类来获取更多关于这些方法的信息。
build_inputs_with_special_tokens
< 来源 >( token_ids_0: List token_ids_1: Optional = None ) → List[int]
通过连接和添加特殊标记来将序列或序列对构建成模型输入,用于序列分类任务。XLNet序列具有以下格式
- 单个序列:
X <sep> <cls>
- 序列对:
A <sep> B <sep> <cls>
create_token_type_ids_from_sequences
< 来源 >( token_ids_0: List token_ids_1: Optional = None ) → List[int]
根据传入的两个序列创建一个掩码,用于序列对的分类任务。XLNet
如果 token_ids_1
是 None
,则该方法仅返回掩码的第一个部分(0)。
XLNet 特定的输出
类 transformers.models.xlnet.modeling_xlnet.XLNetModelOutput
< 来源 >( last_hidden_state: FloatTensor mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- last_hidden_state (
torch.FloatTensor
形状(batch_size, num_predict, hidden_size)
) — 模型最后一层的隐藏状态的序列。num_predict
相当于target_mapping.shape[1]
。如果target_mapping
为None
,则num_predict
相当于sequence_length
。 - mems —— 包含预计算的隐藏状态(
List[torch.FloatTensor]
of lengthconfig.n_layers
)。可用来加速连续解码(seemems
输入)。给予此模型过去信息的数据不应该作为input_ids
传递,因为它们已经计算过了。 - hidden_states —— (可选,当
output_hidden_states=True
被传递,或者当config.output_hidden_states=True
) — 每个层的隐藏状态和初始嵌入输出的torch.FloatTensor
元组(一个用于嵌入输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每层的输出和初始嵌入输出处的隐藏状态。
- attentions —— (可选,当
output_attentions=True
被传递,或者当config.output_attentions=True
) — 每层的注意力权重torch.FloatTensor
元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。用于计算每个自注意力头中加权平均的权重。
XLNetModel 的输出类型。
类 transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput
< source >( loss: Optional = None logits: FloatTensor = None mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- loss (
torch.FloatTensor
形状 (1,), 可选, 当labels
传递时返回) — 语言建模损失(用于下一步符预测)。 - logits (
torch.FloatTensor
的形状为(batch_size, num_predict, config.vocab_size)
) — 语言模型头部的预测得分(SoftMax 之前的每个词汇项的得分)。num_predict
对应于target_mapping.shape[1]
。如果target_mapping
是None
,则num_predict
对应于sequence_length
。 - mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预计算隐藏状态。可以用于(见mems
输入)加速顺序解码。应将该模型已有过去信息的标记 IDs 作为input_ids
,因为它们已经被计算。 - hidden_states (
tuple(torch.FloatTensor)
,可选,返回当output_hidden_states=True
被传递或当config.output_hidden_states=True
时) — 一个元组,包含torch.FloatTensor
(一个用于嵌入输出,一个用于每一层的输出)的形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出的隐藏状态,以及初始嵌入输出。
- attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或配置config.output_attentions=True
时返回) — 一个形为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
对,为每层都有一个。它是注意力 softmax 后的注意力权重,用于在自注意力头中计算加权平均。
XLNetLMHeadModel 的输出类型。
类 transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput
< 源 >( loss: Optional = None logits: FloatTensor = None mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- loss (
torch.FloatTensor
形状为(1,)
,可选,当提供标签时返回) — 分类(或回归,如果 config.num_labels==1)损失。 - logits (
torch.FloatTensor
形状(batch_size, config.num_labels)
) — 分类(或回归,如果 config.num_labels == 1)分数(在 SoftMax 之前)。 - mems (
List[torch.FloatTensor]
长度config.n_layers
) — 包含预计算的隐藏状态。可以使用(参见mems
输入)来加速顺序解码。应该将已向此模型提供过去标识的令牌 ID 作为input_ids
传递,因为它们已经被计算出。 - hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(一个用于嵌入输出的输出,一个用于每层输出的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出的隐藏状态以及初始嵌入输出。
- attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 每层对应的torch.FloatTensor
的元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力块的softmax后的权重,用于在自注意力头中计算加权平均。
XLNetForSequenceClassification的输出类型。
类 transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput
< source >( loss: Optional = None logits: FloatTensor = None mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- loss (
torch.FloatTensor
,形状为 (1,),可选,当提供labels
时返回) — 分类损失。 - logits (
torch.FloatTensor
of shape(batch_size, num_choices)
)- num_choices is the second dimension of the input tensors. (see input_ids above).SoftMax之前的分类分数。
- mems (
List[torch.FloatTensor]
of lengthconfig.n_layers
) - 包含预计算的隐藏状态。可以(见mems
输入)用于加速顺序解码。已经给出给本模型的标记ID不应作为input_ids
传递,因为它们已经被计算了。 - hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) - 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(包括嵌入输出的输出 + 每层输出的输出)。模型在每个层的输出以及初始嵌入输出的隐藏状态。
- attentions (
可选项
(tuple(torch.FloatTensor)),当传递output_attentions=True
或config.output_attentions=True
时返回) — 包含每个层的torch.FloatTensor
组成的元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力softmax后的注意力权值,用于在自注意力头中计算加权平均。
XLNetForMultipleChoice 的输出类型。
类 transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput
< source >( loss: Optional = None logits: FloatTensor = None mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- loss (
torch.FloatTensor
,形状为(1,)
,可选项,当提供labels
时返回) — 分类损失。 - logits (
torch.FloatTensor
,形状为(batch_size, sequence_length, config.num_labels)
) — 分类得分(在SoftMax之前)。 - mems (
List[torch.FloatTensor]
,长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(详见mems
输入)加速序列解码。应该不将已经提供给此模型的过去标记ID作为input_ids
传递,因为它们已经被计算过。 - hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(一个用于嵌入输出,一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型的每层输出加上初始嵌入输出时的隐藏状态。
- attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当配置config.output_attentions=True
时返回) — 一个torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力softmax后的注意权重,用于计算自注意力头的加权平均值。
XLNetForTokenClassificationOutput
的输出类型。
类 transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput
< 来源 >( loss: Optional = None start_logits: FloatTensor = None end_logits: FloatTensor = None mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- loss (
torch.FloatTensor
形状为(1,)
,可选,当提供labels
时返回) — 总跨度抽取损失是开始和结束位置的交叉熵之和。 - start_logits (
torch.FloatTensor
形状为(batch_size, sequence_length,)
) — 跨度起始分数(SoftMax 之前)。 - end_logits (
torch.FloatTensor
形状为(batch_size, sequence_length,)
) — 跨度结束分数(SoftMax 之前)。 - mems (
List[torch.FloatTensor]
of lengthconfig.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快序列解码。已经给定过去信息的标记不应作为input_ids
传递,因为它们已经被计算过了。 - hidden_states (
tuple(torch.FloatTensor)
, 可选,在传递了output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
组成的元组(一个用于嵌入输出,一个用于每个层的输出)。模型在每个层输出的隐藏状态以及初始嵌入输出。
- attentions (
tuple(torch.FloatTensor)
, 可选,在传递了output_attentions=True
或当config.output_attentions=True
时返回) — 包含形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
的元组(每个层一个)。注意力 softmax 后的注意力权重,用于在自注意力头中计算加权的平均。
XLNetForQuestionAnsweringSimple 的输出类型。XLNetForQuestionAnsweringSimple。
类 transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput
< 源代码 >( loss: Optional = None start_top_log_probs: Optional = None start_top_index: Optional = None end_top_log_probs: Optional = None end_top_index: Optional = None cls_logits: Optional = None mems: Optional = None hidden_states: Optional = None attentions: Optional = None )
参数
- loss (
torch.FloatTensor
形状(1,)
,可选,当提供start_positions
和end_positions
时返回) — 两个分类损失之和,即开始标记、结束标记(如果提供则是 is_impossible)的分类损失。 - start_top_log_probs (
torch.FloatTensor
形状为(batch_size, config.start_n_top)
,可选,在没有提供 start_positions 或 end_positions 时返回) — 顶级 config.start_n_top 开始标记可能性的对数概率(beam-search)。 - start_top_index (
torch.LongTensor
形状为(batch_size, config.start_n_top)
,可选,在没有提供 start_positions 或 end_positions 时返回) — 顶级 config.start_n_top 开始标记可能性的索引(beam-search)。 - end_top_log_probs (
torch.FloatTensor
形状为(batch_size, config.start_n_top * config.end_n_top)
,可选,在没有提供 start_positions 或 end_positions 时返回) — 顶级config.start_n_top * config.end_n_top
结束标记可能性的对数概率(beam-search)。 - end_top_index (
torch.LongTensor
,形状为(batch_size, config.start_n_top * config.end_n_top)
,可选,如果未提供start_positions
或end_positions
则返回) —— 启发式搜索中 topconfig.start_n_top * config.end_n_top
个末尾标记的索引。 - cls_logits (
torch.FloatTensor
,形状为(batch_size,)
,可选,如果未提供start_positions
或end_positions
则返回) —— 对答案中is_impossible
标签的对数可能性。 - mems (
List[torch.FloatTensor]
,长度为config.n_layers
的列表) —— 包含预先计算的隐藏状态。可以用作(参见mems
输入)以加快序列解码。已给出过去的标记 ID 给此模型不应作为input_ids
传递,因为它们已计算。 - hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 一个形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于嵌入输出,一个用于每层输出)。模型在每层输出以及初始嵌入输出的隐藏状态。
- attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组。在注意力softmax之后的注意力权重,用于自我注意力头中的加权平均计算。
XLNetForQuestionAnswering的输出类型。
类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput
< source >( last_hidden_state: tf.Tensor = None mems: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor, ...] | None = None attentions: Tuple[tf.Tensor, ...] | None = None )
参数
- last_hidden_state (
tf.Tensor
形状(batch_size, num_predict, hidden_size)
) — 模型最后一层的隐藏状态序列。num_predict
与target_mapping.shape[1]
对应。如果target_mapping
为None
,则num_predict
与sequence_length
对应。 - mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可以用于(见mems
输入)以加快序列解码。应将已经计算过的具有过去状态的令牌 ID 作为input_ids
提供给此模型,而无需再次传递。 - hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
时返回,或者当config.output_hidden_states=True
时返回) — 一个形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个是嵌入输出的输出,一个是每一层的输出)。 - attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
时返回,或者当config.output_attentions=True
时返回) — 一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(针对每一个层)。
TFXLNetModel的输出类型。
类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput
( loss: tf.Tensor | None = None logits: tf.Tensor = None mems: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor, ...] | None = None attentions: Tuple[tf.Tensor, ...] | None = None )
参数
- loss (
tf.Tensor
形状为 (1,),可选,当提供labels
时返回) — 语言模型损失(用于下一个单词的预测)。 - logits (
tf.Tensor
形状为(batch_size, num_predict, config.vocab_size)
) — 语言模型头的预测分数(SoftMax前的每个词汇的分数)。num_predict
对应于target_mapping.shape[1]
。如果target_mapping
为None
,则num_predict
对应于sequence_length
。 - mems (
List[tf.Tensor]
的长度为config.n_layers
) — 包含预计算的隐藏状态。可以用于(见mems
输入)来加速序列解码。不应将已经计算过的带过去模型中的 token id 作为input_ids
传递。 - hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 一组tf.Tensor
值(一个用于嵌入输出,一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 一组形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
值(每个包含一个层的注意力权重)。这些权重用来自我注意力头中的加权平均计算。
TFXLNetLMHeadModel 的输出类型。
类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput
< source >( loss: tf.Tensor | None = None logits: tf.Tensor = None mems: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor, ...] | None = None attentions: Tuple[tf.Tensor, ...] | None = None )
参数
- loss (
tf.Tensor
of shape(1,)
, optional, returned whenlabel
is provided) — 分类(或配置num_labels为1时的回归)损失。 - logits (
tf.Tensor
of shape(batch_size, config.num_labels)
) — 分类(或配置num_labels为1时的回归)分数(在SoftMax之前)。 - mems (
List[tf.Tensor]
of lengthconfig.n_layers
) — 包含预计算的隐藏状态。可用于(请参阅mems
输入)以加速顺序解码。已向此模型提供过去信息的标记ID不应作为input_ids
传递,因为它们已经被计算过。 - hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 元组中包含tf.Tensor
(一个用于嵌入的输出,一个用于每一层的输出)的形状为(batch_size, sequence_length, hidden_size)
。每个层的模型输出隐藏状态以及初始嵌入输出。
- attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 元组中包含每一层的tf.Tensor
的形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力softmax后的注意力权重,用于在自注意力头中进行加权平均。
class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput
< source >( loss: tf.Tensor | None = None logits: tf.Tensor = None mems: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor, ...] | None = None attentions: Tuple[tf.Tensor, ...] | None = None )
参数
- loss (
tf.Tensor
of shape (1,), optional, returned whenlabels
is provided) — 分类损失。 - logits (
tf.Tensor
of shape(batch_size, num_choices)
) — num_choices is the second dimension of the input tensors. (see input_ids above).Classification scores (before SoftMax).
- mems (
List[tf.Tensor]
,长度为config.n_layers
) — 包含预先计算的隐藏状态。可用于(参见mems
输入)加快序列解码。应该将已给当前模型的历史token ids作为input_ids
传递,因为它们已经计算完成。 - hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
) —tf.Tensor
元组的形状为(batch_size, sequence_length, hidden_size)
。这是在每层输出的模型隐藏状态以及初始嵌入输出。 - attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
) —tf.Tensor
元组的形状为(batch_size, num_heads, sequence_length, sequence_length)
。这是在注意力softmax操作后的注意力权重,用于在自注意力头部计算加权平均。
TFXLNetForMultipleChoice的输出类型。
类别 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput
< 源代码 >( loss: tf.Tensor | None = None logits: tf.Tensor = None mems: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor, ...] | None = None attentions: Tuple[tf.Tensor, ...] | None = None )
参数
- loss (
tf.Tensor
形状为(1,)
,可选,当提供labels
时返回) — 分类损失。 - logits (
tf.Tensor
形状为(batch_size, sequence_length, config.num_labels)
) — 分类得分(SoftMax 之前)。 - mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可以(见mems
输入)用来加速顺序解码。已将过去给到这个模型标记的 ID 不应作为input_ids
传递,因为它们已经被计算过。 - hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 一组tf.Tensor
(包括嵌入输出和每一层的输出)的元组,形状为(batch_size, sequence_length, hidden_size)
。包含模型在每个层的输出和初始嵌入输出。 - attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 一组tf.Tensor
(每个层一个)的元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。包含注意力权重,在自注意力头的加权平均中使用。
输出类型为 `TFXLNetForTokenClassificationOutput`。
class transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput
< source >( loss: tf.Tensor | None = None start_logits: tf.Tensor = None end_logits: tf.Tensor = None mems: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor, ...] | None = None attentions: Tuple[tf.Tensor, ...] | None = None )
参数
- loss (
tf.Tensor
of shape(1,)
, 可选,当提供labels
时返回) — 总跨度提取损失是起始向量和结束向量的交叉熵之和。 - start_logits (
tf.Tensor
形状为(batch_size, sequence_length,)
) — Span起始分数(在SoftMax之前)。 - end_logits (
tf.Tensor
形状为(batch_size, sequence_length,)
) — Span结束分数(在SoftMax之前)。 - mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以使用(见mems
输入)来加速顺序解码。这些已将过去交给此模型的标记ID不应作为input_ids
传递,因为它们已经被计算。 - hidden_states (
tuple(tf.Tensor)
,可选,当传入output_hidden_states=True
或config.output_hidden_states=True
时返回) — 包含每个层输出和初始嵌入输出的tf.Tensor
元组,形状为(batch_size, sequence_length, hidden_size)
。 - attentions (
tuple(tf.Tensor)
,可选,当传入output_attentions=True
或config.output_attentions=True
时返回) — 每个层的形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组。
TFXLNetForQuestionAnsweringSimple的输出类型。
XLNetModel
类 transformers.XLNetModel
< source >( config )
参数
- config (XLNetConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载模型关联的权重,只会加载配置。请检查from_pretrained()方法以加载模型权重。
裸XLNet模型变压器输出原始隐藏状态,没有任何特定的头部。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
< source >( input_ids:可选 = None attention_mask:可选 = None mems:可选 = None perm_mask:可选 = None target_mapping:可选 = None token_type_ids:可选 = None input_mask:可选 = None head_mask:可选 = None inputs_embeds:可选 = None use_mems:可选 = None output_attentions:可选 = None output_hidden_states:可选 = None return_dict:可选 = None **kwargs ) → transformers.models.xlnet.modeling_xlnet.XLNetModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — 输入序列令牌的词汇表索引。索引可以通过 AutoTokenizer 获取。详细信息请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask(《torch.FloatTensor》形状为
(batch_size, sequence_length)
,可选)—— 用于避免在填充标记索引上执行注意力操作的掩码。选中的掩码值处于[0, 1]
:- 1 代表未被掩码的标记,
- 0 代表被掩码的标记。
- mems(《List[torch.FloatTensor]`长度为
config.n_layers
)—— 包含预先计算的隐藏状态(见下文mems
输出)。可用于加速顺序解码。已经将过去输入此模型的标记传给该模型的标记不应该再次作为input_ids
传递,因为它们已经被计算过。use_mems
必须设置为True
才能使用mems
。 - perm_mask(《torch.FloatTensor`形状为
(batch_size, sequence_length, sequence_length)
,可选)—— 用来指示每个输入标记的注意力图,选中的值在[0, 1]
:- 如果
perm_mask[k, i, j] = 0
,则表示在批次k中i会关注j; - 如果
perm_mask[k, i, j] = 1
,则表示在批次k中i不会关注j。
如果没有设置,则每个标记都会关注所有其他标记(全双线性注意力)。仅在预训练期间(定义分解顺序)或进行顺序解码(生成)时使用。
- 如果
- target_mapping (
torch.FloatTensor
形状为(batch_size, num_predict, sequence_length)
, 可选) — 指明要使用的输出标记的掩码。如果target_mapping[k, i, j] = 1
,则批次 k 中第 i 个预测位于第 j 个标记。仅在预训练的局部预测或连续解码(生成)时使用。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 分割标记索引,用于指示输入的第一个和第二个部分。索引选自[0, 1]
:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- input_mask (
torch.FloatTensor
形状为batch_size, sequence_length
, 可选) — 避免在填充标记索引上执行注意力的掩码。这是attention_mask
的负值,即以 0 为真实标记,1 为填充(与原始代码库保持兼容)。掩码值选自
[0, 1]
:- 1 对于 已掩码 的标记,
- 0 对于 未掩码 的标记。
input_mask
或attention_mask
。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于禁用自注意力模块中选定头的掩码。掩码值在[0, 1]
之间选择:- 1 表示该头 未屏蔽;
- 0 表示该头 已屏蔽。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选择直接传递嵌入表示,而不仅仅是传递input_ids
。这对于您想要比模型内部嵌入查找矩阵有更多控制权如何将input_ids
索引转换为相关向量时非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关返回张量中的attentions
的更多详细信息,请参阅。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回ModelOutput而不是普通元组。
返回
transformers.models.xlnet.modeling_xlnet.XLNetModelOutput或tuple(torch.FloatTensor)
它是一个transformers.models.xlnet.modeling_xlnet.XLNetModelOutput
或一个torch.FloatTensor
的元组(如果传递了return_dict=False
,或者当config.return_dict=False
时),组成取决于配置(XLNetConfig)和输入的各种元素。
-
last_hidden_state (
torch.FloatTensor
形状为(batch_size, num_predict, hidden_size)
) — 模型最后一层的隐藏状态序列。num_predict
对应target_mapping.shape[1]
。如果target_mapping
是None
,则num_predict
对应sequence_length
。 -
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
XLNetModel 的前向方法覆盖了特殊方法 __call__
。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, XLNetModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetModel.from_pretrained("xlnet/xlnet-base-cased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
XLNetLMHeadModel
class transformers.XLNetLMHeadModel
< source >( config )
参数
- config (XLNetConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载模型关联的权重,只有配置。查看 from_pretrained() 方法来加载模型权重。
XLNet 模型顶部带有语言模型的头(权重与输入嵌入绑定的一层线性层)。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
源代码 input_ids: 可选 = None attention_mask: 可选 = None mems: 可选 = None perm_mask: 可选 = None target_mapping: 可选 = None token_type_ids: 可选 = None input_mask: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None use_mems: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None **kwargs → transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列中词汇的索引。可以通过使用 AutoTokenizer 获得索引。详见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 的详细信息。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 用于避免对填充token索引执行注意力操作的遮罩。遮罩值选自[0, 1]
:- 对于未遮罩的token,值为1;
- 对于已遮罩的token,值为0。
- mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态(见下面的mems
输出)。可用于加速顺序解码。应将已提供给该模型的token ID作为input_ids
传递,因为这些ID已经被计算过。为使用
mems
,必须设置use_mems
为True
。 - perm_mask (形状为
(batch_size, sequence_length, sequence_length)
的torch.FloatTensor
,可选)表示每个输入标记的注意力模式:值选择在[0, 1]
内:- 若
perm_mask[k, i, j] = 0
,则表示在批次 k 中,标记 i 关注标记 j; - 若
perm_mask[k, i, j] = 1
,则表示在批次 k 中,标记 i 不关注标记 j。
- 若
- target_mapping (形状为
(batch_size, num_predict, sequence_length)
的torch.FloatTensor
,可选)表示要使用的输出标记:若target_mapping[k, i, j] = 1
,则表示在批次 k 中,第 i 个预测对应于第 j 个标记。仅在预训练期间用于部分预测或用于序列解码(生成)。 - token_type_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
,可选)表示段落标记索引以指示输入的第一和第二部分。索引选择在[0, 1]
内:- 0 表示 句子 A 标记;
- 1 表示 句子 B 标记。
- input_mask (
torch.FloatTensor
形状为batch_size, sequence_length
,可选)—— 避免在padding token的索引上执行attention的掩码。与attention_mask
相反,即对于实际的token使用0,对于padding使用1,以便与原有代码库兼容。选中的mask值在
[0, 1]
范围内:- 1 表示被 掩码 的token;
- 0 表示没有被 掩码 的token。
您只能使用其中之一:
input_mask
或attention_mask
。 - (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) —— 用于取消self-attention模块中选定heads的掩码。选中的mask值在[0, 1]
范围内:- 1 表示head没有被 掩码;
- 0 表示head被 掩码。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) —— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。这在您想获得比模型的内部嵌入查找矩阵更多的对将input_ids
索引转换为相关向量的控制时很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。见返回张量下的attentions
获取更多详情。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。见返回张量下的hidden_states
获取更多详情。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是普通元组。 - labels (
torch.LongTensor
的形状为(batch_size, num_predict)
,可选)—— 遮蔽语言模型的标签。num_predict
对应target_mapping.shape[1]
。如果target_mapping
为None
,则num_predict
对应sequence_length
。标签应与应预测的遮蔽输入词汇对应,并取决于
target_mapping
。请注意,为了执行标准的自回归语言模型,必须在input_ids
中添加一个标记(参见下方的 prepare_inputs_for_generation
函数和示例)索引选择在
[-100, 0, ..., config.vocab_size]
之间。所有设置为-100
的标签将被忽略,损失仅对[0, ..., config.vocab_size]
之间的标签进行计算
返回
transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput 或 tuple(torch.FloatTensor)
A transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
),根据配置(XLNetConfig)和输入包含各种元素。
-
loss (
torch.FloatTensor
形状为 (1,),可选,当提供labels
时返回)语言模型损失(用于下一个标记的预测)。 -
logits (
torch.FloatTensor
形状为(batch_size, num_predict, config.vocab_size)
)—— 语言模型头部预测得分(SoftMax 之前每个词汇表的得分)。num_predict
对应target_mapping.shape[1]
。如果target_mapping
是None
,则num_predict
对应sequence_length
。 -
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
XLNetLMHeadModel 的向前方法覆盖了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, XLNetLMHeadModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-large-cased")
>>> model = XLNetLMHeadModel.from_pretrained("xlnet/xlnet-large-cased")
>>> # We show how to setup inputs to predict a next token using a bi-directional context.
>>> input_ids = torch.tensor(
... tokenizer.encode("Hello, my dog is very <mask>", add_special_tokens=False)
... ).unsqueeze(
... 0
... ) # We will predict the masked token
>>> perm_mask = torch.zeros((1, input_ids.shape[1], input_ids.shape[1]), dtype=torch.float)
>>> perm_mask[:, :, -1] = 1.0 # Previous tokens don't see last token
>>> target_mapping = torch.zeros(
... (1, 1, input_ids.shape[1]), dtype=torch.float
... ) # Shape [1, 1, seq_length] => let's predict one token
>>> target_mapping[
... 0, 0, -1
... ] = 1.0 # Our first (and only) prediction will be the last token of the sequence (the masked token)
>>> outputs = model(input_ids, perm_mask=perm_mask, target_mapping=target_mapping)
>>> next_token_logits = outputs[
... 0
... ] # Output has shape [target_mapping.size(0), target_mapping.size(1), config.vocab_size]
>>> # The same way can the XLNetLMHeadModel be used to be trained by standard auto-regressive language modeling.
>>> input_ids = torch.tensor(
... tokenizer.encode("Hello, my dog is very <mask>", add_special_tokens=False)
... ).unsqueeze(
... 0
... ) # We will predict the masked token
>>> labels = torch.tensor(tokenizer.encode("cute", add_special_tokens=False)).unsqueeze(0)
>>> assert labels.shape[0] == 1, "only one word will be predicted"
>>> perm_mask = torch.zeros((1, input_ids.shape[1], input_ids.shape[1]), dtype=torch.float)
>>> perm_mask[
... :, :, -1
... ] = 1.0 # Previous tokens don't see last token as is done in standard auto-regressive lm training
>>> target_mapping = torch.zeros(
... (1, 1, input_ids.shape[1]), dtype=torch.float
... ) # Shape [1, 1, seq_length] => let's predict one token
>>> target_mapping[
... 0, 0, -1
... ] = 1.0 # Our first (and only) prediction will be the last token of the sequence (the masked token)
>>> outputs = model(input_ids, perm_mask=perm_mask, target_mapping=target_mapping, labels=labels)
>>> loss = outputs.loss
>>> next_token_logits = (
... outputs.logits
... ) # Logits have shape [target_mapping.size(0), target_mapping.size(1), config.vocab_size]
XLNetForSequenceClassification
类 transformers.XLNetForSequenceClassification
< source >( config )
参数
- 配置 (XLNetConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化时不加载与模型关联的权重,只有配置。请查看 from_pretrained() 方法来加载模型权重。
带有序列分类/回归头部(顶部的一个线性层)的XLNet模型(例如,用于GLUE任务)。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
< source >( input_ids: 可选 = None attention_mask: 可选 = None mems: 可选 = None perm_mask: 可选 = None target_mapping: 可选 = None token_type_ids: 可选 = None input_mask: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None use_mems: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None **kwargs ) → transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput or tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — 词汇中的输入序列标记的索引。索引可以通过AutoTokenizer获取。有关详细信息,请参阅PreTrainedTokenizer.encode()和PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, 可选) — 防止在填充词索引上执行注意力的掩码。掩码值在[0, 1]
中选择:- 1 对于未掩码的标记;
- 0 对于掩码的标记。
- mems (
List[torch.FloatTensor]
of lengthconfig.n_layers
) — 包含预计算隐藏状态(见下面的mems
输出)。可用于加速序列解码。已经将过去给此模型的标记 ID 作为输入的input_ids
传递时,不应将它们作为input_ids
传递,因为它们已经计算过。use_mems
必须设置为True
才可使用mems
。 - perm_mask (
torch.FloatTensor
of shape(batch_size, sequence_length, sequence_length)
, 可选) — 用于表示每个输入标记的注意力模式的掩码,掩码值选项为[0, 1]
:- 如果
perm_mask[k, i, j] = 0
,则在批次 k 中 i 注意到 j; - 如果
perm_mask[k, i, j] = 1
,则在批次 k 中 i 不注意 j。
如果没有设置,则每个标记都会注意到所有其他标记(全双向注意力)。仅在预训练期间(定义分解顺序)或用于序列解码(生成)时使用。
- 如果
- target_mapping (
torch.FloatTensor
的形状为(batch_size, num_predict, sequence_length)
,可选) — 指示要使用的输出标记的掩码。如果target_mapping[k, i, j] = 1
,则批量的第 k 个预测在第 j 个标记上。仅在预处理期间用于部分预测或顺序解码(生成)。 - token_type_ids (
torch.LongTensor
的形状为(batch_size, sequence_length)
,可选) — 指示输入的第一部分和第二部分的段标记索引。索引在[0, 1]
中选择:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- input_mask (
torch.FloatTensor
的形状为batch_size, sequence_length
,可选) — 用于避免在填充标记索引上执行注意力的掩码。与attention_mask
的负值,即对真实标记为 0,对填充为 1,以保持与原始代码库的兼容性。掩码值在
[0, 1]
中选择:- 对于 被遮罩 的标记为 1,
- 对于没有 遮罩 的标记为 0。
您只能使用
input_mask
和attention_mask
中的一个。 - head_mask (
torch.FloatTensor
of shape(num_heads,)
or(num_layers, num_heads)
, optional) — 用于取消选择自注意力模块的自选头部的掩码。掩码值在[0, 1]
之间选择:- 1 表示头部 未被掩码,
- 0 表示头部被 掩码。
- inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 如不传递input_ids
,可以选择直接传递嵌入表示。这在你需要比模型的内部嵌入查找矩阵有更多控制权时很有用,如何将input_ids
的索引转换为相关向量。 - output_attentions (
bool
, optional) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关返回张量下 hidden_states 的更多详情,请参阅。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。 - labels (
torch.LongTensor
形状为(batch_size,)
, 可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
则计算回归损失(均方损失),如果config.num_labels > 1
则计算分类损失(交叉熵损失)。
返回
transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput 或 tuple(torch.FloatTensor)
A transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput 或一个由 torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置(XLNetConfig)和输入的不同元素。
-
loss (
torch.FloatTensor
of shape(1,)
,可选,在提供label
时返回) — 分类(或当 config.num_labels==1 时为回归)的损失。 -
logits (
torch.FloatTensor
of shape(batch_size, config.num_labels)
) — 分类(或当 config.num_labels==1 时为回归)的得分(SoftMax 之前)。 -
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
LXNetForSequenceClassification 的 forward 方法重写了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
单标签分类示例
>>> import torch
>>> from transformers import AutoTokenizer, XLNetForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetForSequenceClassification.from_pretrained("xlnet/xlnet-base-cased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_class_id = logits.argmax().item()
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = XLNetForSequenceClassification.from_pretrained("xlnet/xlnet-base-cased", num_labels=num_labels)
>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
多标签分类示例
>>> import torch
>>> from transformers import AutoTokenizer, XLNetForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetForSequenceClassification.from_pretrained("xlnet/xlnet-base-cased", problem_type="multi_label_classification")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = XLNetForSequenceClassification.from_pretrained(
... "xlnet/xlnet-base-cased", num_labels=num_labels, problem_type="multi_label_classification"
... )
>>> labels = torch.sum(
... torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss
XLNetForMultipleChoice
class transformers.XLNetForMultipleChoice
< source >( config )
参数
- config (XLNetConfig) — 包含模型所有参数的模型配置类。用配置文件初始化并不加载模型相关的权重,只加载配置。请查阅 from_pretrained() 方法来加载模型的权重。
在 XLNet 模型顶部添加了多选择分类头(在池化输出之上添加一个线性层和 softmax),例如用于 RACE/SWAG 任务。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
< 来源 >( input_ids: 可选 = None token_type_ids: 可选 = None input_mask: 可选 = None attention_mask: 可选 = None mems: 可选 = None perm_mask: 可选 = None target_mapping: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None use_mems: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None **kwargs ) → transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, num_choices, sequence_length)
) — 输入序列词汇表中的标记索引。可以通过使用 AutoTokenizer 来获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形状为(batch_size, num_choices, sequence_length)
, 可选) — 避免在填充标记索引上执行注意力的掩码。掩码值选自[0, 1]
:- 1 表示 未掩码 的标记,
- 0 表示 掩码 的标记。
- mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态(见下面的mems
输出)。可用于加速序列解码。作为已在此模型中给定过去的标记不应作为input_ids
传递,因为它们已经被计算过。use_mems
需要设置为True
以使用mems
。 - perm_mask (
torch.FloatTensor
的形状为(batch_size, sequence_length, sequence_length)
,可选) — 表示每个输入标记的注意力模式(在[0, 1]
之间选择值)的掩码: - target_mapping (
torch.FloatTensor
的形状为(batch_size, num_predict, sequence_length)
,可选) — 表示要使用输出标记的掩码。如果target_mapping[k, i, j] = 1
,则批次 k 中的第 i 个预测在 j 个标记上。仅在预训练期间用于部分预测或用于序列解码(生成)。 - token_type_ids (
torch.LongTensor
的形状为(batch_size, num_choices, sequence_length)
,可选) — 段标记索引,用于指明输入的第一部分和第二部分。索引选自[0, 1]
: - input_mask (
torch.FloatTensor
形状为batch_size, num_choices, sequence_length
,可选) — 避免在填充标记索引上执行注意力的掩码。即为attention_mask
的相反数,即对真实标记为 0,对填充标记为 1,以保持与原有代码库的兼容性。掩码值在
[0, 1]
范围内选择:- 1 表示 被掩码 的标记;',
- 0 表示 未被掩码 的标记。
您只能使用
input_mask
和attention_mask
中的一个。 - head_mask (
torch.FloatTensor
形状为(num_heads,) 或 (num_layers, num_heads)
,可选) — 用于注销 self-attention 模块的选定头的掩码。掩码值在[0, 1]
范围内选择:- 1 表示该头 未被掩码;
- 0 表示该头 被掩码.
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, num_choices, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想要更有效地控制如何将input_ids
索引转换为相关向量,而不依赖于模型内部的嵌入查找矩阵,则这很有用。 - output_attentions (
bool
, optional) — 是否返回所有注意力层的注意力张量。请参阅返回的张量中的attentions
以获取详细信息。 - output_hidden_states (
bool
, optional) — 是否返回所有层的隐藏状态。请参阅返回的张量中的hidden_states
以获取详细信息。 - return_dict (
bool
, optional) — 是否返回 ModelOutput而不是一个普通的元组。 - labels (
torch.LongTensor
of shape(batch_size,)
, optional) — 用于计算多选题分类损失的标签。索引应该在[0, ..., num_choices-1]
范围内,其中num_choices
是输入张量第二维的大小。(见上方的input_ids
)
返回
transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput 或 tuple(torch.FloatTensor)
A transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput 或一个由 torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
),包含根据配置(XLNetConfig)和输入的不同元素。
-
loss (
torch.FloatTensor
的形状是 (1,),可选,当提供labels
时返回) —— 分类损失。 -
logits (
torch.FloatTensor
的形状是(batch_size, num_choices)
) —— num_choices 是输入张量的第二个维度。 (见上方的 input_ids)。分类得分(在 SoftMax 之前)。
-
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
XLNetForMultipleChoice 的前进方法覆盖了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, XLNetForMultipleChoice
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetForMultipleChoice.from_pretrained("xlnet/xlnet-base-cased")
>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> labels = torch.tensor(0).unsqueeze(0) # choice0 is correct (according to Wikipedia ;)), batch size 1
>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="pt", padding=True)
>>> outputs = model(**{k: v.unsqueeze(0) for k, v in encoding.items()}, labels=labels) # batch size is 1
>>> # the linear classifier still needs to be trained
>>> loss = outputs.loss
>>> logits = outputs.logits
XLNetForTokenClassification
类 transformers.XLNetForTokenClassification
< 来源 >( config )
参数
- config (XLNetConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不加载与模型相关的权重,只加载配置。查看from_pretrained() 方法以加载模型权重。
在顶部带有标记分类头(隐藏状态输出之上的线性层)的XLNet模型,例如用于命名实体识别(NER)的任务。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
< source >( input_ids: 可选 = None attention_mask: 可选 = None mems: 可选 = None perm_mask: 可选 = None target_mapping: 可选 = None token_type_ids: 可选 = None input_mask: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None use_mems: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None **kwargs ) → transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput or tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
的形状为(batch_size, sequence_length)
) — 输入序列标记的词汇表索引。索引可以通过使用 AutoTokenizer 获取。详细信息请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
,可选) — 用于避免在填充词索引上执行注意力的掩码。选中的掩码值在[0, 1]
: - mems (长度为
config.n_layers
的List[torch.FloatTensor]
) — 包含预先计算隐藏状态(见下面mems
输出)。可用于加速序列解码。已将过去提供给此模型的患者 ID 应该不作为input_ids
传入,因为它们已经被计算过。 - perm_mask (形状为
(batch_size, sequence_length, sequence_length)
的torch.FloatTensor
,可选) — 用于指示每个输入 token 注意力模式的掩码,选中的值在[0, 1]
: - target_mapping (
torch.FloatTensor
形状为(batch_size, num_predict, sequence_length)
,可选) — 用于指示要使用输出标记的掩码。如果target_mapping[k, i, j] = 1
,则批量 k 中的第 i 个预测位于第 j 个标记。仅在预训练期间用于部分预测或用于顺序解码(生成)。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 用于指示输入的第一个和第二个部分的段标记索引。选择索引为[0, 1]
:- 0 对应于 句 A 标记,
- 1 对应于 句 B 标记。
- input_mask (
torch.FloatTensor
形状为batch_size, sequence_length
,可选) — 用于避免对填充标记索引执行注意力的掩码。与attention_mask
相反,即对于真实标记为 0,对于填充为 1 以保持与原始代码库的兼容性。掩码值选择在
[0, 1]
:- 1 表示 已掩码 的标记,
- 0 表示 未掩码 的标记。
您只能使用其中一个
input_mask
或attention_mask
。 - head_mask (形状为
torch.FloatTensor
的(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消自我注意力模块选定的头部的掩码。掩码值在[0, 1]
之间选取:- 1 表示头部 未掩码;
- 0 表示头部 已掩码。
- inputs_embeds (形状为
torch.FloatTensor
的(batch_size, sequence_length, hidden_size)
,可选) — 可选地,你可以直接传递嵌入表示而不是 `input_ids`。当你希望比模型的内部嵌入查找矩阵有更多控制权来转换 `input_ids` 索引到相关向量时,这很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量中的attentions
。 - output_hidden_states (
bool
, 可选) —— 是否返回所有层的隐藏状态。关于返回张量的更多详细信息,请参阅“返回的张量”下的hidden_states
。 - return_dict (
bool
, 可选) —— 是否返回ModelOutput而不是普通元组。 - labels (
torch.LongTensor
维度为(batch_size,)
, 可选) —— 用于计算多选分类损失的标签。索引应在[0, ..., num_choices]
范围内,其中 num_choices 是输入张量第二维的大小。 (参见上述 input_ids)
返回
transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput 或 tuple(torch.FloatTensor)
A transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput 或包含 torch.FloatTensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
)
-
loss (
torch.FloatTensor
维度为(1,)
, 可选,当提供labels
时返回) —— 分类损失。 -
logits (
torch.FloatTensor
维度为(batch_size, sequence_length, config.num_labels)
) —— 分类得分(SoftMax之前)。 -
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
XLNetForTokenClassification 的前向方法,覆盖了特殊方法 __call__
。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, XLNetForTokenClassification
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetForTokenClassification.from_pretrained("xlnet/xlnet-base-cased")
>>> inputs = tokenizer(
... "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_token_class_ids = logits.argmax(-1)
>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
XLNetForQuestionAnsweringSimple
类 transformers.XLNetForQuestionAnsweringSimple
< 源代码 >( config )
参数
- 配置 (XLNetConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化时不加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
带有输出端分类头的XLNet模型,用于抽取式问答任务,如SQuAD(在隐藏状态输出之上线性层,计算span start logits
和span end logits
)。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
< 来源 >( input_ids: 可选 = None attention_mask: 可选 = None mems: 可选 = None perm_mask: 可选 = None target_mapping: 可选 = None token_type_ids: 可选 = None input_mask: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None start_positions: 可选 = None end_positions: 可选 = None use_mems: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
) —词汇表中输入序列标记的索引。可以用 AutoTokenizer 获取索引。详细信息请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
,可选) —用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]
之间:- 1 表示 未掩码 的标记,
- 0 表示 掩码 的标记。
- mems (长度为
config.n_layers
的List[torch.FloatTensor]
) —包含预计算的隐藏状态(见下面的mems
输出)。可用于加速顺序解码。应将已提供过去的标记 ID 传递给此模型的令牌作为input_ids
,因为它们已经计算过了。要使用
mems
,必须将use_mems
设置为True
。 - perm_mask (
torch.FloatTensor
of shape(batch_size, sequence_length, sequence_length)
, optional) — 用于指示每个输入标记的注意模式(值选自[0, 1]
)的掩码:- 若
perm_mask[k, i, j] = 0
,则标记 i 在第 k 批中关注于 j; - 若
perm_mask[k, i, j] = 1
,则标记 i 在第 k 批中不会关注于 j。
如果未设置,则每个标记将与所有其他标记进行注意(全双向注意)。仅在预训练过程中(定义解耦顺序)或用于序列解码(生成)时使用。
- 若
- target_mapping (
torch.FloatTensor
of shape(batch_size, num_predict, sequence_length)
, optional) — 用于指示要使用的输出标记的掩码。若target_mapping[k, i, j] = 1
,则第 k 批中的 i 个预测标记位于第 j 个标记。仅在预训练过程中用于部分预测或用于序列解码(生成)时使用。 - token_type_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
, optional) — 用于指示输入的前后部分的段标记索引:- 0 代表 句子 A 标记,
- 1 代表 句子 B 标记。
- input_mask (
torch.FloatTensor
形状batch_size, sequence_length
, 可选) — 用于避免在填充标记索引上执行注意力的掩码。与attention_mask
的相反,即对于真实标记为 0,用于与原始代码库兼容的填充为 1。在
[0, 1]
中选择的掩码值:- 1 表示 受掩码 的标记,
- 0 表示 未受掩码 的标记。
您只能使用
input_mask
和attention_mask
之一。 - head_mask (
torch.FloatTensor
形状(num_heads,) 或 (num_layers, num_heads)
, 可选) — 用于取消自注意力模块中选定头的掩码。在[0, 1]
中选择的掩码值:- 1 表示头 未掩码,
- 0 表示头 掩码。
- inputs_embeds (
torch.FloatTensor
形状(batch_size, sequence_length, hidden_size)
, 可选) — 也可以不传递input_ids
,而是直接传递嵌入表示。如果您想在将input_ids
索引转换为相关向量时比模型内部的嵌入查找矩阵有更多控制,则这很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多详情请查看返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多详情请查看返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回ModelOutput 而不是普通元组。 - start_positions(《torch.LongTensor》形状为(《batch_size》,可选)) — 标记的跨度起始位置(索引)的标签,用于计算token分类loss。位置被限制在序列长度(代码:sequence_length)内。序列外的位置在计算loss时不考虑。
- end_positions(《torch.LongTensor》形状为(《batch_size》,可选)) — 标记的跨度结束位置(索引)的标签,用于计算token分类loss。位置被限制在序列长度(代码:sequence_length)内。序列外的位置在计算loss时不考虑。
返回
transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput 或一个由 torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置(XLNetConfig)和输入的不同元素。
-
loss(《torch.FloatTensor》形状为(《1》,可选),当提供<code>labels时返回) — 总跨度提取loss是起始和结束位置的交叉熵的总和。
-
start_logits(《torch.FloatTensor》形状为(《batch_size”,sequence_length”))) — 跨度起始分数(在SoftMax之前)。
-
end_logits(《torch.FloatTensor》形状为(《batch_size”,sequence_length”))) — 跨度结束分数(在SoftMax之前)。
-
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
XLNetForQuestionAnsweringSimple 前进方法,覆盖了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, XLNetForQuestionAnsweringSimple
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetForQuestionAnsweringSimple.from_pretrained("xlnet/xlnet-base-cased")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
XLNetForQuestionAnswering
类 transformers.XLNetForQuestionAnswering
< 源代码 >( config )
参数
- config (XLNetConfig) — 包含所有模型参数的模型配置类。使用配置文件初始化不会加载模型相关的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。
带有输出端分类头的XLNet模型,用于抽取式问答任务,如SQuAD(在隐藏状态输出之上线性层,计算span start logits
和span end logits
)。
此模型继承自PreTrainedModel。请查阅父类文档以了解库实现的所有通用方法(如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是PyTorch torch.nn.Module子类。将其用作常规PyTorch模块,并查阅PyTorch文档以了解所有与通用使用和行为相关的问题。
forward
< 源代码 >( input_ids: 可选 = None attention_mask: 可选 = None mems: 可选 = None perm_mask: 可选 = None target_mapping: 可选 = None token_type_ids: 可选 = None input_mask: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None start_positions: 可选 = None end_positions: 可选 = None is_impossible: 可选 = None cls_index: 可选 = None p_mask: 可选 = None use_mems: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None **kwargs ) → transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
) — 表示输入序列词汇表索引的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
,可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]
:- 1 代表未被掩码的标记;
- 0 代表被掩码的标记。
- mems (长度为
config.n_layers
的List[torch.FloatTensor]
) — 包含预计算的隐藏状态(请参阅下文的mems
输出)。可用于加速序列解码。应将已向该模型提供过去信息的标记 ID 作为input_ids
传递,因为它们已经被计算过。必须将
use_mems
设置为True
才能使用mems
。 - perm_mask (形状为
torch.FloatTensor
,形状为(batch_size, sequence_length, sequence_length)
的 可选) — 表明每个输入 token 的注意力模式的掩码,值选自[0, 1]
:- 如果
perm_mask[k, i, j] = 0
,则在批 k 中 i 关注 j; - 如果
perm_mask[k, i, j] = 1
,则在批 k 中 i 不关注 j。
如果不设置,则每个 token 关注所有其他 token(全双向注意力)。仅在预训练期间使用(定义分解顺序)或用于顺序解码(生成)。
- 如果
- target_mapping (形状为
torch.FloatTensor
,形状为(batch_size, num_predict, sequence_length)
的 可选) — 表明要使用的输出 tokens 的掩码。如果target_mapping[k, i, j] = 1
,则在批 k 中 i 的预测在 j 位置的 token 上。仅在预训练期间用于部分预测或用于顺序解码(生成)。 - token_type_ids (形状为
torch.LongTensor
,形状为(batch_size, sequence_length)
的 可选) — 段落 token 索引,用于指示输入的第一和第二部分。索引选自[0, 1]
:- 0 对应于 A 句 token;
- 1 对应于 B 句 token。
- input_mask (
torch.FloatTensor
形状为batch_size, sequence_length
,可选) — 用于避免在填充词索引上执行注意力操作的掩码。即attention_mask
的负值,例如用 0 表示真实词,1 表示填充(为了与原始代码库兼容)。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消 self-attention 模块中选中的头部的掩码。在[0, 1]
中选定的掩码值: - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示而非input_ids
。如果在如何将input_ids
索引转换为相关向量方面需要比模型内部的嵌入查找矩阵更多的控制,这很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关返回张量中的attentions
的更多细节,请参阅。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关返回张量中的hidden_states
的更多细节,请参阅。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。 - start_positions (一个形状为
(batch_size,)
的torch.LongTensor
,可选)— 标记标记跨度起始位置(索引)以计算token分类损失。位置限制为序列长度(sequence_length
)。序列之外的位置不计入损失计算。 - end_positions (一个形状为
(batch_size,)
的torch.LongTensor
,可选)— 标记标记跨度结束位置(索引)以计算token分类损失。位置限制为序列长度(sequence_length
)。序列之外的位置不计入损失计算。 - is_impossible (一个形状为
(batch_size,)
的torch.LongTensor
,可选)— 标记一个问题是否有答案或没有答案(SQuAD 2.0) - cls_index (
torch.LongTensor
形状(batch_size,)
,可选)—— 用于计算答案合理性分类 token 位置(索引)的标签。 - p_mask (
torch.FloatTensor
形状(batch_size, sequence_length)
,可选)—— 表示哪些 token 不能出现在答案中(例如 [CLS],[PAD],…)。1.0 表示 token 应该被掩码,0.0 表示 token 未掩码。
返回
transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
A transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置(XLNetConfig)和输入的不同元素。
-
loss (
torch.FloatTensor
形状(1,)
,可选,当提供start_positions
和end_positions
时返回)—— 分类损失,是起始 token、结束 token(如果提供则包括is_impossible
)分类损失的总和。 -
start_top_log_probs (
torch.FloatTensor
形状(batch_size, config.start_n_top)
,可选,如果没有提供start_positions
或end_positions
时返回)—— 前 config.start_n_top 个起始 token 的情况的 log 概率(beam search)。 -
start_top_index (
torch.LongTensor
形状(batch_size, config.start_n_top)
,可选,如果未提供start_positions
或end_positions
时返回)—— 前 config.start_n_top 个起始 token 的情况的索引(beam search)。 -
end_top_log_probs (
torch.FloatTensor
形状(batch_size, config.start_n_top * config.end_n_top)
,可选,如果未提供start_positions
或end_positions
时返回)—— 前config.start_n_top * config.end_n_top
个结束 token 的情况的 log 概率(beam search)。 -
end_top_index (形状为
(batch_size, config.start_n_top * config.end_n_top)
的torch.LongTensor
,可选,当没有提供start_positions
或end_positions
时返回) — 顶部config.start_n_top * config.end_n_top
结束标记的可能索引(束搜索)。 -
cls_logits (形状为
(batch_size,)
的torch.FloatTensor
,可选,当没有提供start_positions
或end_positions
时返回) — 答案中is_impossible
标签的对数概率。 -
mems (
List[torch.FloatTensor]
长度为config.n_layers
) — 包含预先计算的隐藏状态。可以(参见mems
输入)用于加速顺序解码。已向此模型提供过去标记ID的token不应作为input_ids
传递,因为它们已经被计算。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
时返回或在config.output_hidden_states=True
时返回) — 包含torch.FloatTensor
的元组(一个用于嵌入层的输出,一个用于每一层的输出)的形状(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
时返回或在传递config.output_attentions=True
时返回) — 包含torch.FloatTensor
的元组(每个层一个)的形状(batch_size, num_heads, sequence_length, sequence_length)
。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
XLNetForQuestionAnswering 的 forward 方法重写了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, XLNetForQuestionAnswering
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = XLNetForQuestionAnswering.from_pretrained("xlnet/xlnet-base-cased")
>>> input_ids = torch.tensor(tokenizer.encode("Hello, my dog is cute", add_special_tokens=True)).unsqueeze(
... 0
... ) # Batch size 1
>>> start_positions = torch.tensor([1])
>>> end_positions = torch.tensor([3])
>>> outputs = model(input_ids, start_positions=start_positions, end_positions=end_positions)
>>> loss = outputs.loss
TFXLNetModel
class transformers.TFXLNetModel
< source >( config *inputs **kwargs )
参数
- config (XLNetConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载模型相关的权重,只加载配置。检查from_pretrained() 方法来加载模型权重。
裸XLNet模型变压器输出原始隐藏状态,没有任何特定的头部。
此模型继承自TFPreTrainedModel。查看超级类文档了解库为所有模型实现的一般方法(例如下载或保存、调整输入嵌入的大小、剪枝头等)。
此模型也是keras.Model的子类。将其用作普通的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取所有相关使用和行为的说明。
TensorFlow 模型和层在 transformers
中接受两种输入格式
- 所有输入都是关键字参数(如 PyTorch 模型),或者
- 所有输入都作为第一个位置参数的列表、元组或字典。
支持第二种格式的理由是 Keras 方法在传递输入到模型和层时更喜欢这种格式。由于这种支持,当使用诸如 model.fit()
之类的工具时,应该“自然而然”地为你工作 - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可!但是,如果您想在与 fit()
和 predict()
等方法不同的 Keras 方法外部使用第二种格式,例如在创建自己的层或模型时,有三种可能的方法可以收集第一个位置参数中的所有输入张量
- 一个包含
input_ids
只和其他什么都不包含的单个张量:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个按照文档字符串中给出的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,你无需担心这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< source >( input_ids:TFModelInputType | None = None attention_mask:numpy.ndarray | tf.Tensor | None = None mems:numpy.ndarray | tf.Tensor | None = None perm_mask:numpy.ndarray | tf.Tensor | None = None target_mapping:numpy.ndarray | tf.Tensor | None = None token_type_ids:numpy.ndarray | tf.Tensor | None = None input_mask:numpy.ndarray | tf.Tensor | None = None head_mask:numpy.ndarray | tf.Tensor | None = None inputs_embeds:numpy.ndarray | tf.Tensor | None = None use_mems:Optional[bool] = None output_attentions:Optional[bool] = None output_hidden_states:Optional[bool] = None return_dict:Optional[bool] = None training:bool = False ) → transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput or tuple(tf.Tensor)
参数
- input_ids(形状为
(batch_size, sequence_length)
的torch.LongTensor
)— 词汇表中的输入序列令牌的索引。可以使用AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask(可选,形状为
(batch_size, sequence_length)
的torch.FloatTensor
)— 避免在填充令牌索引上执行注意力的掩码。掩码值选择在[0, 1]
:- 对于未掩码的令牌,1,
- 对于掩码的令牌,0。
- mems(长度为
config.n_layers
的List[torch.FloatTensor]
)— 包含预计算的隐藏状态(参见下面的mems
输出)。可用于加速序列解码。已经给出过去令牌的 GPU 没有需要作为input_ids
传递,因为它们已经被计算过。必须将
use_mems
设置为True
以使用mems
。 - perm_mask (
torch.FloatTensor
,形状(batch_size, sequence_length, sequence_length)
,可选) — 用来指示每个输入标记的注意力模式的掩码,使用值在[0, 1]
中选择的掩码:- 如果
perm_mask[k, i, j] = 0
,则i在批次k中关注j; - 如果
perm_mask[k, i, j] = 1
,则i不关注批次k中的j。
如果没有设置,则每个标记都关注其他所有标记(全双向注意力)。仅在预训练阶段(定义因式分解顺序)或序列解码(生成)时使用。
- 如果
- target_mapping (
torch.FloatTensor
,形状(batch_size, num_predict, sequence_length)
,可选) — 用来指示要使用的输出标记的掩码。如果target_mapping[k, i, j] = 1
,则批次k的第i个预测在j个标记上。仅在预训练阶段用于部分预测或序列解码(生成)时使用。 - token_type_ids (
torch.LongTensor
,形状(batch_size, sequence_length)
,可选) — 用作指示输入的第一个和第二部分的段标记索引。索引选择在[0, 1]
中:- 0对应于一个句子A标记,
- 1对应于一个句子B标记。
- input_mask (形状为
batch_size, sequence_length
的torch.FloatTensor
,可选) — 用于避免在填充标记索引上执行注意力操作的掩码。是attention_mask
的相反数,即用 0 表示真实标记,用 1 表示填充,以与原始代码库保持兼容。选定的掩码值在
[0, 1]
之间:- 1 表示被 掩码 的标记,
- 0 表示未 掩码 的标记。
您只能使用
input_mask
或attention_mask
中的一个。 - head_mask (形状为
(num_heads,)
或(num_layers, num_heads)
的torch.FloatTensor
,可选) — 用于取消选中自注意力模块选中头部的掩码。选定的掩码值在[0, 1]
之间:- 1 表示头部未被 掩码,
- 0 表示头部被 掩码。
- inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选) — 可选,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想比模型的内部嵌入查找矩阵有更多的控制权,将input_ids
索引转换为关联向量,则此方法很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更详细的细节请参见返回的张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更详细的细节请参见返回的张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回ModelOutput而不是普通元组。
返回
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput或tuple(tf.Tensor)
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput或一个包含tf.Tensor
的元组(如果传递了return_dict=False
或config.return_dict=False
),根据配置(《XLNetConfig》)和输入包含不同的元素。
-
last_hidden_state (
tf.Tensor
的形状为(batch_size, num_predict, hidden_size)
) — 模型最后一层隐藏状态的序列。num_predict
对应target_mapping.shape[1]
。如果target_mapping
是None
,则num_predict
对应sequence_length
。 -
mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快顺序解码。应将已提供给该模型的过去标记id作为input_ids
传递时,应避免作为input_ids
传递,因为它们已经计算过。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入层的输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(一个用于每个层)。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
TFXLNetModel 前向方法重写了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFXLNetModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = TFXLNetModel.from_pretrained("xlnet/xlnet-base-cased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> last_hidden_states = outputs.last_hidden_state
TFXLNetModel
class transformers.TFXLNetLMHeadModel
< source >( config *inputs **kwargs )
参数
- config (XLNetConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。请查看 from_pretrained() 方法来加载模型权重。
XLNet 模型顶部带有语言模型的头(权重与输入嵌入绑定的一层线性层)。
此模型继承自TFPreTrainedModel。查看超级类文档了解库为所有模型实现的一般方法(例如下载或保存、调整输入嵌入的大小、剪枝头等)。
此模型也是keras.Model的子类。将其用作普通的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取所有相关使用和行为的说明。
TensorFlow 模型和层在 transformers
中接受两种输入格式
- 所有输入都是关键字参数(如 PyTorch 模型),或者
- 所有输入都作为第一个位置参数的列表、元组或字典。
支持第二种格式的理由是 Keras 方法在传递输入到模型和层时更喜欢这种格式。由于这种支持,当使用诸如 model.fit()
之类的工具时,应该“自然而然”地为你工作 - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可!但是,如果您想在与 fit()
和 predict()
等方法不同的 Keras 方法外部使用第二种格式,例如在创建自己的层或模型时,有三种可能的方法可以收集第一个位置参数中的所有输入张量
- 一个包含
input_ids
只和其他什么都不包含的单个张量:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个按照文档字符串中给出的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,你无需担心这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 来源 >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None mems: np.ndarray | tf.Tensor | None = None perm_mask: np.ndarray | tf.Tensor | None = None target_mapping: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None input_mask: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_mems: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput 或 tuple(tf.Tensor)
参数
- input_ids(形状为
torch.LongTensor (batch_size, sequence_length)
的 PyTorch 长整数张量)— 表示词汇表中输入序列标记的索引。可以通过AutoTokenizer 获取索引。详情请见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask(形状为
torch.FloatTensor (batch_size, sequence_length)
的可选 PyTorch 浮点张量)— 避免在填充标记索引上执行注意力机制的掩码。掩码值选择于[0, 1]
:- 对于 未掩码 的标记,值为 1,
- 对于 掩码 的标记,值为 0。
- mems(长度为
config.n_layers
的 PyTorch 浮点张量列表)— 包含预先计算的隐藏状态(参见下方的mems
输出)。可用于加速顺序解码。将过去给到此模型的标记 ID 应该不要作为input_ids
传递,因为它们已经被计算了。use_mems
必须设置为True
以使用mems
。 - perm_mask (
torch.FloatTensor
形状为(batch_size, sequence_length, sequence_length)
,可选)— 用于指示每个输入标记的注意力模式,值为[0, 1]
选定:- 若
perm_mask[k, i, j] = 0
,则在批次 k 中 i 将关注 j; - 若
perm_mask[k, i, j] = 1
,则在批次 k 中 i 不关注 j。
如果没有设置,则每个标记都会关注其他所有标记(全双向注意力)。仅在预训练(定义分解顺序)或序列解码(生成)时使用。
- 若
- target_mapping (
torch.FloatTensor
形状为(batch_size, num_predict, sequence_length)
,可选) — 用于指示要使用输出标记的掩码。若target_mapping[k, i, j] = 1
,则在批次 k 中的第 i 个预测对应于第 j 个标记。仅在预训练(部分预测)或序列解码(生成)时使用。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 语义标记索引以指示输入的第一和第二部分。索引选自[0, 1]
:- 0 对应于 句子 A 标记;
- 1 对应于 句子 B 标记。
- input_mask (
torch.FloatTensor
形状为batch_size, sequence_length
,可选) — 避免对填充标记索引执行注意力的掩码。是attention_mask
的负值,即对于真实标记为 0,对于填充标记为 1(为与原始代码库兼容而保留)。在
[0, 1]
范围内选择掩码值:- 1 代表 被掩码 的标记;
- 0 代表 未被掩码 的标记。
您只能使用
input_mask
和attention_mask
中的一个。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 将掩码的选定头来失效的自注意力模块。在[0, 1]
范围内选择的掩码值:- 1 表示该头 未被掩码;
- 0 表示该头 被掩码。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 有选择地直接传递嵌入表示,而不是传递input_ids
。如果您想要比模型的内部嵌入查找矩阵有更多的控制,将input_ids
索引转换为相关向量,这将很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是普通元组。 - labels (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — 用于计算交叉熵分类损失的标签。索引应该在[0, ..., config.vocab_size - 1]
范围内。
返回
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput 或 tuple(tf.Tensor)
A transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput 或 tf.Tensor
的元组(如果传递了 return_dict=False
或者当 config.return_dict=False
),包含各种元素,这取决于配置(XLNetConfig)和输入。
-
loss (
tf.Tensor
of shape (1,), optional, returned whenlabels
is provided) 语言模型损失(用于下一词预测。) -
logits (
tf.Tensor
of shape(batch_size, num_predict, config.vocab_size)
) — 语言模型头的预测得分(在SoftMax之前的每个词汇的得分。)num_predict
对应target_mapping.shape[1]
。如果target_mapping
是None
,则num_predict
对应sequence_length
。 -
mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快顺序解码。应将已提供给该模型的过去标记id作为input_ids
传递时,应避免作为input_ids
传递,因为它们已经计算过。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入层的输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(一个用于每个层)。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
TFXLNetLMHeadModel 前向方法,重写了特殊方法 __call__
。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> import tensorflow as tf
>>> import numpy as np
>>> from transformers import AutoTokenizer, TFXLNetLMHeadModel
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-large-cased")
>>> model = TFXLNetLMHeadModel.from_pretrained("xlnet/xlnet-large-cased")
>>> # We show how to setup inputs to predict a next token using a bi-directional context.
>>> input_ids = tf.constant(tokenizer.encode("Hello, my dog is very <mask>", add_special_tokens=True))[
... None, :
... ] # We will predict the masked token
>>> perm_mask = np.zeros((1, input_ids.shape[1], input_ids.shape[1]))
>>> perm_mask[:, :, -1] = 1.0 # Previous tokens don't see last token
>>> target_mapping = np.zeros(
... (1, 1, input_ids.shape[1])
... ) # Shape [1, 1, seq_length] => let's predict one token
>>> target_mapping[
... 0, 0, -1
... ] = 1.0 # Our first (and only) prediction will be the last token of the sequence (the masked token)
>>> outputs = model(
... input_ids,
... perm_mask=tf.constant(perm_mask, dtype=tf.float32),
... target_mapping=tf.constant(target_mapping, dtype=tf.float32),
... )
>>> next_token_logits = outputs[
... 0
... ] # Output has shape [target_mapping.size(0), target_mapping.size(1), config.vocab_size]
TFXLNetForSequenceClassification
class transformers.TFXLNetForSequenceClassification
< source >( config *inputs **kwargs )
参数
- config (XLNetConfig) —— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained() 方法来加载模型权重。
带有序列分类/回归头部(顶部的一个线性层)的XLNet模型(例如,用于GLUE任务)。
此模型继承自TFPreTrainedModel。查看超级类文档了解库为所有模型实现的一般方法(例如下载或保存、调整输入嵌入的大小、剪枝头等)。
此模型也是keras.Model的子类。将其用作普通的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取所有相关使用和行为的说明。
TensorFlow 模型和层在 transformers
中接受两种输入格式
- 所有输入都是关键字参数(如 PyTorch 模型),或者
- 所有输入都作为第一个位置参数的列表、元组或字典。
支持第二种格式的理由是 Keras 方法在传递输入到模型和层时更喜欢这种格式。由于这种支持,当使用诸如 model.fit()
之类的工具时,应该“自然而然”地为你工作 - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可!但是,如果您想在与 fit()
和 predict()
等方法不同的 Keras 方法外部使用第二种格式,例如在创建自己的层或模型时,有三种可能的方法可以收集第一个位置参数中的所有输入张量
- 一个包含
input_ids
只和其他什么都不包含的单个张量:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个按照文档字符串中给出的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,你无需担心这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 源代码 >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None mems: np.ndarray | tf.Tensor | None = None perm_mask: np.ndarray | tf.Tensor | None = None target_mapping: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None input_mask: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_mems: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput or tuple(tf.Tensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — 输入序列标记的索引,位于词汇表中。可以通过使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, 可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]
中选择:- 1 代表 未掩盖 的标记;
- 0 代表 掩盖 的标记。
- mems (
List[torch.FloatTensor]
of lengthconfig.n_layers
) — 包含预计算的自回归隐藏状态(详见下文的mems
输出)。可用于加速序列解码。应当将已经提供过去信息的标记 ID 作为input_ids
传递给该模型,因为它们已经被计算过。use_mems
必须设置为True
才能使用mems
。 - perm_mask (
torch.FloatTensor
of shape(batch_size, sequence_length, sequence_length)
, 可选) — 指示每个输入标记的注意力模式的掩码,掩码值在[0, 1]
中选择:- 如果
perm_mask[k, i, j] = 0
,则 i 在批 k 中关注于 j; - 如果
perm_mask[k, i, j] = 1
,则 i 在批 k 中不关注于 j。
如果不设置,则每个标记会关注于所有其他标记(完全双向注意力)。仅在预训练期间(定义分解顺序)或序列解码(生成)时使用。
- 如果
- target_mapping (形状为 “(batch_size,num_predict,sequence_length)” 的
torch.FloatTensor
,可选) — 用于表示要使用输出标记的掩码。如果target_mapping[k,i,j] = 1
,则 batch k 中的第 i 个预测是在第 j 个标记上。仅在预训练期间用于部分预测或序列解码(生成)。 - token_type_ids (形状为 “(batch_size,sequence_length)” 的
torch.LongTensor
,可选) — 段符索引以指明输入的第一部分和第二部分。索引取自[0, 1]
:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- input_mask (形状为 “batch_size,sequence_length” 的
torch.FloatTensor
,可选) — 用于避免在填充标记索引上执行注意力的掩码。为attention_mask
的负值,即对于真实标记为 0,对于保留以与原始代码库兼容的填充为 1。- 1 表示 掩盖 的标记,
- 0 表示 未掩盖 的标记。
input_mask
和attention_mask
。 - head_mask (
torch.FloatTensor
的形状(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消选中自注意力模块中一些头的掩码。掩码值选择在[0, 1]
:- 1 表示头没有被 掩码,
- 0 表示头被 掩码。
- inputs_embeds (
torch.FloatTensor
的形状(batch_size, sequence_length, hidden_size)
,可选) — 可以选择直接传递嵌入表示,而不是传递input_ids
。当您想更控制如何将input_ids
索引转换为相关向量,而不是模型内部的嵌入查找矩阵时,这非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更详细的信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。关于返回的张量中的hidden_states
的更多详细信息,请参阅。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。 - labels (
tf.Tensor
的形状为(batch_size,)
, 可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
之间。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。
返回
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput 或 tuple(tf.Tensor)
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput 或 tf.Tensor
的元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包括各种元素,具体取决于配置(XLNetConfig)和输入。
-
loss (
tf.Tensor
的形状为(1,)
, 可选,当提供label
时返回) — 分类(或当config.num_labels==1
时的回归)损失。 -
logits (
tf.Tensor
of shape(batch_size, config.num_labels)
) —— 分类(或如果 config.num_labels==1 则为回归)得分(在 SoftMax 之前)。 -
mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快顺序解码。应将已提供给该模型的过去标记id作为input_ids
传递时,应避免作为input_ids
传递,因为它们已经计算过。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入层的输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(一个用于每个层)。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
TFXLNetForSequenceClassification 的 forward 方法,覆盖了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFXLNetForSequenceClassification
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = TFXLNetForSequenceClassification.from_pretrained("xlnet/xlnet-base-cased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> logits = model(**inputs).logits
>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFXLNetForSequenceClassification.from_pretrained("xlnet/xlnet-base-cased", num_labels=num_labels)
>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss
TFLNetForMultipleChoice
类 transformers.TFXLNetForMultipleChoice
< source >( config *inputs **kwargs )
参数
- config (XLNetConfig) —— 模型配置类,包含所有模型参数。使用配置文件初始化不会加载模型相关的权重,只有配置。查看 from_pretrained() 方法来加载模型权重。
XLNET 模型,顶部具有多选择分类头(在池化输出上方的线性层和 softmax)。例如,用于 RocStories/SWAG 任务。
此模型继承自TFPreTrainedModel。查看超级类文档了解库为所有模型实现的一般方法(例如下载或保存、调整输入嵌入的大小、剪枝头等)。
此模型也是keras.Model的子类。将其用作普通的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取所有相关使用和行为的说明。
TensorFlow 模型和层在 transformers
中接受两种输入格式
- 所有输入都是关键字参数(如 PyTorch 模型),或者
- 所有输入都作为第一个位置参数的列表、元组或字典。
支持第二种格式的理由是 Keras 方法在传递输入到模型和层时更喜欢这种格式。由于这种支持,当使用诸如 model.fit()
之类的工具时,应该“自然而然”地为你工作 - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可!但是,如果您想在与 fit()
和 predict()
等方法不同的 Keras 方法外部使用第二种格式,例如在创建自己的层或模型时,有三种可能的方法可以收集第一个位置参数中的所有输入张量
- 一个包含
input_ids
只和其他什么都不包含的单个张量:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个按照文档字符串中给出的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,你无需担心这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 源码 >( input_ids: TFModelInputType | None = None token_type_ids: np.ndarray | tf.Tensor | None = None input_mask: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None mems: np.ndarray | tf.Tensor | None = None perm_mask: np.ndarray | tf.Tensor | None = None target_mapping: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_mems: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput 或 tuple(tf.Tensor)
参数
- input_ids (形状为
(batch_size, num_choices, sequence_length)
的 torch.LongTensor) — 输入序列词表中的标记索引。 使用 AutoTokenizer 可以获取索引。详情请见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call(). - attention_mask (形状为
(batch_size, num_choices, sequence_length)
的 torch.FloatTensor,可选) — 避免在填充token索引上进行注意力的掩码。掩码值选择在[0, 1]
范围内:- 1 表示 非掩码 token,
- 0 表示 掩码 token。
- mems (长度为
config.n_layers
的 torch.FloatTensor 列表) — 包含预计算的隐藏状态(参看下面的mems
输出)。可用于加速序列解码。此模型中已给出过去的token不应该作为input_ids
传递,因为它们已经被计算过。 要使用mems
,必须将use_mems
设置为True
。 - perm_mask (
torch.FloatTensor
形状为(batch_size, sequence_length, sequence_length)
,可选)—— 表示每个输入标记注意模式的掩码,所选值为[0, 1]
:- 如果
perm_mask[k, i, j] = 0
,则 i 在批次 k 中关注 j; - 如果
perm_mask[k, i, j] = 1
,则 i 在批次 k 中不关注 j。
如果没有设置,则每个标记都关注所有其他标记(全双向注意力)。仅在预训练(定义分解顺序)或顺序解码(生成)期间使用。
- 如果
- target_mapping (
torch.FloatTensor
形状为(batch_size, num_predict, sequence_length)
,可选)—— 表示要使用的输出标记的掩码。如果target_mapping[k, i, j] = 1
,则在批次 k 中,i 对应预测的在第 j 个标记上。仅在预训练(部分预测)或顺序解码(生成)期间使用。 - token_type_ids (
torch.LongTensor
形状为(batch_size, num_choices, sequence_length)
,可选)—— 段标记索引以表示输入的第一和第二部分。索引选择在[0, 1]
中:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- input_mask (
torch.FloatTensor
形状为batch_size, num_choices, sequence_length
,可选)—— 用于避免在填充令牌索引上执行注意力的掩码。是attention_mask
的负值,即用 0 表示真实令牌,1 表示填充,以保持与原始代码库的兼容性。掩码值在
[0, 1]
中选择:- 1 表示被 掩码 的令牌,
- 0 表示未被 掩码 的令牌。
您只能使用
input_mask
和attention_mask
中的一个。 - head_mask (
torch.FloatTensor
形状为(num_heads,) 或 (num_layers, num_heads)
,可选)—— 用于使自注意力模块的选定头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示该头 未被掩码,
- 0 表示该头被 掩码。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, num_choices, sequence_length, hidden_size)
,可选)—— 选择直接传递嵌入表示而不是传递input_ids
。这适用于您想对比模型的内部嵌入查找矩阵有更多控制权时将input_ids
索引转换为相关向量时。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。详细信息请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。详细信息请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回ModelOutput而不是普通元组。 - labels (
tf.Tensor
of shape(batch_size,)
, optional) — 用于计算多选题分类损失的标签。索引应在[0, ..., num_choices]
范围内,其中num_choices
是输入张量第二维的大小。(参见上方的input_ids
)
返回
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput 或 tuple(tf.Tensor)
A transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput 或一个 tf.Tensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
),包含根据配置(XLNetConfig)和输入的不同元素。(
-
loss (
tf.Tensor
of shape (1,), optional, returned whenlabels
is provided) — 分类损失。 -
logits (
tf.Tensor
of shape(batch_size, num_choices)
) — num_choices 是输入张量第二维的大小。(参见上述 input_ids)分类得分(在 SoftMax 之前)。
-
mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快顺序解码。应将已提供给该模型的过去标记id作为input_ids
传递时,应避免作为input_ids
传递,因为它们已经计算过。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入层的输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(一个用于每个层)。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
TFXLNetForMultipleChoice 的 forward 方法,重写了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFXLNetForMultipleChoice
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = TFXLNetForMultipleChoice.from_pretrained("xlnet/xlnet-base-cased")
>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="tf", padding=True)
>>> inputs = {k: tf.expand_dims(v, 0) for k, v in encoding.items()}
>>> outputs = model(inputs) # batch size is 1
>>> # the linear classifier still needs to be trained
>>> logits = outputs.logits
TFXLNetForTokenClassification
class transformers.TFXLNetForTokenClassification
< source >( config *inputs **kwargs )
参数
- config (XLNetConfig) — 包含模型 所有参数的模型配置类。使用配置文件初始化不会加载模型相关的权重,只会加载配置。检查 from_pretrained() 方法来加载模型权重。
在顶部带有标记分类头(隐藏状态输出之上的线性层)的XLNet模型,例如用于命名实体识别(NER)的任务。
此模型继承自TFPreTrainedModel。查看超级类文档了解库为所有模型实现的一般方法(例如下载或保存、调整输入嵌入的大小、剪枝头等)。
此模型也是keras.Model的子类。将其用作普通的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取所有相关使用和行为的说明。
TensorFlow 模型和层在 transformers
中接受两种输入格式
- 所有输入都是关键字参数(如 PyTorch 模型),或者
- 所有输入都作为第一个位置参数的列表、元组或字典。
支持第二种格式的理由是 Keras 方法在传递输入到模型和层时更喜欢这种格式。由于这种支持,当使用诸如 model.fit()
之类的工具时,应该“自然而然”地为你工作 - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可!但是,如果您想在与 fit()
和 predict()
等方法不同的 Keras 方法外部使用第二种格式,例如在创建自己的层或模型时,有三种可能的方法可以收集第一个位置参数中的所有输入张量
- 一个包含
input_ids
只和其他什么都不包含的单个张量:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个按照文档字符串中给出的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,你无需担心这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 源码 >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None mems: np.ndarray | tf.Tensor | None = None perm_mask: np.ndarray | tf.Tensor | None = None target_mapping: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None input_mask: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_mems: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput or tuple(tf.Tensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — 输入序列的词汇索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (类型为
torch.FloatTensor
,形状为(batch_size, sequence_length)
,可选)— 用于避免在填充token索引上执行注意力操作的掩码。所选掩码值在[0, 1]
之间:- 1 代表未被掩码的token,
- 0 代表被掩码的token。
- mems (类型为
List[torch.FloatTensor]
,长度为config.n_layers
)— 包含预先计算的状态隐藏(参见下方的mems
输出)。可用于加速序列解码。应该将已经给出过去信息的token ids作为参数传递给此模型,不应将它们作为input_ids
传入,因为它们已经计算过。use_mems
必须设置为True
才能使用mems
。 - perm_mask (类型为
torch.FloatTensor
,形状为(batch_size, sequence_length, sequence_length)
,可选)— 用于指示每个输入token的注意力模式的掩码,值在[0, 1]
之间:- 如果
perm_mask[k, i, j] = 0
,则在批次 k 中,i 注意到 j; - 如果
perm_mask[k, i, j] = 1
,则在批次 k 中,i 不注意到 j。
如果未设置,则每个token注意所有其他token(完全双向注意力)。仅在预训练期间(定义分解顺序)或用于序列解码(生成)时使用。
- 如果
- target_mapping (
torch.FloatTensor
形状为(batch_size, num_predict, sequence_length)
,可选)— 用于表示要使用输出标记的掩码。如果target_mapping[k, i, j] = 1
,则表示批次 k 中的第 i 个预测在序列中位于第 j 个标记。仅在预训练阶段用于部分预测或用于序列解码(生成)。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引范围是[0, 1]
:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- input_mask (
torch.FloatTensor
形状为batch_size, sequence_length
,可选) — 避免在填充标记索引上执行注意力的掩码。是attention_mask
的负值,即用 0 表示真实标记,用 1 表示填充(为与原始代码库兼容而保留)。选择的掩码值范围为
[0, 1]
:- 1 表示 标记被掩码,
- 0 表示 标记没有被掩码。
您只能使用
input_mask
和attention_mask
中的一个。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选 ) — 用于使自注意力模块中选定的头无效化的掩码。掩码值选择在[0, 1]
:- 1 表示头 未掩码,
- 0 表示头 已掩码。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选 ) — 可选,您可以选择直接传递嵌入表示来替代input_ids
。如果您想要比模型内部嵌入查找矩阵有更多的控制权来转换input_ids
指数到相关向量时,这很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。请参阅返回张量中的attentions
了解更多详细信息。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。详细信息请参阅返回的张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - labels (
形状为 (batch_size, sequence_length)
的tf.Tensor
,可选) — 用于计算标记分类损失的标签。索引应该在[0, ..., config.num_labels - 1]
范围内。
返回
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput 或 tuple(tf.Tensor)
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput 或在 return_dict=False
被传入或当 config.return_dict=False
时的 tf.Tensor
的元组。它包含根据配置(XLNetConfig)和输入的不同元素。
-
loss (
形状为 (1,)
的tf.Tensor
,可选,当提供labels
时返回) — 分类损失。 -
logits (形状为
(batch_size, sequence_length, config.num_labels)
的tf.Tensor
)— 分类得分(SoftMax 之前)。 -
mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快顺序解码。应将已提供给该模型的过去标记id作为input_ids
传递时,应避免作为input_ids
传递,因为它们已经计算过。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入层的输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(一个用于每个层)。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
TFXLNetForTokenClassification 的 forward 方法,重写了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFXLNetForTokenClassification
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = TFXLNetForTokenClassification.from_pretrained("xlnet/xlnet-base-cased")
>>> inputs = tokenizer(
... "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="tf"
... )
>>> logits = model(**inputs).logits
>>> predicted_token_class_ids = tf.math.argmax(logits, axis=-1)
>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t] for t in predicted_token_class_ids[0].numpy().tolist()]
TFXLNetForQuestionAnsweringSimple
类 transformers.TFXLNetForQuestionAnsweringSimple
< 源 >( config *inputs **kwargs )
参数
- config (XLNetConfig)— 包含所有模型参数的模型配置类。使用配置文件初始化时不会加载与模型相关的权重,只加载配置。请检查 from_pretrained() 方法以加载模型权重。
带有输出端分类头的XLNet模型,用于抽取式问答任务,如SQuAD(在隐藏状态输出之上线性层,计算span start logits
和span end logits
)。
此模型继承自TFPreTrainedModel。查看超级类文档了解库为所有模型实现的一般方法(例如下载或保存、调整输入嵌入的大小、剪枝头等)。
此模型也是keras.Model的子类。将其用作普通的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取所有相关使用和行为的说明。
TensorFlow 模型和层在 transformers
中接受两种输入格式
- 所有输入都是关键字参数(如 PyTorch 模型),或者
- 所有输入都作为第一个位置参数的列表、元组或字典。
支持第二种格式的理由是 Keras 方法在传递输入到模型和层时更喜欢这种格式。由于这种支持,当使用诸如 model.fit()
之类的工具时,应该“自然而然”地为你工作 - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可!但是,如果您想在与 fit()
和 predict()
等方法不同的 Keras 方法外部使用第二种格式,例如在创建自己的层或模型时,有三种可能的方法可以收集第一个位置参数中的所有输入张量
- 一个包含
input_ids
只和其他什么都不包含的单个张量:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个按照文档字符串中给出的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,你无需担心这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 来源 >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None mems: np.ndarray | tf.Tensor | None = None perm_mask: np.ndarray | tf.Tensor | None = None target_mapping: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None input_mask: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_mems: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None start_positions: np.ndarray | tf.Tensor | None = None end_positions: np.ndarray | tf.Tensor | None = None training: bool = False ) → transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput 或 tuple(tf.Tensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — 计算器中输入序列词的词汇索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — 避免在填充 token 索引上执行注意力的蒙版。蒙版值在[0, 1]
中选择:- 1 表示 未蒙版 的 tokens,
- 0 表示 蒙版 的 tokens。
- mems (
List[torch.FloatTensor]
of lengthconfig.n_layers
) — 包含预计算的隐藏状态(见下文的mems
输出)。可用于加速序列解码。应将已经计算过的 token ids 作为input_ids
传递,因为它们已经被计算过。要使用
mems
,必须将use_mems
设置为True
。 - perm_mask (
torch.FloatTensor
of shape(batch_size, sequence_length, sequence_length)
, optional) — 用于指示每个输入令牌的注意模式的掩码。掩码中选定的值在[0, 1]
范围内:- 如果
perm_mask[k, i, j] = 0
,则在批次 k 中令牌 i 关注 j; - 如果
perm_mask[k, i, j] = 1
,则在批次 k 中令牌 i 不关注 j。
如果未设置,每个令牌都会关注所有其他令牌(全双向注意)。仅在预训练期间(定义分解顺序)或用于顺序解码(生成)时使用。
- 如果
- target_mapping (
torch.FloatTensor
of shape(batch_size, num_predict, sequence_length)
, optional) — 用于指示要使用输出令牌的掩码。如果target_mapping[k, i, j] = 1
,则批次 k 中第 i 个预测位于第 j 个令牌。仅在预训练期间用于部分预测或用于顺序解码(生成)时使用。 - token_type_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
, optional) — 用于指示输入第一和第二部分的段令牌索引。索引在[0, 1]
范围内:- 0 表示 句子 A 令牌,
- 1 表示 句子 B 令牌。
更多信息请参考令牌类型 ID 的定义。
- input_mask (
torch.FloatTensor
of shapebatch_size, sequence_length
, optional) — 避免在填充标记索引上执行注意力的掩码。是attention_mask
的相反数,即对于真实标记使用 0,对于填充使用 1(以保持与原始代码库的兼容性)。 - head_mask (
torch.FloatTensor
of shape(num_heads,)
or(num_layers, num_heads)
, optional) — 用于取消自我注意模块中选定头部的掩码。掩码值选择在[0, 1]
中:- 1 表示头部未 掩码,
- 0 表示头部已 掩码。
- inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 有选项的话,您可以选择直接传递嵌入式表示,而不是传递input_ids
。这在您需要更多的控制权来将input_ids
索引转换为相关向量时特别有用,比模型内部嵌入查找矩阵更有效。 - output_attentions (
bool
, 可选) - 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) - 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) - 是否返回 ModelOutput(模型输出)对象而不是普通的元组。 - start_positions (
tf.Tensor
的形状为(batch_size,)
,可选) — 标注的 span 起始位置的标签,用于计算 token 分类损失。位置被固定在序列的长度(sequence_length
)内。序列外的位置在计算损失时不会被考虑。 - end_positions (
tf.Tensor
的形状为(batch_size,)
,可选) — 标注的 span 结束位置的标签,用于计算 token 分类损失。位置被固定在序列的长度(sequence_length
)内。序列外的位置在计算损失时不会被考虑。
返回
transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput 或 tuple(tf.Tensor)
A transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput 或一个 tf.Tensor
的元组(如果在传递 `return_dict=False` 或当 `config.return_dict=False` 时),包含各种元素,这些元素取决于配置(XLNetConfig)和输入。
-
loss (
tf.Tensor
的形状为(1,)
,可选,当提供labels
时返回) — 总 span 提取损失是起始和结束位置的交叉熵之和。 -
start_logits (
tf.Tensor
的形状为(batch_size, sequence_length,)
)) — span 起始分数(在 SoftMax 之前)。 -
end_logits (
tf.Tensor
的形状为(batch_size, sequence_length,)
)) — span 结束分数(在 SoftMax 之前)。 -
mems (
List[tf.Tensor]
长度为config.n_layers
) — 包含预计算的隐藏状态。可用于(参见mems
输入)加快顺序解码。应将已提供给该模型的过去标记id作为input_ids
传递时,应避免作为input_ids
传递,因为它们已经计算过。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入层的输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型输出每个层的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(一个用于每个层)。在注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均。
TFXLNetForQuestionAnsweringSimple 的 forward 方法,覆盖了 __call__
特殊方法。
尽管需要在函数内部定义前向传递的食谱,但是应该调用之后是 Module
实例,而不是当前函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFXLNetForQuestionAnsweringSimple
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("xlnet/xlnet-base-cased")
>>> model = TFXLNetForQuestionAnsweringSimple.from_pretrained("xlnet/xlnet-base-cased")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="tf")
>>> outputs = model(**inputs)
>>> answer_start_index = int(tf.math.argmax(outputs.start_logits, axis=-1)[0])
>>> answer_end_index = int(tf.math.argmax(outputs.end_logits, axis=-1)[0])
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]