Transformers文档

移动BERT

Hugging Face's logo
加入Hugging Face社区

并获取增强的文档体验

开始使用

MobileBERT

概述

MobileBERT模型由Sun Zhiqing,Yu Hongkun,Song Xiaodan,Liu Renjie,Yang Yiming和Zhou Denny在《MobileBERT:适用于资源受限设备的压缩和加速的通用BERT模型》(MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices) 一文中提出。

文章摘要如下

自然语言处理(NLP)近期通过使用具有数亿参数的巨大预训练模型取得了巨大成功。然而,这些模型因模型尺寸庞大、延迟高,以至于无法部署到资源有限的移动设备上。在本文中,我们提出了MobileBERT,用于压缩和加速流行的BERT模型。像原始BERT一样,MobileBERT是任务无关的,也就是说,它可以通过简单的微调通用地应用于各种下游NLP任务。基本上,MobileBERT是BERT_LARGE的一个轻版本,同时装备了瓶颈结构和精心设计的自我注意力与前馈网络之间的平衡。为了训练MobileBERT,我们首先训练一个专门设计的教师模型,一个包含倒置瓶颈的BERT_LARGE模型。然后,我们将知识从教师模型迁移到MobileBERT。实证研究表明,与BERT_BASE相比,MobileBERT的尺寸缩小了4.3倍,速度提高了5.5倍,同时在知名基准测试上实现了具有竞争力的结果。在GLUE的自然语言推理任务中,MobileBERT达到的GLUE得分为77.7(比BERT_BASE低0.6),以及在Pixel 4手机上达到的延迟为62毫秒。在SQuAD v1.1/v2.0问答任务中,MobileBERT的dev F1分数为90.0/79.2(比BERT_BASE高1.5/2.1)。

此模型由vshampor贡献。原始代码可以在此处找到。

使用提示

  • MobileBERT是一个具有绝对位置嵌入的模型,因此建议通常在右边而非左边填充输入。
  • MobileBERT类似于BERT,因此依赖于掩码语言模型(MLM)目标。因此,它擅长预测掩码标记以及在NLU方面的表现,但不是文本生成的最优选择。以因果语言模型(CLM)目标训练的模型在这方面表现得更好。

资源

MobileBertConfig

transformers.MobileBertConfig

< >

( vocab_size = 30522 hidden_size = 512 num_hidden_layers = 24 num_attention_heads = 4 intermediate_size = 512 hidden_act = 'relu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 embedding_size = 128 trigram_input = True use_bottleneck = True intra_bottleneck_size = 128 use_bottleneck_attention = False key_query_shared_bottleneck = True num_feedforward_networks = 4 normalization_type = 'no_norm' classifier_activation = True classifier_dropout = None **kwargs )

参数

  • vocab_size (int, 可选,默认为30522) — MobileBERT模型的词汇大小。定义了通过调用 MobileBertModelTFMobileBertModel 时传递的 inputs_ids 可以表示的不同标记的数量。
  • hidden_size (int, 可选,默认为512) — 编码层和解码层的维度。
  • num_hidden_layers (int, 可选,默认为24) — Transformer编码器中的隐藏层数量。
  • num_attention_heads (int, 可选,默认为4) — Transformer编码器中每层的注意力头数。
  • intermediate_sizeint可选,默认为 512) — Transformer 编码器中“中间”层(通常称为前馈层)的维度。
  • hidden_actstrfunction可选,默认为 "relu") — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,支持 "gelu""relu""silu""gelu_new"
  • hidden_dropout_probfloat可选,默认为 0.0) — 嵌入、编码器和池化器中所有全连接层的dropout概率。
  • attention_probs_dropout_probfloat可选,默认为 0.1) — 注意力概率的dropout比率。
  • max_position_embeddings (int, 可选, 默认为512) — 该模型可能使用的最大序列长度。通常将此值设得很大以备不时之需(例如,512或1024或2048)。
  • type_vocab_size (int, 可选, 默认为2) — 当调用 MobileBertModelTFMobileBertModel 时传入的 token_type_ids 的词汇表大小。
  • initializer_range (float, 可选, 默认为0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器标准差。
  • layer_norm_eps (float, 可选, 默认为 1e-12) — 在层归一化层中使用的 epsilon。
  • pad_token_id (int, 可选, 默认为 0) — 用作填充的词嵌入中 token 的 ID。
  • embedding_size (int, 可选, 默认为 128) — 词嵌入向量的维度。
  • trigram_input (bool, 可选, 默认为 True) — 使用三元组卷积作为输入。
  • use_bottleneck (布尔值, 可选, 默认为 True) — 是否在 BERT 中使用瓶颈层。
  • intra_bottleneck_size (整数, 可选, 默认为 128) — 瓶颈层输出的尺寸。
  • use_bottleneck_attention (布尔值, 可选, 默认为 False) — 是否使用瓶颈变换的注意输入。
  • key_query_shared_bottleneck (bool, 可选,默认为 True) — 是否在瓶颈中使用相同的线性变换进行 query&key。
  • num_feedforward_networks (int, 可选,默认为 4) — 块中 FFN 的数量。
  • normalization_type (str, 可选,默认为 "no_norm") — MobileBERT 中的归一化类型。
  • classifier_dropout (float, 可选) — 分类头部的 dropout 比率。

这是一个配置类,用于存储《MobileBertModel》或《TFMobileBertModel》的配置。它可以根据指定的参数实例化一个MobileBERT模型,定义模型架构。使用默认值配置实例化后,将得到类似于MobileBERT google/mobilebert-uncased 架构的配置。

配置对象继承自《PretrainedConfig》并可用于控制模型输出。有关更多信息,请参阅《PretrainedConfig》的文档。

示例

>>> from transformers import MobileBertConfig, MobileBertModel

>>> # Initializing a MobileBERT configuration
>>> configuration = MobileBertConfig()

>>> # Initializing a model (with random weights) from the configuration above
>>> model = MobileBertModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

MobileBertTokenizer

class transformers.MobileBertTokenizer

< >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

  • vocab_file (str) — 包含词汇的文件。
  • do_lower_case (bool, 可选,默认值为 True) — 标记化输入时是否转换为小写。
  • do_basic_tokenize(《布尔型`),可选,默认为True)—在WordPiece之前是否进行基本分词。
  • never_split(《可迭代对象`),可选)—在分词过程中永不分割的标记集合。只有当do_basic_tokenize=True时才生效。
  • unk_token(《字符串`),可选,默认为"[UNK]")—未知标记。不属于词汇表中的标记无法转换为ID,并将设置为该标记。
  • sep_token (str, 可选, 默认为 "[SEP]") — 分隔符标记,在从多个序列构建序列时使用,例如用于序列分类的两个序列或用于问答的文本与问题。它还用作带有特殊标记构建的序列的最后一个标记。
  • pad_token (str, 可选, 默认为 "[PAD]") — 用于填充的标记,例如在批处理不同长度的序列时使用。
  • cls_token (str, 可选, 默认为 "[CLS]") — 分类器标记,用于序列分类(对整个序列进行分类而不是对每个标记进行分类)。当使用特殊标记构建序列时,它是序列的第一个标记。
  • mask_token (str, 可选, 默认为 "[MASK]") — 用于遮罩的标记。在训练此模型进行遮罩语言建模时使用此标记。模型将尝试预测此标记。
  • tokenize_chinese_chars (bool, 可选, 默认为 True) — 是否分词中文字符。

    对于日语,可能会需要停用(见这个问题)。

  • strip_accents (bool, 可选) — 是否去除所有重音符号。如果没有指定此选项,则将根据 lowercase 的值确定(正如在原始 MobileBERT 中)。

构建一个 MobileBERT 分词器。基于 WordPiece。

此分词器继承自 PreTrainedTokenizer,它包含了大部分主要方法。用户应参考这个超类以获取有关那些方法的更多信息。

build_inputs_with_special_tokens

< >

( token_ids_0: List token_ids_1: Optional = None ) List[int]

参数

  • token_ids_0 (List[int]) — 要添加特殊标记的ID列表。
  • token_ids_1 (List[int], 可选) — 可选的第二组序列对ID。

返回值

Int列表

包含适当的特殊标记的输入ID列表。

通过连接和添加特殊标记,从序列或序列对生成模型输入,以进行序列化分类任务。MobileBERT序列具有以下格式

  • 单个序列:[CLS] X [SEP]
  • 序列对:[CLS] A [SEP] B [SEP]

convert_tokens_to_string

< >

( tokens )

将一系列标记(字符串)转换成一个单独的字符串。

create_token_type_ids_from_sequences

< >

( token_ids_0: List token_ids_1: Optional = None ) List[int]

参数

  • token_ids_0 (int列表) — ID列表。
  • token_ids_1 (列表[int]可选) — 可选的第二个序列ID列表。

返回值

Int列表

根据给定的序列得到的token类型ID列表。

从传入的序列中创建一个掩码,用于在序列对分类任务中使用。一个MobileBERT序列

对掩码的格式如下

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果token_ids_1None,此方法仅返回掩码的第一部分(0s)。

get_special_tokens_mask

< >

( token_ids_0: 列表 token_ids_1: 可选 = None already_has_special_tokens: 布尔 = False ) 列表[int]

参数

  • token_ids_0 (列表[int]) — ID列表。
  • token_ids_1List[int]可选)— 序列对的可选第二个 ID 列表。
  • already_has_special_tokensbool可选,默认为 False)— token 列表是否已经格式化为包含特殊标记以供模型使用。

返回值

Int列表

范围在 [0, 1] 内的整数列表:1 为特殊标记,0 为序列标记。

从未添加特殊标记的标记列表中检索序列 ID。此方法在添加特殊标记时调用 tokenizer 的 prepare_for_model 方法。

MobileBertTokenizerFast

transformers.MobileBertTokenizerFast

< >

( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

  • vocab_file (str) — 包含词汇的文件。
  • do_lower_case (bool, 可选, 默认为 True) — 在标记时是否将输入转换为小写。
  • unk_token (str, 可选, 默认为 "[UNK]") — 未知标记。不在词汇表中的标记无法转换为ID,并将设置为此标记。
  • sep_token (str, 可选, 默认为 "[SEP]") — 分隔符标记,用于构建由多个序列组成的序列时,例如,用于序列分类的两种序列或用于问答文本和问题。它也用作带特殊标记构建的序列的最后一个标记。
  • pad_token (str, 可选,默认为 "[PAD]") — 用于填充的标记,例如在批处理不同长度的序列时。
  • cls_token (str, 可选,默认为 "[CLS]") — 用于序列分类(对整个序列进行分类而不是按标记进行分类)的分类标记。当使用特殊标记构建时,它是序列的第一个标记。
  • mask_token (str, 可选,默认为 "[MASK]") — 用于遮蔽值的标记。这是在用带掩码的语料库训练该模型时使用的标记。这是模型将尝试预测的标记。
  • clean_text (bool, 可选, 默认为 True) — 在分词之前是否清洗文本,通过删除所有控制字符并将所有空白字符替换为经典格式。
  • tokenize_chinese_chars (bool, 可选, 默认为 True) — 是否对中文字符进行分词。对于日语,应该关闭此选项(请参阅 此问题)。
  • strip_accents (bool, 可选) — 是否删除所有变音符号。如果没有指定此选项,则其值将由 lowercase 的值决定(如原始 MobileBERT)。
  • wordpieces_prefixstr可选,默认为"##") — 子词的前缀。

构建一个“快速”的MobileBERT分词器(由HuggingFace的tokenizers库提供支持)。基于WordPiece。

此分词器继承自PreTrainedTokenizerFast,其中包含大多数主要方法。用户应参考这个超类以获取有关那些方法的更多信息。

build_inputs_with_special_tokens

<>

(word_ids_0word_ids_1 = None)List[int]

参数

  • word_ids_0List[int]) — 特殊标记将被添加到的ID列表。
  • token_ids_1 (int列表可选项) ——可选项第二个序列对ID列表。

返回值

Int列表

包含适当的特殊标记的输入ID列表。

通过连接和添加特殊标记,从序列或序列对生成模型输入,以进行序列化分类任务。MobileBERT序列具有以下格式

  • 单个序列:[CLS] X [SEP]
  • 序列对:[CLS] A [SEP] B [SEP]

create_token_type_ids_from_sequences

< >

( token_ids_0: List token_ids_1: Optional = None ) List[int]

参数

  • token_ids_0 (int列表) ——ID列表。
  • token_ids_1 (int列表可选项) ——可选项第二个序列对ID列表。

返回值

Int列表

根据给定的序列得到的token类型ID列表。

从传入的序列中创建一个掩码,用于在序列对分类任务中使用。一个MobileBERT序列

对掩码的格式如下

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果token_ids_1None,此方法仅返回掩码的第一部分(0s)。

MobileBert 特定输出

transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutput

< >

( loss: Optional = None prediction_logits: FloatTensor = None seq_relationship_logits: FloatTensor = None hidden_states: Optional = None attentions: Optional = None )

参数

  • loss (可选,当提供 labels 时返回,torch.FloatTensor 形状为 (1,)) — 总损失,是掩码语言模型损失和下一个序列预测(分类)损失的总和。
  • prediction_logits(《torch.FloatTensor》形状为(batch_size, sequence_length, config.vocab_size))——语言模型的预测分数(SoftMax前每个词汇项的分数)。
  • seq_relationship_logits(《torch.FloatTensor》形状为(batch_size, 2))——下一个序列预测(分类)头的预测分数(SoftMax前True/False的分数)。
  • hidden_statestorch.FloatTensor 的元组,可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回)——一个元组,包含一个用于嵌入输出的 torch.FloatTensor 和各层输出的 torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)
  • attentions (tuple(torch.FloatTensor), 可选,当传递output_attentions=True或当config.output_attentions=True时返回) — 每个层有一个torch.FloatTensor元组(形状为(batch_size, num_heads, sequence_length, sequence_length))。

`MobileBertForPreTraining`的输出类型。

transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput

< >

( loss: tf.Tensor | None = None prediction_logits: tf.Tensor = None seq_relationship_logits: tf.Tensor = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

  • prediction_logits(《tf.Tensor》)形如(batch_size, sequence_length, config.vocab_size) —— 语言模型头的预测得分(SoftMax之前的每个词汇单元的得分)。
  • seq_relationship_logits(《tf.Tensor》)形如(batch_size, 2) —— 下一序列预测(分类)头的预测得分(SoftMax之前的True/False延续的得分)。
  • hidden_states(《tuple(tf.Tensor)》,可选,当传递output_hidden_states=True或当config.output_hidden_states=True时返回)—— 每层输出的tf.Tensor的元组(一个用于嵌入输出,一个用于每层的输出),形如(batch_size, sequence_length, hidden_size)

    模型在每个层输出的隐藏状态加初始嵌入输出。

  • attentions (tuple(tf.Tensor), 可选,当传递output_attentions=True或者当配置config.output_attentions=True时返回) — Tuple of tf.Tensor(每个层一个)的形状为(batch_size, num_heads, sequence_length, sequence_length)

TFMobileBertForPreTraining的输出类型。

Pytorch
隐藏Pytorch内容

MobileBertModel

transformers.MobileBertModel

< >

( config add_pooling_layer = True )

参数

  • 此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

    此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

    https://arxiv.org/pdf/2004.02984.pdf

    前进

    ( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None output_hidden_states: 可选 = None output_attentions: 可选 = None return_dict: 可选 = None ) transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

    参数

    • input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 输入序列词汇中的标记索引。

      可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

      什么是输入索引?

    • attention_mask (形状为 (batch_size, sequence_length)torch.FloatTensor可选) — 用于避免在填充词索引上执行注意力的掩码。掩码值在选择 [0, 1]

      • 1 表示 未掩码 的标记,
      • 0 表示 掩码 的标记。

      注意掩码是什么?

    • token_type_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 表示输入的文本的段标记索引。索引选择在 [0, 1] 范围内:

      • 0 对应于 句子A 标记,
      • 1 对应于 句子B 标记。

      标记类型ID是什么?

    • position_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 每个输入序列标记在位置嵌入中的位置索引。选取范围在 [0, config.max_position_embeddings - 1] 范围内。

      位置ID是什么?

    • head_mask (torch.FloatTensor 形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消选择自注意力模块中指定的头部。遮罩值选择在 [0, 1] 之间:

      • 1 表示头部 未遮罩
      • 0 表示头部 已遮罩
    • inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,你可直接传递嵌入表示,而不是传递 input_ids。这在你需要比模型的内部嵌入查找矩阵更多控制权进行索引 input_ids 转换为相关向量时很有用。
    • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量中的 attentions
    • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更详细的信息请参阅返回张量下的 hidden_states
    • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

    返回值

    transformers.modeling_outputs.BaseModelOutputWithPoolingtuple(torch.FloatTensor)

    A transformers.modeling_outputs.BaseModelOutputWithPooling 或一个由 torch.FloatTensor 元组组成(如果传递了 return_dict=False 或当 config.return_dict=False),包含了根据配置(MobileBertConfig)和输入的不同元素。

    • last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的序列隐藏状态。

    • pooler_output (torch.FloatTensor of shape (batch_size, hidden_size)) — 首个标记(分类标记)经过用于辅助预训练任务的层后的最后层隐藏状态。例如,对于BERT系列模型,这会在通过一个线性层和一个tanh激活函数处理之后返回分类标记。线性层的权重是在预训练期间从下一个句子预测(分类)目标中训练的。

    • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

      每个层的隐藏状态以及可选的初始嵌入输出。

    • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

      注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

    MobileBertModel的前向方法,重写了__call__特殊方法。

    尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

    示例

    >>> from transformers import AutoTokenizer, MobileBertModel
    >>> import torch
    
    >>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
    >>> model = MobileBertModel.from_pretrained("google/mobilebert-uncased")
    
    >>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
    >>> outputs = model(**inputs)
    
    >>> last_hidden_states = outputs.last_hidden_state

MobileBertForPreTraining

class transformers.MobileBertForPreTraining

< >

( config )

参数

  • config (MobileBertConfig) — 模型配置类,包含所有模型参数。使用配置文件初始化时,不会加载模型相关的权重,只加载配置。查看from_pretrained()方法来加载模型权重。

顶部分为两个头的MobileBert模型,与预训练期间的做法相同:一个是掩码语言建模头,另一个是下一个句子预测(分类)头。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None next_sentence_label: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutputtuple(torch.FloatTensor)

参数

  • input_ids (形状为 (batch_size, sequence_length)torch.LongTensor) — 输入序列标记的词汇索引。

    索引可以通过使用 AutoTokenizer 来获取。详细信息请参考 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入索引?

  • attention_mask (形状为 (batch_size, sequence_length)torch.FloatTensor可选) — 避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示 未掩码 的标记,
    • 0 表示 掩码 的标记。

    什么是注意力掩码?

  • token_type_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 段标记索引,用于标识输入的第一部分和第二部分。索引在 [0, 1] 中选择:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是标记类型索引?

  • position_ids (torch.LongTensor 的形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是位置 ID?

  • head_mask (torch.FloatTensor 的形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消选定多头自注意力模块的头部的掩码。掩码值选在 [0, 1]

    • 1 表示头部 未屏蔽
    • 0 表示头部 已屏蔽
  • inputs_embeds (torch.FloatTensor 的形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,而不是传递 input_ids,可以直接传递嵌入表示。如果您希望比模型内部嵌入查找矩阵有更多控制要对 input_ids 索引进行转换以关联向量的方式,则很有用。
  • output_attentions (bool, 可选) — 是否返回所有注意力的张量。更多详情请参考返回张量的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详情请参考返回张量的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算掩码语言模型损失的标签。索引应在 [-100, 0, ..., config.vocab_size] (参见 input_ids 文档字符串) 中。设置为 -100 的索引将被忽略(掩码),损失只针对具有 [0, ..., config.vocab_size] 中标签的令牌计算
  • next_sentence_label (torch.LongTensor of shape (batch_size,, optional) — 用于计算下一个序列预测(分类)损失的标签。输入应为一个序列对(参见 input_ids 文档字符串) 索引应在 [0, 1] 中:

    • 0 表示序列 B 是序列 A 的延续,
    • 1 表示序列 B 是随机序列。

返回值

transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutputtuple(torch.FloatTensor)

transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutput 或一个torch.FloatTensor的元组(如果传入return_dict=False或在config.return_dict=False时)包含根据配置( MobileBertConfig) 和输入)/strong>

  • lossoptional,当提供 labels 时返回,为形状 (1,)torch.FloatTensor) — 将掩码语言模型损失和下一个序列预测(分类)损失相加得到的总损失。

  • prediction_logitstorch.FloatTensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言模型头部预测分数(在 SoftMax 之前的每个词汇表的分数)。

  • seq_relationship_logitstorch.FloatTensor of shape (batch_size, 2)) — 下一个序列预测(分类)头部预测分数(在 SoftMax 之前的 True/False 延续分数)。

  • hidden_states (tuple(torch.FloatTensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(一个用于嵌入输出,另一个用于每一层的输出)的形状为 (batch_size, sequence_length, hidden_size)

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

MobileBertForPreTraining 前向方法覆盖了 __call__ 特别方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MobileBertForPreTraining
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForPreTraining.from_pretrained("google/mobilebert-uncased")

>>> input_ids = torch.tensor(tokenizer.encode("Hello, my dog is cute", add_special_tokens=True)).unsqueeze(0)
>>> # Batch size 1
>>> outputs = model(input_ids)

>>> prediction_logits = outputs.prediction_logits
>>> seq_relationship_logits = outputs.seq_relationship_logits

MobileBertForMaskedLM

transformers.MobileBertForMaskedLM

< >

( config )

参数

  • config (MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载模型相关的权重,只会加载配置。检查 from_pretrained() 方法以加载模型权重。

在顶部带有 语言建模 头的 MobileBert 模型。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) transformers.modeling_outputs.MaskedLMOutputtuple(torch.FloatTensor)

参数

  • input_ids (形状为(batch_size, sequence_length)torch.LongTensor) — 词汇表中的输入序列标记的索引。

    可以使用AutoTokenizer获取索引。详细信息请参阅PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入ID?

  • attention_mask (形状为(batch_size, sequence_length)torch.FloatTensor,可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]

    • 1表示未被掩码的标记,
    • 0表示被掩码的标记。

    什么是注意掩码?

  • token_type_ids (形状为(batch_size, sequence_length)torch.LongTensor,可选) — 分割标记索引,指示输入的第一部分和第二部分。索引在选择[0, 1]

    什么是标记类型ID?

  • position_ids (torch.LongTensor 形状为 (batch_size, sequence_length)可选) — 输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]

    什么是位置ID?

  • head_mask (torch.FloatTensor 形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消自注意力模块中选择的头部的掩码。掩码值在 [0, 1] 范围内:

    • 1 表示头部 未掩码
    • 0 表示头部 掩码
  • inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)可选) — 可以选择直接传递嵌入表示,而不是传递 input_ids。这在您想有更多控制权,以将 input_ids 索引转换为相关向量,而不仅仅是模型内部嵌入查找矩阵时很有用。
  • labels (torch.LongTensor 的形状为 (batch_size, sequence_length)可选) — 计算掩码语言模型损失的标签。索引应在 [-100, 0, ..., config.vocab_size] (参见 input_ids 的用法字符串) 范围内。索引设置为 -100 的标记将被忽略(掩码),只对 [0, ..., config.vocab_size] 范围内的标签进行损失计算

返回值

transformers.modeling_outputs.MaskedLMOutputtuple(torch.FloatTensor)

A transformers.modeling_outputs.MaskedLMOutput 或一个由 torch.FloatTensor 元组组成的对象(如果传递了 return_dict=False 或当 config.return_dict=False 时),这取决于配置(MobileBertConfig)和输入。

  • loss (torch.FloatTensor 的形状为 (1,)可选,在提供 labels 时返回) — 掩码语言模型(MLM)损失。

  • logits (torch.FloatTensor 的形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头的预测分数(SoftMax 之前的每个词汇的分数)。

  • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

    每个层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

MobileBertForMaskedLM 的前向方法覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MobileBertForMaskedLM
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForMaskedLM.from_pretrained("google/mobilebert-uncased")

>>> inputs = tokenizer("The capital of France is [MASK].", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # retrieve index of [MASK]
>>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]

>>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1)
>>> tokenizer.decode(predicted_token_id)
'paris'

>>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
>>> # mask labels of non-[MASK] tokens
>>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)

>>> outputs = model(**inputs, labels=labels)
>>> round(outputs.loss.item(), 2)
0.57

MobileBertForNextSentencePrediction

transformers.MobileBertForNextSentencePrediction

< >

( config )

参数

  • 配置 (MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载模型相关的权重,只有配置。请查看from_pretrained() 方法来加载模型权重。

顶部带有 下一句预测(分类) 头的MobileBert模型。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None **kwargs ) transformers.modeling_outputs.NextSentencePredictorOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 输入序列单词在词汇表中的索引。

    索引可以通过使用 AutoTokenizer 来获取。详细信息请见 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入索引?

  • attention_mask (形状为 (batch_size, sequence_length)torch.FloatTensor,可选)— 避免对填充令牌索引执行注意力的掩码。掩码值选择在 [0, 1]

    • 1 表示 未掩码 的令牌,
    • 0 表示 掩码 的令牌。

    什么是注意力掩码?

  • token_type_ids (形状为 (batch_size, sequence_length)torch.LongTensor,可选)— 用于指示输入的第一部分和第二部分的分段令牌索引。索引选择在 [0, 1]

    • 0 对应于 句子 A 令牌,
    • 1 对应于 句子 B 令牌。

    什么是令牌类型 ID?

  • position_ids (形状为 (batch_size, sequence_length)torch.LongTensor,可选)— 每个输入序列令牌在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选取。

    什么是位置 ID?

  • head_mask (torch.FloatTensor 形状 (num_heads,)(num_layers, num_heads)可选) — 用于取消选定头部自注意力模块的掩码。掩码值[0, 1]选择:

    • 1 表示头部未进行掩码,
    • 0 表示头部已进行掩码。
  • inputs_embeds (torch.FloatTensor 形状 (batch_size, sequence_length, hidden_size)可选) — 可选地,您可以直接传递嵌入表示,而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵有更多的控制权来将 input_ids 索引转换为相关的向量,这很有用。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量中的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详情请参见返回的张量中的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • labels (torch.LongTensor,形状为 (batch_size,),可选) — 计算下一个序列预测(分类)损失的标签。输入应为序列对(参见 input_ids 文档字符串)。索引应该在 [0, 1] 之间。
    • 0 表示序列 B 是序列 A 的延续;
    • 1 表示序列 B 是随机序列。

返回值

transformers.modeling_outputs.NextSentencePredictorOutputtuple(torch.FloatTensor)

transformers.modeling_outputs.NextSentencePredictorOutput 或一个由 torch.FloatTensor 组成的元组(如果传递了 return_dict=False 或当 config.return_dict=False)包含的元素取决于配置(MobileBertConfig)和输入。

  • losstorch.FloatTensor,形状为(1,)可选,当提供next_sentence_label时返回) —— 下一个序列预测(分类)损失。

  • logitstorch.FloatTensor,形状为(batch_size, 2))—— 下一个序列预测(分类)头部的预测分数(在SoftMax之前的True/False延续的分数)。

  • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

    每个层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

MobileBertForNextSentencePrediction类的forward方法覆盖了__call__特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MobileBertForNextSentencePrediction
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForNextSentencePrediction.from_pretrained("google/mobilebert-uncased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> next_sentence = "The sky is blue due to the shorter wavelength of blue light."
>>> encoding = tokenizer(prompt, next_sentence, return_tensors="pt")

>>> outputs = model(**encoding, labels=torch.LongTensor([1]))
>>> loss = outputs.loss
>>> logits = outputs.logits

MobileBertForSequenceClassification

transformers.MobileBertForSequenceClassification

< >

( config )

参数

  • configMobileBertConfig) —— 包含模型所有参数的模型配置类。使用配置文件初始化时不会加载数据集权重,而只有配置。请查看from_pretrained()方法加载模型权重。

MobileBert模型,在序列分类/回归头部(在池化输出顶部的线性层)上,例如用于GLUE任务。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) transformers.modeling_outputs.SequenceClassifierOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor 的形状 (batch_size, sequence_length)) — 输入序列令牌在词汇表中的索引。

    可以使用 AutoTokenizer 获取这些索引。有关详细信息,请参见 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入ID?

  • attention_mask (torch.FloatTensor 的形状 (batch_size, sequence_length),可选) — 避免在填充令牌索引上执行注意力的掩码。掩码值选择在 [0, 1]

    • 1 对应于 未掩码 的令牌,
    • 0 对应于 掩码 的令牌。

    什么是注意力掩码?

  • token_type_ids (torch.LongTensor 的形状 (batch_size, sequence_length),可选) — 切分令牌索引以指示输入的第一和第二部分。索引选择在 [0, 1]

    • 0 对应于 句子 A 令牌,
    • 1 对应于 句子 B 令牌。

    什么是令牌类型ID?

  • position_idstorch.LongTensor,形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 内选取。

    什么是位置ID?

  • head_masktorch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消选择自注意力模块的选定头部的掩码。掩码值在 [0, 1] 之间选取:

    • 1 表示头部 未遮蔽
    • 0 表示头部 遮蔽
  • inputs_embedstorch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选,您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您想要比模型内部嵌入查找矩阵更大的控制权来决定如何将 input_ids 索引转换为相关的向量,则这种方法非常有用。
  • output_attentions (bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool,可选)— 是否返回ModelOutput而非普通元组。
  • labels (torch.LongTensor of shape (batch_size,), 可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 之间。如果 config.num_labels == 1,则计算回归损失(均方损失),如果 config.num_labels > 1,则计算分类损失(交叉熵)。

返回值

transformers.modeling_outputs.SequenceClassifierOutputtuple(torch.FloatTensor)

transformers.modeling_outputs.SequenceClassifierOutput 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含根据配置(MobileBertConfig)和输入的不同元素。

  • loss (torch.FloatTensor of shape (1,), 可选,当提供 labels 时返回) — 分类(或回归 loss)损失。

  • logits (torch.FloatTensor of shape (batch_size, config.num_labels)) — 分类(或回归,如果 config.num_labels == 1)分数(SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

    每个层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

MobileBertForSequenceClassification 的 forward 方法,覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

单标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, MobileBertForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("lordtt13/emo-mobilebert")
>>> model = MobileBertForSequenceClassification.from_pretrained("lordtt13/emo-mobilebert")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
'others'

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = MobileBertForSequenceClassification.from_pretrained("lordtt13/emo-mobilebert", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
4.72

多标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, MobileBertForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("lordtt13/emo-mobilebert")
>>> model = MobileBertForSequenceClassification.from_pretrained("lordtt13/emo-mobilebert", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = MobileBertForSequenceClassification.from_pretrained(
...     "lordtt13/emo-mobilebert", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

MobileBertForMultipleChoice

transformers.MobileBertForMultipleChoice

< >

( config )

参数

  • 配置 (MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法以加载模型权重。

在顶部添加了多个选择分类头(在池化输出之上的一层线性层和softmax)的MobileBert模型,例如用于RocStories/SWAG任务。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) transformers.modeling_outputs.MultipleChoiceModelOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor 的形状为 (batch_size, num_choices, sequence_length)) —词汇表中的输入序列标记索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • attention_mask (可选,形状为(batch_size, num_choices, sequence_length)torch.FloatTensor) - 用于避免在填充token索引上执行注意力操作的掩码。所选掩码值在[0, 1]范围内:

    • 1代表未遮罩的token,
    • 0代表遮罩的token。

    什么是注意力掩码?

  • token_type_ids (可选,形状为(batch_size, num_choices, sequence_length)torch.LongTensor) - 用于指示输入的前后部分的段token索引。所选索引在[0, 1]范围内:

    • 0对应于句子A的token,
    • 1对应于句子B的token。

    什么是token类型ID?

  • position_ids (可选,形状为(batch_size, num_choices, sequence_length)torch.LongTensor) - 每个输入序列token在位置嵌入中的位置索引。选择范围在[0, config.max_position_embeddings - 1]之间。

    什么是位置ID?

  • head_mask (torch.FloatTensor 形状为 (num_heads,)(num_layers, num_heads)可选 ) — 用于取消自我注意力模块中选定的头部的掩码。掩码值选在 [0, 1]

    • 1 表示头部未 掩码
    • 0 表示头部已 掩码
  • inputs_embeds (torch.FloatTensor 形状为 (batch_size, num_choices, sequence_length, hidden_size)可选 ) — 选择直接传递嵌入表示而不是传递 input_ids,如果想要比模型内嵌入查找矩阵更多的控制如何将 input_ids 索引转换为相关向量,这很有用。
  • output_attentions (bool可选 ) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算多选分类损失的标签。索引应在 [0, ..., num_choices-1] 范围内,其中 num_choices 是输入张量第二维的尺寸。(参见上面的 input_ids

返回值

transformers.modeling_outputs.MultipleChoiceModelOutputtuple(torch.FloatTensor)

A transformers.modeling_outputs.MultipleChoiceModelOutput 或一个由 torch.FloatTensor 组成的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含各种元素,具体取决于配置(MobileBertConfig)和输入。

  • loss (torch.FloatTensor of shape (1,), optional, returned when labels is provided) — 分类损失。

  • logits (torch.FloatTensor of shape (batch_size, num_choices)) — num_choices 是输入张量第二维的尺寸。(参见上面的 input_ids

    分类得分(在 SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

    每个层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

《MobileBertForMultipleChoice》类的forward方法重写了__call__特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MobileBertForMultipleChoice
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForMultipleChoice.from_pretrained("google/mobilebert-uncased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> labels = torch.tensor(0).unsqueeze(0)  # choice0 is correct (according to Wikipedia ;)), batch size 1

>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="pt", padding=True)
>>> outputs = model(**{k: v.unsqueeze(0) for k, v in encoding.items()}, labels=labels)  # batch size is 1

>>> # the linear classifier still needs to be trained
>>> loss = outputs.loss
>>> logits = outputs.logits

MobileBertForTokenClassification

transformers.MobileBertForTokenClassification

< >

( config )

参数

  • config(《MobileBertConfig》)— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只有配置。请参阅from_pretrained()方法来加载模型权重。

在MobileBert模型顶部带有标记分类头(在hidden-states输出上面的线性层),例如用于命名实体识别(NER)任务。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor 形状 (batch_size, sequence_length)) — 词汇表中的输入序列标记索引。

    索引可以使用 AutoTokenizer 获取。更详细的内容请参考 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入ID?

  • attention_mask (torch.FloatTensor 形状 (batch_size, sequence_length), 可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1] 范围内:

    • 1 表示 未掩码 的标记,
    • 0 表示 掩码 的标记。

    什么是注意力掩码?

  • token_type_ids (torch.LongTensor 形状 (batch_size, sequence_length), 可选) — 用于指示输入的第一部分和第二部分的标记段索引。索引选择在 [0, 1] 范围内:

    • 0对应于 句子A 标记,
    • 1对应于 句子B 标记。

    什么是标记类型ID?

  • position_ids (形式为 torch.LongTensor 的 shape 为 (batch_size, sequence_length), 可选)— 每个输入序列标记的位置在位置嵌入中的索引。选择范围在 [0, config.max_position_embeddings - 1] 内。

    什么是位置 ID?

  • head_mask (形式为 torch.FloatTensor 的 shape 为 (num_heads,)(num_layers, num_heads), 可选)— 用于失效自注意力模块选中头的掩码。掩码值在 [0, 1] 范围内:

    • 1 表示头没有被 掩码
    • 0 表示头被 掩码
  • inputs_embeds (形式为 torch.FloatTensor 的 shape 为 (batch_size, sequence_length, hidden_size), 可选)— 可以直接传递嵌入表示,而不是传递 input_ids。这在您想要比模型内部嵌入查找矩阵有更多控制权如何将 input_ids 索引转换为相关向量时很有用。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
  • labels (torch.LongTensor of shape (batch_size, sequence_length), 可选) — 用于计算token分类损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。

返回值

transformers.modeling_outputs.TokenClassifierOutputtuple(torch.FloatTensor)

A transformers.modeling_outputs.TokenClassifierOutput 或一个包含 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False )根据配置(MobileBertConfig)和输入的配置。

  • loss (torch.FloatTensor of shape (1,), 可选, 当提供 labels 时返回) — 分类损失。

  • logits (torch.FloatTensor of shape (batch_size, sequence_length, config.num_labels)) — 分类分数(在SoftMax之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

    每个层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

MobileBertForTokenClassification 前向方法覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MobileBertForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("mrm8488/mobilebert-finetuned-ner")
>>> model = MobileBertForTokenClassification.from_pretrained("mrm8488/mobilebert-finetuned-ner")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
['I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'I-LOC', 'O', 'I-LOC', 'I-LOC']

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.03

MobileBertForQuestionAnswering

transformers.MobileBertForQuestionAnswering

< >

( config )

参数

  • 配置 (MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化时不会加载与模型关联的权重,只有配置。请查阅 from_pretrained() 方法来加载模型权重。

MobileBert 模型,在顶部带有 Span 分类头部,用于 SQuAD (如抽取式问答任务) 等任务(在隐藏状态输出之上的线性层,用于计算 span start logitsspan end logits)。

此模型继承自PreTrainedModel。查看超类文档,了解库为所有模型实现的一般方法(例如下载或保存,调整输入 embedding,剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 的子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与一般使用和行为相关的事项。

前进

< >

( input_ids: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None start_positions: 可选 = None end_positions: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 输入序列tokenizer的索引。

    索引可以通过 AutoTokenizer 获取。详细请参考 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入ID?

  • attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免对填充标记索引执行注意力的掩码。选择在[0, 1]中的掩码值:

    • 1表示未被掩码的标记,
    • 0表示被掩码的标记。

    什么是注意力掩码?

  • token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 段标记索引以表示输入的第一个和第二个部分。选择在[0, 1]中的索引:

    • 0对应于《句子A》标记,
    • 1对应于《句子B》标记。

    什么是标记类型ID?

  • position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的索引。选择在[0, config.max_position_embeddings - 1]范围内的值。

    什么是位置ID?

  • head_mask (torch.FloatTensor 形状为 (num_heads,)(num_layers, num_heads)可选 ) — 用于取消自我注意力模块选中头部的掩码。掩码值在 [0, 1] 之间:

    • 1 表示头部 未掩码
    • 0 表示头部 已掩码
  • inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)可选 ) — 可选地,您可以直接传递嵌入式表示,而无需传递 input_ids。如果想要比模型内部的嵌入查找矩阵有更多控制权,使其能够将 input_ids 索引转换为相关向量,这很有用。
  • output_attentions (bool可选 ) — 是否返回所有注意力层的张量。请参阅返回张量下的 attentions 获取更多详细信息。
  • output_hidden_states (布尔值,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (布尔值,可选) — 是否返回 ModelOutput 而不是普通元组。
  • start_positions (形状为 (batch_size,)torch.LongTensor,可选) — 标记的跨度起始位置(索引)的标签,以计算标记分类损失。位置限制为序列长度(sequence_length)。序列之外的地址不计入损失计算。
  • end_positions (torch.LongTensor 形状为 (batch_size,)可选) — 标记的跨度末尾位置(索引)的标签,用于计算标记分类损失。位置被限制在序列长度(sequence_length)内。序列之外的位置在计算损失时不考虑。

返回值

transformers.modeling_outputs.QuestionAnsweringModelOutputtuple(torch.FloatTensor)

A transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个 torch余万元浮点数(32-bit float) 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),其包含的元素取决于配置(MobileBertConfig)和输入。

  • loss (torch.FloatTensor 形状为 (1,)可选,当提供 labels 时返回) — 总跨度提取损失是开始和结束位置交叉熵的总和。

  • start_logits (torch.FloatTensor 形状为 (batch_size, sequence_length)) — 跨度开始得分(在 SoftMax 之前)。

  • end_logits (torch.FloatTensor 形状为 (batch_size, sequence_length)) — 跨度结束得分(在 SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 一个 torch.FloatTensor 元组(如果模型有一个嵌入层,则包括嵌入层的输出,每个层都有一个输出)的元组,形状为 (batch_size, sequence_length, hidden_size)

    每个层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, returned when output_attentions=True is passed or when config.output_attentions=True) — 一个形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每个层一个)。

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

MobileBertForQuestionAnswering 前向方法,覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, MobileBertForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("csarron/mobilebert-uncased-squad-v2")
>>> model = MobileBertForQuestionAnswering.from_pretrained("csarron/mobilebert-uncased-squad-v2")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens, skip_special_tokens=True)
'a nice puppet'

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([12])
>>> target_end_index = torch.tensor([13])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
>>> round(loss.item(), 2)
3.98
TensorFlow
隐藏 TensorFlow 内容

TFMobileBertModel

class transformers.TFMobileBertModel

< >

( config *inputs **kwargs )

参数

  • config (MobileBertConfig) — 模型配置类,包含所有模型参数。使用配置文件初始化不会加载模型相关的权重,只有配置。检查 from_pretrained() 方法以加载模型权重。

仅输出原始隐藏状态的MobileBert模型转换器,没有顶部的任何特定头部。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingtuple(tf.Tensor)

参数

  • input_ids (Numpy arraytf.Tensor,形状为 (batch_size, sequence_length)) — 词汇表中的输入序列标记索引。

    使用 AutoTokenizer 可获得索引。有关详细信息,请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()
  • attention_mask (Numpy arraytf.Tensor,形状为 (batch_size, sequence_length)可选) — 用于避免对填充标记索引执行注意力的掩码。掩码值选择在 [0, 1] 中:

    • 1 表示 未掩码 的标记,
    • 0 表示 掩码 的标记。

    什么是注意力掩码?

  • token_type_ids (Numpy arraytf.Tensor,形状为 (batch_size, sequence_length)可选) — 段标记索引,用于指示输入的第一和第二部分。索引选择在 [0, 1] 中:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (Numpy数组tf.Tensor 形状 (batch_size, sequence_length)可选) — 每个输入序列令牌在位置嵌入中的位置索引。选择范围 [0, config.max_position_embeddings - 1]

    什么是位置ID?

  • head_mask (Numpy数组tf.Tensor 形状 (num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值选择在 [0, 1] 范围内:

    • 1 表示头没有 屏蔽
    • 0 表示头已 屏蔽
  • inputs_embeds (tf.Tensor 形状 (batch_size, sequence_length, hidden_size)可选) — 可以选择直接传递嵌入表示,而不是传递 input_ids。这对于您想要比模型内部嵌入查找矩阵有更多控制权,将 input_ids 索引转换为相关向量非常有用。
  • output_attentions布尔值可选)— 是否返回所有注意力层的注意力张量。请参阅返回的张量中的 attentions 获取更多详细信息。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。
  • output_hidden_states布尔值可选)— 是否返回所有层的隐藏状态。请参阅返回的张量中的 hidden_states 获取更多详细信息。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。
  • return_dict布尔值可选)— 是否返回 ModelOutput 而不是普通的元组。此参数可以在 eager 模式下使用,在 graph 模式下默认设置为 True。
  • training (bool, optional, defaults to False) — Whether or not to use the model in training mode (some modules like dropout modules have different behaviors between training and evaluation).

返回值

transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling or tuple(tf.Tensor)

A transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling or a tuple of tf.Tensor (if return_dict=False is passed or when config.return_dict=False) comprising various elements depending on the configuration (MobileBertConfig) and inputs.

  • last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — Sequence of hidden-states at the output of the last layer of the model.

  • pooler_output (tf.Tensor of shape (batch_size, hidden_size)) — Last layer hidden-state of the first token of the sequence (classification token) further processed by a Linear layer and a Tanh activation function. The Linear layer weights are trained from the next sentence prediction (classification) objective during pretraining.

    This output is usually not a good summary of the semantic content of the input, you’re often better with averaging or pooling the sequence of hidden-states for the whole input sequence.

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertModel forward 方法重写了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, TFMobileBertModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertModel.from_pretrained("google/mobilebert-uncased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFMobileBertForPreTraining

transformers.TFMobileBertForPreTraining

< >

( config *inputs **kwargs )

参数

  • config (MobileBertConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,而只加载配置。请查阅 from_pretrained() 方法以加载模型权重。

顶部分为两个头的MobileBert模型,与预训练期间的做法相同:一个是掩码语言建模头,另一个是下一个句子预测(分类)头。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None next_sentence_label: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy array or tf.Tensor of shape (batch_size, sequence_length)) — 输入序列中词元的词汇索引。

    索引可以通过使用 AutoTokenizer 获得。

  • attention_maskNumpy arraytf.Tensor 形状为 (batch_size, sequence_length)可选)— 用于防止对填充标记索引执行注意力的掩码。掩码值在 [0, 1] 中选择:

    • 对于未屏蔽的标记,值为 1,
    • 对于屏蔽的标记,值为 0。

    什么是注意力掩码?

  • token_type_idsNumpy arraytf.Tensor 形状为 (batch_size, sequence_length)可选)— 段标记索引,用于指示输入的两个部分。索引在 [0, 1] 中选择:

    • 0 对应于句子 A 标记,
    • 1 对应于句子 B 标记。

    什么是标记类型 ID?

  • position_idsNumpy arraytf.Tensor 形状为 (batch_size, sequence_length)可选)— 每个输入序列标记在位置嵌入中的索引。选择范围 [0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask (Numpy arraytf.Tensor 形状为 (num_heads,)(num_layers, num_heads)可选) — 用于禁用自注意力模块中选定的头部掩码。掩码值选择在 [0, 1]

    • 1 表示头部 未掩码
    • 0 表示头部 掩码
  • inputs_embeds (tf.Tensor 形状为 (batch_size, sequence_length, hidden_size)可选) — 除此之外,您可以选择直接传递嵌入表示而不是 input_ids。这在您想要比模型内部的嵌入查找矩阵有更多控制权如何将 input_ids 索引转换为相关向量时非常有用。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详情,请参阅返回张量中的 attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。请参阅返回的张量下的 hidden_states 以获取更多详细信息。此参数只能在 eager 模式下使用,在图形模式下将使用配置中的值。
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是简单的元组。此参数可以在 eager 模式下使用,在图形模式下将总是设置为 True。
  • training (bool, 可选, 默认为 False) — 是否将模型用于训练模式(某些模块,例如 dropout 模块,在训练和评估之间具有不同的行为)。

返回值

transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutputtuple(tf.Tensor)

transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput 或一个 tf.Tensor 的元组(如果在 return_dict=False 被传递或当 config.return_dict=False 时),它根据配置(MobileBertConfig)和输入包含各种元素。

  • prediction_logits (tf.Tensor,形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头的预测分数(在 SoftMax 之前的词汇表 token 的分数)。

  • seq_relationship_logits (tf.Tensor 的形状为 (batch_size, 2)) — 下一个序列预测(分类)头的预测分数(在 SoftMax 之前的 True/False 继续分数)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertForPreTraining 的 forward 方法,覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFMobileBertForPreTraining

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForPreTraining.from_pretrained("google/mobilebert-uncased")
>>> input_ids = tf.constant(tokenizer.encode("Hello, my dog is cute"))[None, :]  # Batch size 1
>>> outputs = model(input_ids)
>>> prediction_scores, seq_relationship_scores = outputs[:2]

TFMobileBertForMaskedLM

transformers.TFMobileBertForMaskedLM

< >

( config *inputs **kwargs )

参数

  • 配置 (MobileBertConfig) — 包含所有模型参数的模型配置类。使用配置文件初始化时不加载模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。

在顶部带有 语言建模 头的 MobileBert 模型。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) transformers.modeling_tf_outputs.TFMaskedLMOutput or tuple(tf.Tensor)

参数

  • input_idsNumpy 数组tf.Tensor 形状 (batch_size, sequence_length)) — 输入序列标记的词汇索引。

    可以通过使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    什么是输入 ID?

  • attention_maskNumpy 数组tf.Tensor 形状 (batch_size, sequence_length)可选) — 避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 之间选择:

    • 1 代表 非掩码 标记,
    • 0 代表 掩码 标记。

    什么是注意力掩码?

  • token_type_idsNumpy 数组tf.Tensor 形状 (batch_size, sequence_length)可选) — 段标记索引以指示输入的第一和第二部分。索引在 [0, 1] 之间选择:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_idsNumpy arraytf.Tensor 尺寸为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 内选择。

    位置ID是什么?

  • head_maskNumpy arraytf.Tensor 尺寸为 (num_heads,)(num_layers, num_heads)可选) — 用于屏蔽自我注意力模块选定头的屏蔽。屏蔽值在 [0, 1] 范围内:

    • 1 表示头未屏蔽,
    • 0 表示头已屏蔽。
  • inputs_embedstf.Tensor 尺寸为 (batch_size, sequence_length, hidden_size)可选) — 可以直接传递嵌入表示而不是传递 input_ids。如果您想比模型内部嵌入查找矩阵有更多控制权如何将 input_ids 索引转换为相关向量,这将非常有用。
  • output_attentionsbool可选) —— 是否返回所有注意力层的注意力张量。有关更详细的描述,请参阅返回张量下的attentions。此参数仅在即时模式中使用,在图形模式 下将使用配置中的值。
  • output_hidden_statesbool可选) —— 是否返回所有层的隐藏状态。有关更详细的描述,请参阅返回张量下的hidden_states。此参数仅在即时模式中使用,在图形模式下将使用配置中的值。
  • return_dictbool可选) —— 是否返回一个ModelOutput,而不是一个纯元组。此参数可在即时模式中使用,在图形模式下此值始终设置为True。
  • training (bool可选,默认为False)— 是否使用训练模式下的模型(一些模块,如dropout模块,在训练和评估时有不同的行为)。
  • labelstf.Tensor,形状为(batch_size, sequence_length)可选)— 用于计算掩码语言建模损失的标签。索引应位于[-100, 0, ..., config.vocab_size](参见input_ids API 文档)具有索引设置为-100的标记将被忽略(掩码),损失仅针对有标签的标记计算。

返回值

transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)

A transformers.modeling_tf_outputs.TFMaskedLMOutput 或包含多种元素的 tf.Tensor 元组的 tuple(如果传递了 return_dict=False 或当 config.return_dict=False 时),这取决于配置(MobileBertConfig)和输入。

  • losstf.Tensor,形状为(n,)可选,其中 n 是非掩码标签的数量,当提供了labels时返回)— 掩码语言建模(MLM)损失。

  • logitstf.Tensor,形状为(batch_size, sequence_length, config.vocab_size))— 语言建模头部的预测分数(SoftMax之前的每个词汇标记的分数)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertForMaskedLM forward 方法,覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, TFMobileBertForMaskedLM
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForMaskedLM.from_pretrained("google/mobilebert-uncased")

>>> inputs = tokenizer("The capital of France is [MASK].", return_tensors="tf")
>>> logits = model(**inputs).logits

>>> # retrieve index of [MASK]
>>> mask_token_index = tf.where((inputs.input_ids == tokenizer.mask_token_id)[0])
>>> selected_logits = tf.gather_nd(logits[0], indices=mask_token_index)

>>> predicted_token_id = tf.math.argmax(selected_logits, axis=-1)
>>> tokenizer.decode(predicted_token_id)
'paris'
>>> labels = tokenizer("The capital of France is Paris.", return_tensors="tf")["input_ids"]
>>> # mask labels of non-[MASK] tokens
>>> labels = tf.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)

>>> outputs = model(**inputs, labels=labels)
>>> round(float(outputs.loss), 2)
0.57

TFMobileBertForNextSentencePrediction

transformers.TFMobileBertForNextSentencePrediction

< >

( config *inputs **kwargs )

参数

  • 配置 [MobileBertConfig] — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。

顶部带有 下一句预测(分类) 头的MobileBert模型。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: numpy.ndarray | tf.Tensor | None = None token_type_ids: numpy.ndarray | tf.Tensor | None = None position_ids: numpy.ndarray | tf.Tensor | None = None head_mask: numpy.ndarray | tf.Tensor | None = None inputs_embeds: numpy.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None next_sentence_label: numpy.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) transformers.modeling_tf_outputs.TFNextSentencePredictorOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy arraytf.Tensor 形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    索引可以通过 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    什么是输入 ID?

  • attention_mask (Numpy arraytf.Tensor 形状为 (batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意机制的掩码。掩码值选择在 [0, 1] 之间:

    • 1 代表未掩码的标记,
    • 0 代表已掩码的标记。

    什么是注意掩码?

  • token_type_ids (Numpy arraytf.Tensor 形状为 (batch_size, sequence_length)可选) — 用于指示输入的第一个和第二部分的段标记索引。索引选择在 [0, 1] 之间:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (Numpy arraytf.Tensor 形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的索引。选择范围在 [0, config.max_position_embeddings - 1] 之间。

    什么是位置 ID?

  • head_maskNumpy数组或形状为(num_heads,)(num_layers, num_heads)tf.Tensor可选) —掩码以使自注意力模块中选定的头无效。掩码值在[0, 1]中选择:

    • 1表示该头未掩码
    • 0表示该头已掩码
  • inputs_embeds (形状为(batch_size, sequence_length, hidden_size)tf.Tensor可选) — 也可以选择直接传入嵌入表示,而不是传入input_ids。当你想要比模型内部嵌入查找矩阵有更多控制权来转换input_ids索引到对应的向量时,这很有用。
  • output_attentionsbool可选) — 是否返回所有注意力层的注意力张量。有关返回张量的详细信息,请参阅更多关于“attentions”的内容。此参数只能在eager模式中使用,在graph模式中,将使用配置中的值。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。请参阅返回张量中的 hidden_states 以获取更多详情。此参数仅可在急切模式中使用,在图模式中,将使用配置中的值。
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是普通的元组。此参数仅在急切模式中使用,在图模式中,其值始终设置为 True。
  • training (bool, 可选, 默认为 False) — 是否以训练模式使用模型(如 dropout 模块等模块在训练和评估之间有不同的行为)。

返回值

transformers.modeling_tf_outputs.TFNextSentencePredictorOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFNextSentencePredictorOutput 或一个由 tf.Tensor 元组组成的元组(如果传递了 return_dict=Falseconfig.return_dict=False),包含根据配置(MobileBertConfig)和输入依赖的多个元素。

  • 损失 (tf.Tensor 形状为 (n,)可选,其中 n 为非掩码标签的数量,当提供 next_sentence_label 时返回) — 下一个句子预测损失。

  • logits (tf.Tensor 形状为 (batch_size, 2)) — 下一个序列预测(分类)头的预测分数(SoftMax之前的True/False续写分数)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertForNextSentencePrediction 的 forward 方法重写了 __call__ 特殊方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFMobileBertForNextSentencePrediction

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForNextSentencePrediction.from_pretrained("google/mobilebert-uncased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> next_sentence = "The sky is blue due to the shorter wavelength of blue light."
>>> encoding = tokenizer(prompt, next_sentence, return_tensors="tf")

>>> logits = model(encoding["input_ids"], token_type_ids=encoding["token_type_ids"])[0]

TFMobileBertForSequenceClassification

transformers.TFMobileBertForSequenceClassification

< >

( config *inputs **kwargs )

参数

  • config (MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载模型相关联的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。

MobileBert模型,在序列分类/回归头部(在池化输出顶部的线性层)上,例如用于GLUE任务。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) transformers.modeling_tf_outputs.TFSequenceClassifierOutputtuple(tf.Tensor)

参数

  • input_ids (Numpy 数组tf.Tensor 形状为 (batch_size, sequence_length)) — 输入序列的词汇中的标记索引。

    可以通过使用 AutoTokenizer 获得这些索引。有关详细信息,请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    输入 ID 是什么?

  • attention_mask (Numpy 数组tf.Tensor 形状为 (batch_size, sequence_length)可选) — 避免在填充标记索引上执行注意力的掩码。掩码的值选择的为 [0, 1]:

    • 1表示 token 未被 mask 过
    • 0表示 token 被 mask 过

    注意掩码是什么?

  • token_type_ids (Numpy 数组tf.Tensor 形状为 (batch_size, sequence_length)可选) — 段标记索引,用来指示输入的第一部分和第二部分。索引在 [0, 1] 中选择:

    • 0对应于 句子 A token
    • 1对应于 句子 B token

    标记类型 ID 是什么?

  • position_idsNumpy 数组tf.Tensor 形状为 (batch_size, sequence_length)可选) — 每个输入序列令牌在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]
  • head_maskNumpy 数组tf.Tensor 形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消选择自注意力模块所选头的掩码。掩码值在 [0, 1] 范围内:
    • 1 表示头未被 掩码
    • 0 表示头被 掩码
  • inputs_embedstf.Tensor 形状为 (batch_size, sequence_length, hidden_size)可选) — 可选择不传递 input_ids,而直接传递嵌入表示。如果您需要比模型的内部嵌入查找矩阵更多的控制,将 input_ids 索引转换为相关向量时,这种方法很有用。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量之下的 attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更详细的说明,请参阅返回的张量下的 hidden_states。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。
  • return_dict (bool, 可选) — 是否以 ModelOutput 的形式返回,而不是普通的元组。此参数可以在 eager 模式下使用,在 graph 模式下此值始终设置为 True。
  • training (bool, optional, defaults to False) — Whether or not to use the model in training mode (some modules like dropout modules have different behaviors between training and evaluation).
  • labels (tf.Tensor of shape (batch_size,), optional) — Labels for computing the sequence classification/regression loss. Indices should be in [0, ..., config.num_labels - 1]. If config.num_labels == 1 a regression loss is computed (Mean-Square loss), If config.num_labels > 1 a classification loss is computed (Cross-Entropy).

返回值

transformers.modeling_tf_outputs.TFSequenceClassifierOutput or tuple(tf.Tensor)

A transformers.modeling_tf_outputs.TFSequenceClassifierOutput or a tuple of tf.Tensor (if return_dict=False is passed or when config.return_dict=False) comprising various elements depending on the configuration (MobileBertConfig) and inputs.

  • loss (tf.Tensor of shape (batch_size, ), optional, returned when labels is provided) — Classification (or regression if config.num_labels==1) loss.

  • logits (tf.Tensor of shape (batch_size, config.num_labels)) — Classification (or regression if config.num_labels==1) scores (before SoftMax).

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

The TFMobileBertForSequenceClassification forward method, overrides the __call__ special method.

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, TFMobileBertForSequenceClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/emo-mobilebert")
>>> model = TFMobileBertForSequenceClassification.from_pretrained("vumichien/emo-mobilebert")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")

>>> logits = model(**inputs).logits

>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
>>> model.config.id2label[predicted_class_id]
'others'
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFMobileBertForSequenceClassification.from_pretrained("vumichien/emo-mobilebert", num_labels=num_labels)

>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss
>>> round(float(loss), 2)
4.72

TFMobileBertForMultipleChoice

class transformers.TFMobileBertForMultipleChoice

< >

( config *inputs **kwargs )

参数

  • config (MobileBertConfig) — 模型配置类,包含所有模型参数。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。请查看 from_pretrained() 方法以加载模型权重。

在顶部添加了多个选择分类头(在池化输出之上的一层线性层和softmax)的MobileBert模型,例如用于RocStories/SWAG任务。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy arraytf.Tensor 形状为 (batch_size, num_choices, sequence_length)) — 输入序列词汇中的输入序列标记索引。

    可以使用 AutoTokenizer 获取索引。请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode() 了解详细信息。

    什么是输入ID?

  • attention_mask (Numpy arraytf.Tensor 形状 (batch_size, num_choices, sequence_length)可选)— 避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1]

    • 1 对于 未掩码 的标记,
    • 0 对于 已掩码 的标记。

    什么是注意力掩码?

  • token_type_ids (Numpy arraytf.Tensor 形状 (batch_size, num_choices, sequence_length)可选)— 指示输入的第一部分和第二部分的段标记索引。索引选择在 [0, 1]

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (Numpy arraytf.Tensor 形状 (batch_size, num_choices, sequence_length)可选)— 每个输入序列标记在位置嵌入中的索引。选择在范围 [0, config.max_position_embeddings - 1] 内。

    什么是位置 ID?

  • head_mask (Numpy arraytf.Tensor 形状为 (num_heads,)(num_layers, num_heads)可选) —— 用于取消对自注意力模块选择头部的掩码。掩码值选择在 [0, 1] 范围内:

    • 1 表示头部未被 掩码
    • 0 表示头部被 掩码
  • inputs_embeds (tf.Tensor 形状为 (batch_size, num_choices, sequence_length, hidden_size)可选) —— 可以选择直接传递嵌入表示,而不是传递 input_ids。这样做可以在将 input_ids 指数转换为相关向量方面比模型内部嵌入查找矩阵有更多的控制。
  • output_attentions (bool可选) —— 是否返回所有注意力层的注意力张量。有关返回张量下的详细信息,请参阅 attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。详细信息请参见返回张量中的 hidden_states。此参数只能在急切模式下使用,在图模式下将使用配置中设置的值。
  • return_dict (bool, 可选) — 是否返回一个模型输出而不是一个普通元组。此参数可以在急切模式下使用,在图模式下,该值始终设置为True。
  • training (bool, 可选, 默认为False) — 是否使用模型进行training模式(例如,dropout模块在training和evaluation模式间的行为可能不同)。
  • labels (tf.Tensor of shape (batch_size,), optional) — 用于计算多选题分类损失的标签。索引应在 [0, ..., num_choices] 中,其中 num_choices 是输入张量第二维的大小。(参见上方的 input_ids

返回值

transformers.modeling_tf_outputs.TFMultipleChoiceModelOutputtuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFMultipleChoiceModelOutputtf.Tensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False),根据配置(MobileBertConfig)和输入决定所包含的各种元素。

  • loss (tf.Tensor of shape (batch_size, ), optional, 当提供 labels 时返回) — 分类损失。

  • logits (tf.Tensor of shape (batch_size, num_choices)) — num_choices 是输入张量的第二维。(参见上方的 input_ids

    分类得分(在 SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertForMultipleChoice 的前向方法覆盖了特殊方法 __call__

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, TFMobileBertForMultipleChoice
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForMultipleChoice.from_pretrained("google/mobilebert-uncased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."

>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="tf", padding=True)
>>> inputs = {k: tf.expand_dims(v, 0) for k, v in encoding.items()}
>>> outputs = model(inputs)  # batch size is 1

>>> # the linear classifier still needs to be trained
>>> logits = outputs.logits

TFMobileBertForTokenClassification

transformers.TFMobileBertForTokenClassification

< >

( config *inputs **kwargs )

参数

  • configMobileBertConfig)—— 包含所有模型参数的模型配置类。使用配置文件初始化时,不会加载与模型关联的权重,只会加载配置。请查看from_pretrained()方法以加载模型权重。

在MobileBert模型顶部带有标记分类头(在hidden-states输出上面的线性层),例如用于命名实体识别(NER)任务。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: 可选[bool] = None output_hidden_states: 可选[bool] = None return_dict: 可选[bool] = None labels: np.ndarray | tf.Tensor | None = None training: 可选[bool] = False ) transformers.modeling_tf_outputs.TFTokenClassifierOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy数组tf.Tensor 形状为 (batch_size, sequence_length)) — 输入序列的词表中的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    什么是输入ID?

  • attention_maskNumpy数组 或形状为 (batch_size, sequence_length)tf.Tensor可选) — 避免在填充标记索引上执行注意力机制的掩码。掩码值在 [0, 1] 之间选择:

    • 1 表示未 屏蔽 的标记,
    • 0 表示 屏蔽 的标记。

    什么是注意力掩码?

  • token_type_idsNumpy数组 或形状为 (batch_size, sequence_length)tf.Tensor可选) — 标记段索引,用于指示输入的第一部分和第二部分。索引在 [0, 1] 之间选择:

    • 0 对应于 句子A 标记,
    • 1 对应于 句子B 标记。

    什么是标记类型ID?

  • position_idsNumpy数组 或形状为 (batch_size, sequence_length)tf.Tensor可选) — 每个输入序列标记的位置索引。范围在 [0, config.max_position_embeddings - 1] 内选择。

    什么是位置ID?

  • head_mask (Numpy arraytf.Tensor 的形状为 (num_heads,)(num_layers, num_heads)可选 )— 用于禁用自注意力模块中的选定头部的掩码。掩码值选择在 [0, 1]

    • 1 表示头部 未掩码
    • 0 表示头部 掩码
  • inputs_embeds (tf.Tensor 的形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,您可以直接传递一个嵌入表示,而不是传递 input_ids。如果您想要比模型内部的嵌入查找矩阵有更多的控制权,将 input_ids 索引转换为相关向量,这种做法很有用。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的 attentions。此参数只能在使用 eager 模式时使用,在 graph 模式下将使用配置中的值。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回张量下的 hidden_states。此参数只能在急切模式下使用,在图模式下将使用配置中的值。
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而非普通元组。此参数可以在急切模式下使用,在图模式下此值始终为 True。
  • training (bool, 可选,默认为 False) — 是否使用模型进行训练模式(一些模块如 dropout 模块在不同训练和评估模式间有不同的行为)。
  • labels (可选,形状为(batch_size, sequence_length)tf.Tensor)- 用于计算Token分类损失的标记标签。索引应在[0, ..., config.num_labels - 1]范围内。

返回值

transformers.modeling_tf_outputs.TFTokenClassifierOutput或者tuple(tf.Tensor)

A transformers.modeling_tf_outputs.TFTokenClassifierOutput 或者一个由各种元素组成的tf.Tensor元组(如果传递了return_dict=False或者config.return_dict=False)这取决于配置(MobileBertConfig)和输入。

  • loss(当提供labels时返回,形状为(n,)tf.Tensor,其中n是未掩码标签的数量,为可选参数)- 分类损失。

  • logits(形状为(batch_size, sequence_length, config.num_labels)tf.Tensor)- 分类分数(在SoftMax之前)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertForTokenClassification的前向方法覆盖了特殊的__call__方法。

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, TFMobileBertForTokenClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/mobilebert-finetuned-ner")
>>> model = TFMobileBertForTokenClassification.from_pretrained("vumichien/mobilebert-finetuned-ner")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="tf"
... )

>>> logits = model(**inputs).logits
>>> predicted_token_class_ids = tf.math.argmax(logits, axis=-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t] for t in predicted_token_class_ids[0].numpy().tolist()]
>>> predicted_tokens_classes
['I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'I-LOC', 'O', 'I-LOC', 'I-LOC']
>>> labels = predicted_token_class_ids
>>> loss = tf.math.reduce_mean(model(**inputs, labels=labels).loss)
>>> round(float(loss), 2)
0.03

TFMobileBertForQuestionAnswering

transformers.TFMobileBertForQuestionAnswering

< >

( config *inputs **kwargs )

参数

  • config (MobileBertConfig) —— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。请参阅from_pretrained()方法来加载模型权重。

MobileBert 模型,在顶部带有 Span 分类头部,用于 SQuAD (如抽取式问答任务) 等任务(在隐藏状态输出之上的线性层,用于计算 span start logitsspan end logits)。

此模型继承自 TFPreTrainedModel。检查超类文档了解库实现的全局模型方法(例如下载或保存、调整输入嵌入层大小、剪枝头部等)。

此模型也是 keras.Model 的子类。可以将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有通用使用和行为相关内容。

TensorFlow 模型在 transformers 中接受两种输入格式

  • 所有输入作为关键字参数(类似于 PyTorch 模型)

所有输入作为第一个位置参数的列表、元组或字典。

  • 仅包含 input_ids 的单个 Tensor,不含其他任何内容:model(input_ids)
  • 长度可变的列表,包含一个或多个按文档字符串中的顺序提供的输入 Tensor:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])
  • 包含一个或多个与文档字符串中提供的输入名称关联的输入 Tensor 的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

注意:当通过 类继承 创建模型和层时,你无需担心这些问题,因为你可以像调用其他任何 Python 函数一样传递输入!

调用

< >

( input_ids: TF模型输入类型 | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: bool可选 = None output_hidden_states: bool可选 = None return_dict: bool可选 = None start_positions: np.ndarray | tf.Tensor | None = None end_positions: np.ndarray | tf.Tensor | None = None training: bool可选 = False ) transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy数组tf.Tensor 形状为 (batch_size, sequence_length)) — 输入序列标记在词汇表中的索引。

    索引可以通过使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.call()PreTrainedTokenizer.encode()

    输入ID是什么?

  • head_mask(《Numpy数组》或形状为 (num_heads,)(num_layers, num_heads) 的《tf.Tensor》,可选)— 用于取消激活自注意力模块选中的头部的掩码。掩码值选择在 [0, 1]

    • 1 表示头部 未掩码
    • 0 表示头部 已掩码
  • inputs_embeds(《tf.Tensor》,形状为 (batch_size, sequence_length, hidden_size)可选)— 可以选择直接传递嵌入表示,而不是传递 input_ids。当您想比模型的内部嵌入查找矩阵有更多控制权来将 input_ids 索引转换为关联向量时,这很有用。
  • output_attentions(《bool》类型,《em>可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的《attentions》。此参数只能在急切模式下使用,在图模式中,将使用配置中的值。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。关于返回张量中的 hidden_states 的详细信息,请参阅。此参数只能在激励模式下使用,在图模式下将使用配置中的值。
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。此参数可以在激励模式下使用,在图模式下该值始终为 True。
  • training (bool, 可选, 默认为False) — 是否在训练模式下使用模型(例如,dropout 模块在训练和评估之间存在不同的行为)。
  • start_positions (tf.Tensor形式为(batch_size,)可选) — 标记的起始跨度位置的标签,用于计算标记化分类损失。位置被夹紧到序列长度(sequence_length)。序列外部的位置在计算损失时不被考虑。
  • end_positions (tf.Tensor形式为(batch_size,)可选) — 标记的结束跨度位置的标签,用于计算标记化分类损失。位置被夹紧到序列长度(sequence_length)。序列外部的位置在计算损失时不被考虑。

返回值

transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutputtuple(tf.Tensor)

A transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或一个tf.Tensor元组(如果传递了return_dict=False,或者当config.return_dict=False时),根据配置(MobileBertConfig)和输入包含各种元素。

  • loss (tf.Tensor形式为(batch_size, )可选,在提供start_positionsend_positions时返回) — 总跨度提取损失是起始和结束位置的交叉熵之和。

  • start_logits (tf.Tensor形式为(batch_size, sequence_length)) — 跨度起始分数(SoftMax之前)。

  • end_logits (tf.Tensor形式为(batch_size, sequence_length)) — 跨度结束分数(SoftMax之前)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of tf.Tensor (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size).

    模型的每层输出和初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of tf.Tensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length).

    注意力softmax之后的注意力权重,用于在自注意力头中计算加权平均值。

TFMobileBertForQuestionAnswering的前向方法,重写了特殊方法__call__

尽管前向传递的配方需要在这个函数中定义,但在调用后应使用Module实例而不是这个,因为前者会负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, TFMobileBertForQuestionAnswering
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/mobilebert-uncased-squad-v2")
>>> model = TFMobileBertForQuestionAnswering.from_pretrained("vumichien/mobilebert-uncased-squad-v2")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="tf")
>>> outputs = model(**inputs)

>>> answer_start_index = int(tf.math.argmax(outputs.start_logits, axis=-1)[0])
>>> answer_end_index = int(tf.math.argmax(outputs.end_logits, axis=-1)[0])

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens)
'a nice puppet'
>>> # target is "nice puppet"
>>> target_start_index = tf.constant([12])
>>> target_end_index = tf.constant([13])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = tf.math.reduce_mean(outputs.loss)
>>> round(float(loss), 2)
3.98
< > 更新 在GitHub上