LayoutLM
概述
LayoutLM 模型在论文 LayoutLM: 文档图像理解的文本和版式预训练 中提出,作者为徐逸恒、李明浩、崔磊、黄少涵、魏福如和周明。它是一种简单但有效的文本和版式预训练方法,用于文档图像理解和信息提取任务,例如表单理解和收据理解。它在几个下游任务中获得了最先进的结果
- 表单理解: FUNSD 数据集(包含超过 30,000 个单词的 199 个带注释的表单)。
- 收据理解: SROIE 数据集(626 个用于训练和 347 个用于测试的收据)。
- 文档图像分类: RVL-CDIP 数据集(400,000 张图像,属于 16 个类别之一)。
论文摘要如下
近年来,预训练技术已在各种 NLP 任务中得到成功验证。尽管预训练模型被广泛用于 NLP 应用,但它们几乎完全集中在文本级别操作,而忽略了版式和样式信息,而这些信息对于文档图像理解至关重要。在本文中,我们提出了 LayoutLM,它共同建模扫描文档图像中文本和版式信息之间的交互,这对大量现实世界的文档图像理解任务(例如从扫描文档中提取信息)很有帮助。此外,我们还利用图像特征将单词的视觉信息融入 LayoutLM。据我们所知,这是第一次在单一框架中联合学习文本和版式以进行文档级别的预训练。它在几个下游任务中取得了新的最先进结果,包括表单理解(从 70.72 到 79.27)、收据理解(从 94.02 到 95.24)和文档图像分类(从 93.07 到 94.42)。
使用技巧
- 除了 input_ids,forward() 还需要输入
bbox
,即输入标记的边界框(即二维位置)。这些可以使用外部 OCR 引擎获得,例如谷歌的 Tesseract(有 Python 包装器 可用)。每个边界框应采用 (x0, y0, x1, y1) 格式,其中 (x0, y0) 对应边界框左上角的位置,(x1, y1) 表示右下角的位置。请注意,首先需要将边界框归一化为 0-1000 比例。要归一化,您可以使用以下函数
def normalize_bbox(bbox, width, height):
return [
int(1000 * (bbox[0] / width)),
int(1000 * (bbox[1] / height)),
int(1000 * (bbox[2] / width)),
int(1000 * (bbox[3] / height)),
]
这里,width
和 height
分别对应于标记出现时原始文档的宽度和高度。例如,可以使用 Python 图像库 (PIL) 库获得这些值,如下所示
from PIL import Image
# Document can be a png, jpg, etc. PDFs must be converted to images.
image = Image.open(name_of_your_document).convert("RGB")
width, height = image.size
资源
一些官方 Hugging Face 和社区(以 🌎 表示)资源,可以帮助您开始使用 LayoutLM。如果您有兴趣提交要包含在此处的资源,请随时打开一个拉取请求,我们将审核它!理想情况下,该资源应该展示一些新内容,而不是重复现有资源。
关于 使用 Keras 和 Hugging Face Transformers 对 LayoutLM 进行微调以用于文档理解 的博文。
关于如何 仅使用 Hugging Face Transformers 对 LayoutLM 进行微调以用于文档理解 的博文。
关于如何 在 FUNSD 数据集上使用图像嵌入对 LayoutLM 进行微调 的笔记本。
另请参阅: 文档问答任务指南
- 关于如何 在 RVL-CDIP 数据集上对 LayoutLM 进行微调以进行序列分类 的笔记本。
- 文本分类任务指南
- 关于如何 在 FUNSD 数据集上对 LayoutLM 进行微调以进行令牌分类 的笔记本。
- 令牌分类任务指南
其他资源
🚀 部署
- 关于如何 使用 Hugging Face 推理端点部署 LayoutLM 的博文。
LayoutLMConfig
class transformers.LayoutLMConfig
< source >( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 position_embedding_type = 'absolute' use_cache = True max_2d_position_embeddings = 1024 **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 30522) — LayoutLM 模型的词表大小。定义了可由传递给 LayoutLMModel 正向方法的 inputs_ids 表示的不同词元。 - hidden_size (
int
, 可选, 默认为 768) — 编码器层和池化层的维度。 - num_hidden_layers (
int
, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。 - num_attention_heads (
int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。 - intermediate_size (
int
, 可选, 默认为 3072) — Transformer 编码器中“中间”(即前馈)层的维度。 - hidden_act (
str
或function
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可选, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
- max_position_embeddings (
int
, 可选, 默认为 512) — 此模型可能使用的最大序列长度。 通常将其设置为一个较大的值以防万一(例如,512 或 1024 或 2048)。 - type_vocab_size (
int
, 可选, 默认为 2) — 传递到 LayoutLMModel 的token_type_ids
的词汇量。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化的标准差。 - layer_norm_eps (
float
, 可选, 默认为 1e-12) — 层归一化层使用的epsilon。 - pad_token_id (
int
, 可选, 默认为 0) — 用于填充 input_ids 的值。 - position_embedding_type (
str
, 可选, 默认为"absolute"
) — 位置嵌入的类型。 选择"absolute"
、"relative_key"
、"relative_key_query"
之一。 对于位置嵌入,使用"absolute"
。 有关"relative_key"
的更多信息,请参阅 Self-Attention with Relative Position Representations (Shaw 等人)。 有关"relative_key_query"
的更多信息,请参阅 Improve Transformer Models with Better Relative Position Embeddings (Huang 等人) 中的“方法 4”。 - use_cache (
bool
, 可选, 默认为True
) — 模型是否应该返回最后的键/值注意力(并非所有模型都使用)。 仅在config.is_decoder=True
时相关。 - max_2d_position_embeddings (
int
, 可选, 默认为 1024) — 2D 位置嵌入可能使用的最大值。 通常将其设置为一个较大的值以防万一(例如,1024)。
这是用于存储 LayoutLMModel 配置的配置类。 它用于根据指定的参数实例化 LayoutLM 模型,定义模型架构。 使用默认值实例化配置将产生类似于 LayoutLM microsoft/layoutlm-base-uncased 架构的配置。
配置对象继承自 BertConfig 并且可以用于控制模型输出。 阅读 BertConfig 的文档以了解更多信息。
示例
>>> from transformers import LayoutLMConfig, LayoutLMModel
>>> # Initializing a LayoutLM configuration
>>> configuration = LayoutLMConfig()
>>> # Initializing a model (with random weights) from the configuration
>>> model = LayoutLMModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
LayoutLMTokenizer
class transformers.LayoutLMTokenizer
< ( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )参数
- vocab_file (
str
) — 包含词汇表的檔案。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否在分词时将输入转换为小写。 - do_basic_tokenize (
bool
, optional, defaults toTrue
) — 是否在 WordPiece 之前进行基本分词。 - never_split (
Iterable
, optional) — 在分词时永远不会被拆分的标记集合。仅当do_basic_tokenize=True
时有效。 - unk_token (
str
, optional, defaults to"[UNK]"
) — 未知标记。词汇表中没有的标记无法转换为 ID,而是设置为该标记。 - sep_token (
str
, optional, defaults to"[SEP]"
) — 分隔符标记,用于从多个序列构建序列,例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, optional, defaults to"[PAD]"
) — 用于填充的标记,例如在批处理不同长度的序列时。 - cls_token (
str
, optional, defaults to"[CLS]"
) — 分类标记,用于进行序列分类(整个序列的分类,而不是每个标记的分类)。它是在使用特殊标记构建时序列的第一个标记。 - mask_token (
str
, optional, defaults to"[MASK]"
) — 用于掩盖值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
构建一个 LayoutLM 分词器。基于 WordPiece。
此分词器继承自 PreTrainedTokenizer,其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source > ( token_ids_0: List token_ids_1: Optional = None ) → List[int]
通过连接和添加特殊标记,从序列或序列对构建用于序列分类任务的模型输入。LayoutLM 序列具有以下格式
- 单个序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
将一系列标记(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< source > ( token_ids_0: List token_ids_1: Optional = None ) → List[int]
从传递的两个序列中创建一个掩码,用于序列对分类任务。LayoutLM 序列
如果token_ids_1
为None
,此方法仅返回掩码的第一部分(0s)。
get_special_tokens_mask
< source > ( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊令牌的令牌列表中检索序列 ID。当使用分词器 prepare_for_model
方法添加特殊令牌时,将调用此方法。
LayoutLMTokenizerFast
class transformers.LayoutLMTokenizerFast
< 源代码 >( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文本文件。 - do_lower_case (
bool
, 可选, 默认为True
) — 在分词时是否将输入小写。 - unk_token (
str
, 可选, 默认为"[UNK]"
) — 未知令牌。词汇表中不存在的令牌无法转换为 ID,而是设置为此令牌。 - sep_token (
str
, optional, defaults to"[SEP]"
) — 用于从多个序列构建序列时的分隔符标记,例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, optional, defaults to"[PAD]"
) — 用于填充的标记,例如在对不同长度的序列进行批处理时。 - cls_token (
str
, optional, defaults to"[CLS]"
) — 当进行序列分类(对整个序列进行分类,而不是对每个标记进行分类)时使用的分类器标记。它是使用特殊标记构建的序列的第一个标记。 - mask_token (
str
, optional, defaults to"[MASK]"
) — 用于掩盖值的标记。这是在使用掩盖语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 - clean_text (
bool
, optional, defaults toTrue
) — 是否在分词前清理文本,方法是移除所有控制字符并将所有空格替换为经典空格。 - tokenize_chinese_chars (
bool
, optional, defaults toTrue
) — 是否对汉字进行分词。对于日语,这可能需要禁用(参见 此问题)。 - strip_accents (
bool
, optional) — 是否剥离所有重音符号。如果未指定此选项,则将由lowercase
的值确定(如原始 LayoutLM 中)。 - wordpieces_prefix (
str
, optional, defaults to"##"
) — 子词的前缀。
构建一个“快速”LayoutLM分词器(由 HuggingFace 的 tokenizers 库支持)。基于 WordPiece。
此分词器继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< 源代码 > ( token_ids_0 token_ids_1 = None ) → List[int]
通过连接和添加特殊标记,从序列或序列对构建用于序列分类任务的模型输入。LayoutLM 序列具有以下格式
- 单个序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
create_token_type_ids_from_sequences
< source > ( token_ids_0: List token_ids_1: Optional = None ) → List[int]
从传递的两个序列中创建一个掩码,用于序列对分类任务。LayoutLM 序列
如果token_ids_1
为None
,此方法仅返回掩码的第一部分(0s)。
LayoutLMModel
class transformers.LayoutLMModel
< source >( config )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。
基本的 LayoutLM 模型转换器,输出原始隐藏状态,顶部没有任何特定头部。LayoutLM 模型在 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 由 Yiheng Xu、Minghao Li、Lei Cui、Shaohan Huang、Furu Wei 和 Ming Zhou 提出。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: Optional = None bbox: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列词元的词典索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
形状为(batch_size, sequence_length, 4)
, 可选) — 每个输入序列词元的边界框。选择范围为[0, config.max_2d_position_embeddings-1]
。每个边界框都应该是 (x0, y0, x1, y1) 格式的规范化版本,其中 (x0, y0) 对应于边界框左上角的位置,(x1, y1) 表示右下角的位置。有关规范化,请参阅 概述。 - attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 掩码,以避免对填充词元索引执行注意力。掩码值选择范围为[0, 1]
:1
表示未掩码的词元,0
表示掩码词元。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 分段词元索引,指示输入的第一部分和第二部分。索引选择范围为[0, 1]
:0
对应于句子 A 词元,1
对应于句子 B 词元 - position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 位置嵌入中每个输入序列词元位置的索引。选择范围为[0, config.max_position_embeddings - 1]
。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码,以使自注意力模块的选定头部无效。掩码值选择范围为[0, 1]
:1
表示头部未掩码,0
表示头部已掩码。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids 索引转换为关联向量(而不是模型的内部嵌入查找矩阵)有更多控制,这将很有用。 - output_attentions (
bool
, 可选) — 如果设置为True
,则返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 如果设置为True
,则返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 如果设置为True
,模型将返回 ModelOutput 而不是一个简单的元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或 torch.FloatTensor
的元组(如果传递了 return_dict=False
或者当 config.return_dict=False
时),包含根据配置 (LayoutLMConfig) 和输入的不同元素。
-
last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层的输出处的隐藏状态序列。 -
pooler_output (
torch.FloatTensor
形状为(batch_size, hidden_size)
) — 序列第一个标记(分类标记)的最后一层隐藏状态,经过用于辅助预训练任务的层的进一步处理。例如,对于 BERT 家族的模型,这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层权重是在预训练期间从下一个句子预测(分类)目标训练的。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型具有嵌入层,+ 一个用于每一层的输出)形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,当传递了output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可选,当传递了output_attentions=True
和config.add_cross_attention=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
past_key_values (
tuple(tuple(torch.FloatTensor))
, 可选,当传递了use_cache=True
或config.use_cache=True
时返回) —tuple(torch.FloatTensor)
的元组,长度为config.n_layers
,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
) 的张量,并且可选地,如果config.is_encoder_decoder=True
,则包含 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的额外张量。包含预先计算的隐藏状态(自注意力块中的键和值,以及可选地,如果
config.is_encoder_decoder=True
,则包含交叉注意力块中的键和值),可以用于(参见past_key_values
输入)加速顺序解码。
The LayoutLMModel 正向方法覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoTokenizer, LayoutLMModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMModel.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])
>>> outputs = model(
... input_ids=input_ids, bbox=bbox, attention_mask=attention_mask, token_type_ids=token_type_ids
... )
>>> last_hidden_states = outputs.last_hidden_state
LayoutLMForMaskedLM
class transformers.LayoutLMForMaskedLM
< 来源 >( config )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。
具有 语言建模
头的 LayoutLM 模型。LayoutLM 模型在 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 中由徐亦衡、李明浩、崔磊、黄少涵、魏福如和周明提出。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< 来源 > ( input_ids: 可选 = None bbox: 可选 = None attention_mask: 可选 = None token_type_ids: 可选 = None position_ids: 可选 = None head_mask: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None encoder_hidden_states: 可选 = None encoder_attention_mask: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列token在词汇表中的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
形状为(batch_size, sequence_length, 4)
, 可选) — 每个输入序列token的边界框。选择范围为[0, config.max_2d_position_embeddings-1]
。每个边界框都应该是(x0, y0, x1, y1)格式的归一化版本,其中(x0, y0)对应于边界框左上角的位置,(x1, y1)代表右下角的位置。有关归一化,请参阅概述。 - attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 掩码,用于避免对填充token索引执行注意力。掩码值选择范围为[0, 1]
:1
表示未掩码的token,0
表示掩码的token。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 段token索引,用于指示输入的第一部分和第二部分。索引选择范围为[0, 1]
:0
对应于一个 sentence A token,1
对应于一个 sentence B token - position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 每个输入序列token在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]
. - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码,用于使自注意力模块的选定头部无效。掩码值选择范围为[0, 1]
:1
表示头部 未掩码,0
表示头部 掩码。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将 input_ids 索引转换为相关向量比模型的内部嵌入查找矩阵具有更多控制权,这将非常有用。 - output_attentions (
bool
, 可选) — 如果设置为True
,则返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 如果设置为True
,则返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 如果设置为True
,则模型将返回一个 ModelOutput 而不是简单的元组。 - labels (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
中(参见input_ids
文档字符串)索引设置为-100
的标记将被忽略(掩码),损失仅针对标签在[0, ..., config.vocab_size]
中的标记计算。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.MaskedLMOutput 或 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含取决于配置 (LayoutLMConfig) 和输入的各种元素。
-
loss (
torch.FloatTensor
形状为(1,)
, 可选, 当提供labels
时返回) — 掩码语言建模 (MLM) 损失。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型具有嵌入层,+ 一个用于每一层的输出)形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,当传递了output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The LayoutLMForMaskedLM 正向方法,覆盖 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoTokenizer, LayoutLMForMaskedLM
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMForMaskedLM.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "[MASK]"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])
>>> labels = tokenizer("Hello world", return_tensors="pt")["input_ids"]
>>> outputs = model(
... input_ids=input_ids,
... bbox=bbox,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=labels,
... )
>>> loss = outputs.loss
LayoutLMForSequenceClassification
class transformers.LayoutLMForSequenceClassification
< source >( config )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。
具有序列分类头的 LayoutLM 模型(在池化输出之上添加线性层),例如用于文档图像分类任务,例如 RVL-CDIP 数据集。
LayoutLM 模型在 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 中提出,作者是 Yiheng Xu、Minghao Li、Lei Cui、Shaohan Huang、Furu Wei 和 Ming Zhou。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: Optional = None bbox: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列 token 的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
形状为(batch_size, sequence_length, 4)
, 可选) — 每个输入序列 token 的边界框。在范围[0, config.max_2d_position_embeddings-1]
内选择。每个边界框应该是 (x0, y0, x1, y1) 格式的标准化版本,其中 (x0, y0) 对应于边界框中左上角的位置,(x1, y1) 表示右下角的位置。有关规范化,请参见 概述。 - attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 用于避免对填充 token 索引执行注意力的掩码。在[0, 1]
内选择掩码值:1
表示未掩码的 token,0
表示掩码的 token。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 段 token 索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
内选择:0
对应于句子 A token,1
对应于句子 B token - position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 位置嵌入中每个输入序列 token 的位置索引。在范围[0, config.max_position_embeddings - 1]
内选择。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块的选定头无效的掩码。在[0, 1]
内选择掩码值:1
表示头**未被掩码**,0
表示头**被掩码**。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids 索引转换为关联向量(而不是模型的内部嵌入查找矩阵)有更多控制,这将非常有用。 - output_attentions (
bool
, 可选) — 如果设置为True
,则返回所有注意力层的注意力张量。有关详细信息,请参见返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 如果设置为True
,则返回所有层的隐藏状态。有关详细信息,请参见返回张量下的hidden_states
。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.SequenceClassifierOutput 或 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置 (LayoutLMConfig) 和输入的不同元素。
-
loss (
torch.FloatTensor
形状为(1,)
,可选,当提供labels
时返回) — 分类(或如果 config.num_labels==1 则为回归)损失。 -
logits (
torch.FloatTensor
形状为(batch_size, config.num_labels)
) — 分类(或如果 config.num_labels==1 则为回归)分数(在 SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型具有嵌入层,+ 一个用于每一层的输出)形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,当传递了output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The LayoutLMForSequenceClassification 正向方法,覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoTokenizer, LayoutLMForSequenceClassification
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMForSequenceClassification.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])
>>> sequence_label = torch.tensor([1])
>>> outputs = model(
... input_ids=input_ids,
... bbox=bbox,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=sequence_label,
... )
>>> loss = outputs.loss
>>> logits = outputs.logits
LayoutLMForTokenClassification
class transformers.LayoutLMForTokenClassification
< source >( config )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
具有顶层标记分类头的 LayoutLM 模型(隐藏状态输出顶部的线性层),例如用于序列标注(信息提取)任务,如 FUNSD 数据集和 SROIE 数据集。
LayoutLM 模型在 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 中提出,作者是 Yiheng Xu、Minghao Li、Lei Cui、Shaohan Huang、Furu Wei 和 Ming Zhou。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: Optional = None bbox: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列令牌在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
形状为(batch_size, sequence_length, 4)
,可选) — 每个输入序列令牌的边界框。选择范围为[0, config.max_2d_position_embeddings-1]
。每个边界框都应该是 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框左上角的位置,(x1, y1) 表示右下角的位置。有关归一化的信息,请参见 概述。 - attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 用于避免在填充令牌索引上执行注意力的掩码。掩码值选择在[0, 1]
中:1
表示未被掩码的令牌,0
表示被掩码的令牌。 - token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 段令牌索引,用于指示输入的第一部分和第二部分。索引选择在[0, 1]
中:0
对应于句子 A 令牌,1
对应于句子 B 令牌。 - position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 输入序列令牌在位置嵌入中的位置索引。选择在范围[0, config.max_position_embeddings - 1]
中。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]
中:1
表示头部未被掩码,0
表示头部被掩码。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入式表示,而不是传递input_ids
。如果您希望对如何将input_ids 索引转换为关联的向量(比模型的内部嵌入查找矩阵更精确)有更多控制权,这将很有用。 - output_attentions (
bool
,可选) — 如果设置为True
,将返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 如果设置为True
,将返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
,可选) — 如果设置为True
,模型将返回 ModelOutput 而不是普通元组。 - labels (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 用于计算令牌分类损失的标签。索引应在[0, ..., config.num_labels - 1]
中。
返回
transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LayoutLMConfig) 和输入。
-
loss (
torch.FloatTensor
形状为(1,)
,可选,在提供labels
时返回) — 分类损失。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.num_labels)
) — 分类得分(在 SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型具有嵌入层,+ 一个用于每一层的输出)形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,当传递了output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The LayoutLMForTokenClassification 前向方法覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoTokenizer, LayoutLMForTokenClassification
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])
>>> token_labels = torch.tensor([1, 1, 0, 0]).unsqueeze(0) # batch size of 1
>>> outputs = model(
... input_ids=input_ids,
... bbox=bbox,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=token_labels,
... )
>>> loss = outputs.loss
>>> logits = outputs.logits
LayoutLMForQuestionAnswering
class transformers.LayoutLMForQuestionAnswering
< source >( config has_visual_segment_embedding = True )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法加载模型权重。
LayoutLM 模型,在顶部添加了跨度分类头,用于提取式问答任务,如 DocVQA(在最终隐藏状态输出之上添加一个线性层,用于计算span start logits
和 span end logits
)。
LayoutLM 模型在 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 中提出,作者是 Yiheng Xu、Minghao Li、Lei Cui、Shaohan Huang、Furu Wei 和 Ming Zhou。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: Optional = None bbox: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)
返回
transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LayoutLMConfig) 和输入。
-
loss (
torch.FloatTensor
形状为(1,)
,可选,当提供labels
时返回) — 总跨度提取损失是开始和结束位置交叉熵的总和。 -
start_logits (
torch.FloatTensor
形状为(batch_size, sequence_length)
) — 跨度开始得分(在 SoftMax 之前)。 -
end_logits (
torch.FloatTensor
形状为(batch_size, sequence_length)
) — 跨度结束得分(在 SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型具有嵌入层,+ 一个用于每一层的输出)形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,当传递了output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
start_positions (torch.LongTensor
形状为 (batch_size,)
,可选): 用于计算令牌分类损失的标记跨度的开始位置(索引)的标签。 位置被限制到序列长度 (sequence_length
)。 序列之外的位置不会被考虑用于计算损失。 end_positions (torch.LongTensor
形状为 (batch_size,)
,可选): 用于计算令牌分类损失的标记跨度的结束位置(索引)的标签。 位置被限制到序列长度 (sequence_length
)。 序列之外的位置不会被考虑用于计算损失。
示例
在下面的示例中,我们为 LayoutLM 模型准备了一个问题 + 上下文对。 它会给出它认为答案是什么的预测(从图像解析的文本中答案跨度的范围)。
>>> from transformers import AutoTokenizer, LayoutLMForQuestionAnswering
>>> from datasets import load_dataset
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("impira/layoutlm-document-qa", add_prefix_space=True)
>>> model = LayoutLMForQuestionAnswering.from_pretrained("impira/layoutlm-document-qa", revision="1e3ebac")
>>> dataset = load_dataset("nielsr/funsd", split="train", trust_remote_code=True)
>>> example = dataset[0]
>>> question = "what's his name?"
>>> words = example["words"]
>>> boxes = example["bboxes"]
>>> encoding = tokenizer(
... question.split(), words, is_split_into_words=True, return_token_type_ids=True, return_tensors="pt"
... )
>>> bbox = []
>>> for i, s, w in zip(encoding.input_ids[0], encoding.sequence_ids(0), encoding.word_ids(0)):
... if s == 1:
... bbox.append(boxes[w])
... elif i == tokenizer.sep_token_id:
... bbox.append([1000] * 4)
... else:
... bbox.append([0] * 4)
>>> encoding["bbox"] = torch.tensor([bbox])
>>> word_ids = encoding.word_ids(0)
>>> outputs = model(**encoding)
>>> loss = outputs.loss
>>> start_scores = outputs.start_logits
>>> end_scores = outputs.end_logits
>>> start, end = word_ids[start_scores.argmax(-1)], word_ids[end_scores.argmax(-1)]
>>> print(" ".join(words[start : end + 1]))
M. Hamann P. Harper, P. Martinez
TFLayoutLMModel
class transformers.TFLayoutLMModel
< source >( config: LayoutLMConfig *inputs **kwargs )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。 用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法来加载模型权重。
LayoutLM 模型的裸 Transformer,输出原始隐藏状态,没有任何特定的头部。
此模型继承自 TFPreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 keras.Model 子类。 将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有事项。
transformers
中的 TensorFlow 模型和层接受两种格式作为输入
- 将所有输入作为关键字参数(类似 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。 由于这种支持,当使用 model.fit()
等方法时,事情应该“正常工作” - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可! 但是,如果你想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,你可以使用三种可能性来收集第一个位置参数中的所有输入张量
- 单个仅包含
input_ids
的张量,没有其他内容:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个输入张量,按照 docstring 中给出的顺序排列:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中一个或多个输入张量与 docstring 中给出的输入名称相关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,你不必担心任何这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 源代码 > ( input_ids: TFModelInputType | None = None bbox: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None encoder_hidden_states: np.ndarray | tf.Tensor | None = None encoder_attention_mask: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions 或 tuple(tf.Tensor)
参数
- input_ids (
Numpy 数组
或tf.Tensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。 查看 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode() 了解详情。
- bbox (
Numpy 数组
或tf.Tensor
,形状为(batch_size, sequence_length, 4)
,可选) — 每个输入序列标记的边界框。 在[0, config.max_2d_position_embeddings- 1]
范围内选择。 - attention_mask (
Numpy 数组
或tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 掩码,用于避免对填充标记索引执行注意力。 掩码值在[0, 1]
中选择:- 1 表示未屏蔽的标记,
- 0 表示已屏蔽的标记。
- token_type_ids (
Numpy 数组
或tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 段标记索引,用于指示输入的第一部分和第二部分。 索引在[0, 1]
中选择:- 0 对应于句子 A 标记,
- 1 对应于句子 B 标记。
- position_ids (
Numpy 数组
或tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 位置嵌入中每个输入序列标记的位置索引。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (
Numpy 数组
或tf.Tensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块的选定头部无效的掩码。在[0, 1]
中选择的掩码值:- 1 表示头部未被屏蔽,
- 0 表示头部被屏蔽。
- inputs_embeds (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想比模型的内部嵌入查找矩阵更全面地控制如何将input_ids
索引转换为关联的向量,这将很有用。 - output_attentions (
布尔值
,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
布尔值
,可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
布尔值
,可选) — 是否返回 ModelOutput 而不是普通元组。 - training (
布尔值
,可选,默认为False
) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。
返回
transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions 或一个 tf.Tensor
元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置 (LayoutLMConfig) 和输入的不同元素。
-
last_hidden_state (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出处的隐藏状态序列。 -
pooler_output (
tf.Tensor
形状为(batch_size, hidden_size)
) — 序列第一个标记(分类标记)的最后一层隐藏状态,经过线性层和 Tanh 激活函数进一步处理。线性层权重在预训练期间从下一个句子预测(分类)目标中训练得出。此输出通常不是输入语义内容的良好总结,您通常可以通过对整个输入序列的隐藏状态序列进行平均或池化来获得更好的结果。
-
past_key_values (
List[tf.Tensor]
,可选,在传递use_cache=True
或当config.use_cache=True
时返回) — 长度为config.n_layers
的tf.Tensor
列表,每个张量形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)
).包含预先计算的隐藏状态(注意力块中的键和值),可用于(请参阅
past_key_values
输入)加快顺序解码。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入输出 + 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。每一层输出处的模型隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
该 TFLayoutLMModel 正向方法覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoTokenizer, TFLayoutLMModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMModel.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])
>>> outputs = model(
... input_ids=input_ids, bbox=bbox, attention_mask=attention_mask, token_type_ids=token_type_ids
... )
>>> last_hidden_states = outputs.last_hidden_state
TFLayoutLMForMaskedLM
class transformers.TFLayoutLMForMaskedLM
< source >( config: LayoutLMConfig *inputs **kwargs )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。使用配置文件进行初始化不会加载与模型关联的权重,只会加载配置。查看from_pretrained()方法来加载模型权重。
带有语言建模
头的LayoutLM模型。
此模型继承自 TFPreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 keras.Model 子类。 将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有事项。
transformers
中的 TensorFlow 模型和层接受两种格式作为输入
- 将所有输入作为关键字参数(类似 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。 由于这种支持,当使用 model.fit()
等方法时,事情应该“正常工作” - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可! 但是,如果你想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,你可以使用三种可能性来收集第一个位置参数中的所有输入张量
- 单个仅包含
input_ids
的张量,没有其他内容:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个输入张量,按照 docstring 中给出的顺序排列:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中一个或多个输入张量与 docstring 中给出的输入名称相关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,你不必担心任何这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< source > ( input_ids: TFModelInputType | None = None bbox: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFMaskedLMOutput or tuple(tf.Tensor)
参数
- input_ids (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- bbox (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length, 4)
,可选) — 每个输入序列标记的边界框。在[0, config.max_2d_position_embeddings- 1]
范围内选择。 - attention_mask (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 掩码以避免对填充标记索引执行注意力。掩码值在[0, 1]
中选择:- 1 表示未掩码的标记,
- 0 表示已掩码的标记。
- token_type_ids (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于句子 A 标记,
- 1 对应于句子 B 标记。
- position_ids (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 位置嵌入中每个输入序列标记的位置索引。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (
Numpy array
或tf.Tensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]
中:- 1 表示头部未被掩码
- 0 表示头部被掩码
- inputs_embeds (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想要更多地控制如何将input_ids
索引转换为相关的向量,而不是模型的内部嵌入查找矩阵,这将很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - training (
bool
, 可选, 默认为False
) — 是否以训练模式使用模型(一些模块,如 dropout 模块,在训练和评估之间有不同的行为)。 - labels (
tf.Tensor
或np.ndarray
形状为(batch_size, sequence_length)
, 可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
中(参见input_ids
文档字符串)。索引设置为-100
的标记被忽略(掩码),损失仅针对标签在[0, ..., config.vocab_size]
中的标记计算。
返回
transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFMaskedLMOutput 或一个 tf.Tensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含取决于配置 (LayoutLMConfig) 和输入的不同元素。
-
loss (
tf.Tensor
形状为(n,)
, 可选, 其中 n 是非掩码标签的数量, 当提供labels
时返回) — 掩码语言建模 (MLM) 损失。 -
logits (
tf.Tensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入输出 + 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。每一层输出处的模型隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The TFLayoutLMForMaskedLM forward method, overrides the __call__
special method.
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoTokenizer, TFLayoutLMForMaskedLM
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMForMaskedLM.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "[MASK]"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])
>>> labels = tokenizer("Hello world", return_tensors="tf")["input_ids"]
>>> outputs = model(
... input_ids=input_ids,
... bbox=bbox,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=labels,
... )
>>> loss = outputs.loss
TFLayoutLMForSequenceClassification
class transformers.TFLayoutLMForSequenceClassification
< source >( config: LayoutLMConfig *inputs **kwargs )
TFLayoutLMForTokenClassification
class transformers.TFLayoutLMForTokenClassification
< 源代码 >( config: LayoutLMConfig *inputs **kwargs )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
带有令牌分类头的 LayoutLM 模型(隐藏状态输出之上的线性层),例如用于命名实体识别 (NER) 任务。
此模型继承自 TFPreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 keras.Model 子类。 将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有事项。
transformers
中的 TensorFlow 模型和层接受两种格式作为输入
- 将所有输入作为关键字参数(类似 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。 由于这种支持,当使用 model.fit()
等方法时,事情应该“正常工作” - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可! 但是,如果你想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,你可以使用三种可能性来收集第一个位置参数中的所有输入张量
- 单个仅包含
input_ids
的张量,没有其他内容:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个输入张量,按照 docstring 中给出的顺序排列:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中一个或多个输入张量与 docstring 中给出的输入名称相关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,你不必担心任何这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< 源代码 > ( input_ids: TFModelInputType | None = None bbox: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tuple(tf.Tensor)
参数
- input_ids (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode() 。
- bbox (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length, 4)
, 可选) — 每个输入序列标记的边界框。在[0, config.max_2d_position_embeddings- 1]
范围内选择。 - attention_mask (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 掩码以避免对填充标记索引执行注意力。掩码值在[0, 1]
中选择:- 1 表示未屏蔽的标记
- 0 表示屏蔽的标记
- token_type_ids (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 段标记索引以指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于句子 A 标记
- 1 对应于句子 B 标记
- position_ids (
Numpy array
或tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 位置嵌入中每个输入序列标记的位置索引。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (
Numpy array
或tf.Tensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码以使自注意力模块的选定头部无效。掩码值在[0, 1]
中选择:- 1 表示未屏蔽的头部
- 0 表示屏蔽的头部
- inputs_embeds (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,而不是传递input_ids
,您可以选择直接传递嵌入式表示。如果您希望对如何将input_ids
索引转换为关联向量(而不是模型的内部嵌入查找矩阵)有更多控制权,这将很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。 - training (
bool
, 可选,默认为False
) — 是否在训练模式下使用模型(某些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。 - labels (
tf.Tensor
或np.ndarray
形状为(batch_size, sequence_length)
,可选) — 用于计算标记分类损失的标签。索引应在[0, ..., config.num_labels - 1]
中。
返回
transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tf.Tensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含取决于配置 (LayoutLMConfig) 和输入的各种元素。
-
loss (
tf.Tensor
形状为(n,)
,可选,当提供labels
时返回) — 分类损失。 -
logits (
tf.Tensor
形状为(batch_size, sequence_length, config.num_labels)
) — 分类分数(在 SoftMax 之前)。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入输出 + 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。每一层输出处的模型隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The TFLayoutLMForTokenClassification 前向方法,覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFLayoutLMForTokenClassification
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")
>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]
>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
... word_tokens = tokenizer.tokenize(word)
... token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]
>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])
>>> token_labels = tf.convert_to_tensor([1, 1, 0, 0])
>>> outputs = model(
... input_ids=input_ids,
... bbox=bbox,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=token_labels,
... )
>>> loss = outputs.loss
>>> logits = outputs.logits
TFLayoutLMForQuestionAnswering
class transformers.TFLayoutLMForQuestionAnswering
< source >( config: LayoutLMConfig *inputs **kwargs )
参数
- config (LayoutLMConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。
LayoutLM 模型,在顶部添加了跨度分类头,用于提取式问答任务,如 DocVQA(在最终隐藏状态输出之上添加一个线性层,用于计算span start logits
和 span end logits
)。
此模型继承自 TFPreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 keras.Model 子类。 将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有事项。
transformers
中的 TensorFlow 模型和层接受两种格式作为输入
- 将所有输入作为关键字参数(类似 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。 由于这种支持,当使用 model.fit()
等方法时,事情应该“正常工作” - 只需以 model.fit()
支持的任何格式传递你的输入和标签即可! 但是,如果你想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,你可以使用三种可能性来收集第一个位置参数中的所有输入张量
- 单个仅包含
input_ids
的张量,没有其他内容:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个输入张量,按照 docstring 中给出的顺序排列:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中一个或多个输入张量与 docstring 中给出的输入名称相关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,你不必担心任何这些问题,因为你可以像传递给任何其他 Python 函数一样传递输入!
调用
< source > ( input_ids: TFModelInputType | None = None bbox: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None start_positions: np.ndarray | tf.Tensor | None = None end_positions: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput or tuple(tf.Tensor)
参数
- input_ids (
Numpy 数组
或tf.Tensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- bbox (
Numpy 数组
或tf.Tensor
形状为(batch_size, sequence_length, 4)
, 可选) — 每个输入序列标记的边界框。在[0, config.max_2d_position_embeddings- 1]
范围内选择。 - attention_mask (
Numpy 数组
或tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 避免对填充标记索引执行注意的掩码。在[0, 1]
中选择掩码值:- 1 表示未屏蔽的标记,
- 0 表示屏蔽的标记。
- token_type_ids (
Numpy 数组
或tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于句子 A 标记,
- 1 对应于句子 B 标记。
- position_ids (
Numpy 数组
或tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 位置嵌入中每个输入序列标记的位置索引。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (
Numpy 数组
或tf.Tensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码,用于使自注意力模块的选定头无效。在[0, 1]
中选择掩码值:- 1 表示头未屏蔽,
- 0 表示头已屏蔽。
- inputs_embeds (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想比模型的内部嵌入查找矩阵更详细地控制如何将input_ids
索引转换为关联的向量,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - training (
bool
, 可选, 默认值为False
) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。 - start_positions (
tf.Tensor
或np.ndarray
形状为(batch_size,)
, 可选) — 用于计算标记分类损失的标记跨度开始位置(索引)的标签。位置被限制在序列的长度(sequence_length
)内。序列之外的位置不计入损失计算。 - end_positions (
tf.Tensor
或np.ndarray
形状为(batch_size,)
, 可选) — 用于计算标记分类损失的标记跨度结束位置(索引)的标签。位置被限制在序列的长度(sequence_length
)内。序列之外的位置不计入损失计算。
返回
transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或 tuple(tf.Tensor)
A transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或 tf.Tensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
)包含取决于配置(LayoutLMConfig)和输入的各种元素。
-
loss (
tf.Tensor
形状为(batch_size, )
, 可选, 当提供start_positions
和end_positions
时返回) — 总跨度提取损失是开始和结束位置的交叉熵之和。 -
start_logits (
tf.Tensor
形状为(batch_size, sequence_length)
) — 跨度开始分数(在 SoftMax 之前)。 -
end_logits (
tf.Tensor
形状为(batch_size, sequence_length)
) — 跨度结束分数(在 SoftMax 之前)。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于嵌入输出 + 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。每一层输出处的模型隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFLayoutLMForQuestionAnswering 前向方法,覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数内定义,但应该在之后调用 Module
实例而不是它,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFLayoutLMForQuestionAnswering
>>> from datasets import load_dataset
>>> tokenizer = AutoTokenizer.from_pretrained("impira/layoutlm-document-qa", add_prefix_space=True)
>>> model = TFLayoutLMForQuestionAnswering.from_pretrained("impira/layoutlm-document-qa", revision="1e3ebac")
>>> dataset = load_dataset("nielsr/funsd", split="train", trust_remote_code=True)
>>> example = dataset[0]
>>> question = "what's his name?"
>>> words = example["words"]
>>> boxes = example["bboxes"]
>>> encoding = tokenizer(
... question.split(), words, is_split_into_words=True, return_token_type_ids=True, return_tensors="tf"
... )
>>> bbox = []
>>> for i, s, w in zip(encoding.input_ids[0], encoding.sequence_ids(0), encoding.word_ids(0)):
... if s == 1:
... bbox.append(boxes[w])
... elif i == tokenizer.sep_token_id:
... bbox.append([1000] * 4)
... else:
... bbox.append([0] * 4)
>>> encoding["bbox"] = tf.convert_to_tensor([bbox])
>>> word_ids = encoding.word_ids(0)
>>> outputs = model(**encoding)
>>> loss = outputs.loss
>>> start_scores = outputs.start_logits
>>> end_scores = outputs.end_logits
>>> start, end = word_ids[tf.math.argmax(start_scores, -1)[0]], word_ids[tf.math.argmax(end_scores, -1)[0]]
>>> print(" ".join(words[start : end + 1]))
M. Hamann P. Harper, P. Martinez