LayoutLM

概述

LayoutLM 模型在 Yiheng Xu、Minghao Li、Lei Cui、Shaohan Huang、Furu Wei 和 Ming Zhou 的论文 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 中提出。它是一种简单而有效的文本和布局预训练方法，用于文档图像理解和信息提取任务，例如表单理解和收据理解。它在以下几个下游任务中获得了最先进的结果：

表单理解：FUNSD 数据集（包含 199 个带注释的表单，超过 30,000 个单词）。
收据理解：SROIE 数据集（包含 626 张用于训练的收据和 347 张用于测试的收据）。
文档图像分类：RVL-CDIP 数据集（包含 400,000 张图像，属于 16 个类别之一）。

论文摘要如下：

近年来，预训练技术已在各种 NLP 任务中成功验证。尽管预训练模型广泛应用于 NLP 应用程序，但它们几乎只关注文本级操作，而忽略了对于文档图像理解至关重要的布局和样式信息。在本文中，我们提出了 LayoutLM，用于联合建模扫描文档图像中文本和布局信息之间的交互，这对于大量的现实世界文档图像理解任务（如从扫描文档中提取信息）非常有利。此外，我们还利用图像特征将单词的视觉信息融入 LayoutLM。据我们所知，这是首次将文本和布局在一个单一框架中联合学习用于文档级预训练。它在多项下游任务中取得了新的最先进结果，包括表单理解（从 70.72 提高到 79.27）、收据理解（从 94.02 提高到 95.24）和文档图像分类（从 93.07 提高到 94.42）。

使用技巧

除了 input_ids，forward() 还期望输入 bbox，它们是输入 token 的边界框（即 2D 位置）。这些可以通过外部 OCR 引擎（如 Google 的 Tesseract，有一个可用的 Python 封装）获得。每个边界框都应采用 (x0, y0, x1, y1) 格式，其中 (x0, y0) 对应于边界框左上角的位置，(x1, y1) 表示右下角的位置。请注意，首先需要将边界框归一化到 0-1000 比例。要进行归一化，可以使用以下函数：

def normalize_bbox(bbox, width, height):
    return [
        int(1000 * (bbox[0] / width)),
        int(1000 * (bbox[1] / height)),
        int(1000 * (bbox[2] / width)),
        int(1000 * (bbox[3] / height)),
    ]

其中，width 和 height 对应于原始文档的宽度和高度，token 位于其中。例如，这些可以使用 Python 图像库 (PIL) 库获得，如下所示：

from PIL import Image

# Document can be a png, jpg, etc. PDFs must be converted to images.
image = Image.open(name_of_your_document).convert("RGB")

width, height = image.size

资源

官方 Hugging Face 和社区（由 🌎 表示）资源列表，帮助您开始使用 LayoutLM。如果您有兴趣提交资源以供此处收录，请随时提出拉取请求，我们将对其进行审查！该资源应理想地展示一些新内容，而不是重复现有资源。

文档问答

关于使用 Keras 和 Hugging Face Transformers 对 LayoutLM 进行文档理解微调的博客文章。
关于仅使用 Hugging Face Transformers 对 LayoutLM 进行文档理解微调的博客文章。
关于使用图像嵌入在 FUNSD 数据集上对 LayoutLM 进行微调的笔记本。
另请参阅：文档问答任务指南

文本分类

关于在 RVL-CDIP 数据集上对 LayoutLM 进行序列分类微调的笔记本。
文本分类任务指南

Token 分类

关于在 FUNSD 数据集上对 LayoutLM 进行 token 分类微调的笔记本。
Token分类任务指南

其他资源

掩码语言建模任务指南

🚀 部署

关于使用 Hugging Face 推理端点部署 LayoutLM的博客文章。

LayoutLMConfig

class transformers.LayoutLMConfig

< 来源 >

( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 position_embedding_type = 'absolute' use_cache = True max_2d_position_embeddings = 1024 **kwargs )

参数

vocab_size (int, 可选, 默认为 30522) — LayoutLM 模型的词汇表大小。定义了可以通过 LayoutLMModel 的 forward 方法传递的 inputs_ids 所能表示的不同 token。
hidden_size (int, 可选, 默认为 768) — 编码器层和池化层的维度。
num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。
intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间”（即前馈）层的维度。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 编码器和池化层中的非线性激活函数（函数或字符串）。如果是字符串，则支持 "gelu"、"relu"、"silu" 和 "gelu_new"。
hidden_dropout_prob (float, 可选, 默认为 0.1) — 嵌入、编码器和池化层中所有全连接层的 dropout 概率。
attention_probs_dropout_prob (float, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。
max_position_embeddings (int, 可选, 默认为 512) — 此模型可能使用的最大序列长度。通常设置为较大值以防万一（例如 512 或 1024 或 2048）。
type_vocab_size (int, 可选, 默认为 2) — 传递给 LayoutLMModel 的 token_type_ids 的词汇表大小。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。
pad_token_id (int, 可选, 默认为 0) — 用于填充 input_ids 的值。
position_embedding_type (str, 可选, 默认为 "absolute") — 位置嵌入的类型。选择 "absolute"、"relative_key"、"relative_key_query" 之一。对于位置嵌入，请使用 "absolute"。有关 "relative_key" 的更多信息，请参阅 Self-Attention with Relative Position Representations (Shaw et al.)。有关 "relative_key_query" 的更多信息，请参阅 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的方法 4。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。仅当 config.is_decoder=True 时相关。
max_2d_position_embeddings (int, 可选, 默认为 1024) — 2D 位置嵌入可能使用的最大值。通常设置为较大值以防万一（例如 1024）。

这是用于存储 LayoutLMModel 配置的配置类。它用于根据指定参数实例化 LayoutLM 模型，定义模型架构。使用默认值实例化配置将产生类似于 LayoutLM microsoft/layoutlm-base-uncased 架构的配置。

配置对象继承自 BertConfig，可用于控制模型输出。有关这些方法的更多信息，请参阅 BertConfig 的文档。

示例

>>> from transformers import LayoutLMConfig, LayoutLMModel

>>> # Initializing a LayoutLM configuration
>>> configuration = LayoutLMConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = LayoutLMModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

LayoutLMTokenizer

class transformers.LayoutLMTokenizer

< 来源 >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )

参数

vocab_file (str) — 包含词汇表的文件。
do_lower_case (bool, 可选, 默认为 True) — 分词时是否将输入小写。
do_basic_tokenize (bool, 可选, 默认为 True) — 是否在 WordPiece 之前进行基本分词。
never_split (Iterable, 可选) — 分词时永不拆分的 token 集合。仅当 do_basic_tokenize=True 时有效。
unk_token (str, 可选, 默认为 "[UNK]") — 未知 token。不在词汇表中的 token 无法转换为 ID，而是设置为此 token。
sep_token (str, 可选, 默认为 "[SEP]") — 分隔符 token，用于从多个序列构建序列时，例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊 token 构建的序列的最后一个 token。
pad_token (str, 可选, 默认为 "[PAD]") — 用于填充的 token，例如在批处理不同长度的序列时。
cls_token (str, 可选, 默认为 "[CLS]") — 分类器 token，用于序列分类（整个序列的分类而不是按 token 分类）。使用特殊 token 构建序列时，它是序列的第一个 token。
mask_token (str, 可选, 默认为 "[MASK]") — 用于掩码值的 token。训练此模型进行掩码语言建模时使用此 token。这是模型将尝试预测的 token。
tokenize_chinese_chars (bool, 可选, 默认为 True) — 是否对中文字符进行分词。

对于日文，这可能需要停用（请参阅此问题）。
strip_accents (bool, 可选) — 是否剥离所有重音符号。如果未指定此选项，则将由 lowercase 的值决定（与原始 LayoutLM 中相同）。
clean_up_tokenization_spaces (bool, 可选, 默认为 True) — 解码后是否清理空格，清理包括删除潜在的伪影，例如多余的空格。

构建 LayoutLM 分词器。基于 WordPiece。

此分词器继承自 PreTrainedTokenizer，其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。

build_inputs_with_special_tokens

< source >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None ) → List[int]

参数

token_ids_0 (List[int]) — 要添加特殊标记的ID列表。
token_ids_1 (List[int], 可选) — 序列对的第二个ID列表。

List[int]

带有适当特殊标记的输入ID列表。

通过连接和添加特殊标记，从一个序列或一对序列构建用于序列分类任务的模型输入。LayoutLM序列的格式如下

单个序列：[CLS] X [SEP]
序列对：[CLS] A [SEP] B [SEP]

convert_tokens_to_string

< source >

( tokens )

将标记序列（字符串）转换为单个字符串。

get_special_tokens_mask

< source >

( token_ids_0: list token_ids_1: typing.Optional[list[int]] = None already_has_special_tokens: bool = False ) → List[int]

参数

token_ids_0 (List[int]) — ID列表。
token_ids_1 (List[int], 可选) — 序列对的第二个ID列表。
already_has_special_tokens (bool, 可选, 默认为 False) — 标记列表是否已按模型特殊标记格式化。

List[int]

一个范围为 [0, 1] 的整数列表：1 表示特殊标记，0 表示序列标记。

从没有添加特殊标记的标记列表中检索序列ID。此方法在使用分词器prepare_for_model方法添加特殊标记时调用。

LayoutLMTokenizerFast

class transformers.LayoutLMTokenizerFast

< source >

( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

vocab_file (str) — 包含词汇表的文件。
do_lower_case (bool, 可选, 默认为 True) — 标记时是否将输入转换为小写。
unk_token (str, 可选, 默认为 "[UNK]") — 未知标记。不在词汇表中的标记不能转换为ID，而会设置为此标记。
sep_token (str, 可选, 默认为 "[SEP]") — 分隔符标记，用于从多个序列构建序列时，例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。
pad_token (str, 可选, 默认为 "[PAD]") — 用于填充的标记，例如在对不同长度的序列进行批处理时。
cls_token (str, 可选, 默认为 "[CLS]") — 分类器标记，用于序列分类（整个序列的分类而非逐标记分类）。使用特殊标记构建序列时，它是序列的第一个标记。
mask_token (str, 可选, 默认为 "[MASK]") — 用于遮盖值的标记。这是使用遮盖语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
clean_text (bool, 可选, 默认为 True) — 是否在标记化之前清理文本，即删除任何控制字符并将所有空白替换为经典空白。
tokenize_chinese_chars (bool, 可选, 默认为 True) — 是否对中文字符进行分词。对于日文，应停用此功能（参见此问题）。
strip_accents (bool, 可选) — 是否去除所有重音符号。如果未指定此选项，则将由 lowercase 的值决定（与原始 LayoutLM 中相同）。
wordpieces_prefix (str, 可选, 默认为 "##") — 子词的前缀。

构造一个“快速”LayoutLM 分词器（由 HuggingFace 的 tokenizers 库支持）。基于 WordPiece。

此分词器继承自 PreTrainedTokenizerFast，其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。

build_inputs_with_special_tokens

< source >

( token_ids_0 token_ids_1 = None ) → List[int]

参数

token_ids_0 (List[int]) — 要添加特殊标记的ID列表。
token_ids_1 (List[int], 可选) — 序列对的第二个ID列表。

List[int]

带有适当特殊标记的输入ID列表。

通过连接和添加特殊标记，从一个序列或一对序列构建用于序列分类任务的模型输入。LayoutLM序列的格式如下

单个序列：[CLS] X [SEP]
序列对：[CLS] A [SEP] B [SEP]

Pytorch

隐藏 Pytorch 内容

LayoutLMModel

class transformers.LayoutLMModel

< source >

( config )

参数

config (LayoutLMModel) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

裸LayoutLM模型，输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与一般用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 词汇表中输入序列标记的索引。默认情况下将忽略填充。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
bbox (torch.LongTensor，形状为 (batch_size, sequence_length, 4)，可选) — 每个输入序列标记的边界框。在 [0, config.max_2d_position_embeddings-1] 范围内选择。每个边界框应为 (x0, y0, x1, y1) 格式的标准化版本，其中 (x0, y0) 对应于边界框左上角的位置，(x1, y1) 表示右下角的位置。请参阅概述了解标准化。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 掩码，用于避免对填充标记索引执行注意力操作。掩码值在 [0, 1] 之间选择：
- 1 表示未遮盖的标记，
- 0 表示已遮盖的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 用于指示输入的第一部分和第二部分的段标记索引。索引在 [0, 1] 之间选择：
- 0 对应于句子 A 标记，
- 1 对应于句子 B 标记。
什么是标记类型 ID？
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。在 [0, config.n_positions - 1] 范围内选择。

什么是位置 ID？
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于将自注意力模块的选定头部置零的掩码。掩码值在 [0, 1] 之间选择：
- 1 表示头部未遮盖，
- 0 表示头部已遮盖。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量（而不是模型内部的嵌入查找矩阵）有更多控制，这很有用。
encoder_hidden_states (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 编码器最后一层输出的隐藏状态序列。如果模型配置为解码器，则用于交叉注意力。
encoder_attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 掩码，用于避免对编码器输入中的填充标记索引执行注意力操作。如果模型配置为解码器，则此掩码用于交叉注意力。掩码值在 [0, 1] 之间选择：
- 1 表示未遮盖的标记，
- 0 表示已遮盖的标记。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False），包含根据配置 (LayoutLMConfig) 和输入的不同元素。

last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
pooler_output (torch.FloatTensor，形状为 (batch_size, hidden_size)) — 序列的第一个标记（分类标记）经过辅助预训练任务所用层进一步处理后的最后一层隐藏状态。例如，对于 BERT 家族模型，这会返回分类标记在经过线性层和 tanh 激活函数处理后的结果。线性层权重在预训练期间通过下一句预测（分类）目标进行训练。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的一个输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 且 config.add_cross_attention=True 时或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
past_key_values (Cache, 可选, 当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块中的键和值，如果 config.is_encoder_decoder=True，则可选地在交叉注意力块中），可用于（参见 past_key_values 输入）加速顺序解码。

LayoutLMModel forward 方法，覆盖 __call__ 特殊方法。

尽管前向传递的配方需要在此函数中定义，但在此之后应调用 Module 实例，而不是此函数，因为前者负责运行预处理和后处理步骤，而后者则会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, LayoutLMModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMModel.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])

>>> outputs = model(
...     input_ids=input_ids, bbox=bbox, attention_mask=attention_mask, token_type_ids=token_type_ids
... )

>>> last_hidden_states = outputs.last_hidden_state

LayoutLMForMaskedLM

class transformers.LayoutLMForMaskedLM

< source >

( config )

参数

config (LayoutLMForMaskedLM) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有“语言建模”头部的LayoutLM模型。”

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与一般用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.MaskedLMOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 输入序列标记在词汇表中的索引。默认情况下，填充将被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是 input IDs？
bbox (torch.LongTensor of shape (batch_size, sequence_length, 4), optional) — 每个输入序列标记的边界框。选择范围为 [0, config.max_2d_position_embeddings-1]。每个边界框都应是 (x0, y0, x1, y1) 格式的归一化版本，其中 (x0, y0) 对应于边界框左上角的位置，(x1, y1) 表示右下角的位置。有关归一化，请参阅概述。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免对填充标记索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的标记，
- 0 表示**被掩码**的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 片段标记索引，用于指示输入的第一个和第二个部分。索引选择范围为 [0, 1]：
- 0 对应于**句子 A** 标记，
- 1 对应于**句子 B** 标记。
什么是标记类型 ID？
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部**未被掩码**，
- 0 表示头部**被掩码**。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，除了传递 input_ids 之外，您还可以选择直接传递嵌入表示。如果您希望对 input_ids 索引如何转换为关联向量拥有比模型内部嵌入查找矩阵更多的控制，这会很有用。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算掩码语言建模损失的标签。索引应在 [-100, 0, ..., config.vocab_size] 范围内（请参阅 input_ids 文档字符串）。索引设置为 -100 的标记将被忽略（掩码），损失仅针对标签在 [0, ..., config.vocab_size] 范围内的标记计算。
encoder_hidden_states (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 编码器最后一层输出的隐藏状态序列。如果模型被配置为解码器，则用于交叉注意力。
encoder_attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在编码器输入填充标记索引上执行注意力操作的掩码。如果模型被配置为解码器，则此掩码用于交叉注意力。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的标记，
- 0 表示**被掩码**的标记。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关详细信息，请参阅返回张量中的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关详细信息，请参阅返回张量中的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MaskedLMOutput 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或 config.return_dict=False），包含根据配置 (LayoutLMConfig) 和输入的不同元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 掩码语言建模 (MLM) 损失。
logits (形状为 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 语言建模头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的一个输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

LayoutLMForMaskedLM 的 forward 方法覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, LayoutLMForMaskedLM
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMForMaskedLM.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "[MASK]"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])

>>> labels = tokenizer("Hello world", return_tensors="pt")["input_ids"]

>>> outputs = model(
...     input_ids=input_ids,
...     bbox=bbox,
...     attention_mask=attention_mask,
...     token_type_ids=token_type_ids,
...     labels=labels,
... )

>>> loss = outputs.loss

LayoutLMForSequenceClassification

class transformers.LayoutLMForSequenceClassification

< source >

( config )

参数

config (LayoutLMForSequenceClassification) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法以加载模型权重。

带有序列分类头（池化输出顶部的线性层）的 LayoutLM 模型，例如用于文档图像分类任务，例如 RVL-CDIP 数据集。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与一般用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 输入序列标记在词汇表中的索引。默认情况下，填充将被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是 input IDs？
bbox (torch.LongTensor of shape (batch_size, sequence_length, 4), optional) — 每个输入序列标记的边界框。选择范围为 [0, config.max_2d_position_embeddings-1]。每个边界框都应是 (x0, y0, x1, y1) 格式的归一化版本，其中 (x0, y0) 对应于边界框左上角的位置，(x1, y1) 表示右下角的位置。有关归一化，请参阅概述。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免对填充标记索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的标记，
- 0 表示**被掩码**的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 片段标记索引，用于指示输入的第一个和第二个部分。索引选择范围为 [0, 1]：
- 0 对应于**句子 A** 标记，
- 1 对应于**句子 B** 标记。
什么是标记类型 ID？
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部**未被掩码**，
- 0 表示头部**被掩码**。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，除了传递 input_ids 之外，您还可以选择直接传递嵌入表示。如果您希望对 input_ids 索引如何转换为关联向量拥有比模型内部嵌入查找矩阵更多的控制，这会很有用。
labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失）；如果 config.num_labels > 1，则计算分类损失（交叉熵损失）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关详细信息，请参阅返回张量中的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关详细信息，请参阅返回张量中的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutput 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或 config.return_dict=False），包含根据配置 (LayoutLMConfig) 和输入的不同元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失（如果 config.num_labels==1，则为回归损失）。
logits (形状为 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分类（如果 config.num_labels==1，则为回归）分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的一个输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

LayoutLMForSequenceClassification 的 forward 方法覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, LayoutLMForSequenceClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMForSequenceClassification.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])
>>> sequence_label = torch.tensor([1])

>>> outputs = model(
...     input_ids=input_ids,
...     bbox=bbox,
...     attention_mask=attention_mask,
...     token_type_ids=token_type_ids,
...     labels=sequence_label,
... )

>>> loss = outputs.loss
>>> logits = outputs.logits

LayoutLMForTokenClassification

class transformers.LayoutLMForTokenClassification

< source >

( config )

参数

config (LayoutLMForTokenClassification) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法以加载模型权重。

带有令牌分类头（隐藏状态输出顶部的线性层）的 LayoutLM 模型，例如用于序列标记（信息提取）任务，例如 FUNSD 数据集和 SROIE 数据集。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与一般用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 输入序列标记在词汇表中的索引。默认情况下，填充将被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是 input IDs？
bbox (torch.LongTensor of shape (batch_size, sequence_length, 4), optional) — 每个输入序列标记的边界框。选择范围为 [0, config.max_2d_position_embeddings-1]。每个边界框都应是 (x0, y0, x1, y1) 格式的归一化版本，其中 (x0, y0) 对应于边界框左上角的位置，(x1, y1) 表示右下角的位置。有关归一化，请参阅概述。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免对填充标记索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示**未被掩码**的标记，
- 0 表示**被掩码**的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 片段标记索引，用于指示输入的第一个和第二个部分。索引选择范围为 [0, 1]：
- 0 对应于**句子 A** 标记，
- 1 对应于**句子 B** 标记。
什么是标记类型 ID？
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部**未被掩码**，
- 0 表示头部**被掩码**。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，除了传递 input_ids 之外，您还可以选择直接传递嵌入表示。如果您希望对 input_ids 索引如何转换为关联向量拥有比模型内部嵌入查找矩阵更多的控制，这会很有用。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算标记分类损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的`attentions`。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的`hidden_states`。
return_dict (bool, 可选) — 是否返回ModelOutput而不是普通元组。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

一个transformers.modeling_outputs.TokenClassifierOutput或一个torch.FloatTensor元组（如果传入return_dict=False或config.return_dict=False），包含根据配置（LayoutLMConfig）和输入的不同元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失。
logits (形状为 (batch_size, sequence_length, config.num_labels) 的 torch.FloatTensor) — 分类分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的一个输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

LayoutLMForTokenClassification的前向方法，覆盖了__call__特殊方法。

示例

>>> from transformers import AutoTokenizer, LayoutLMForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = LayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="pt")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = torch.tensor([token_boxes])
>>> token_labels = torch.tensor([1, 1, 0, 0]).unsqueeze(0)  # batch size of 1

>>> outputs = model(
...     input_ids=input_ids,
...     bbox=bbox,
...     attention_mask=attention_mask,
...     token_type_ids=token_type_ids,
...     labels=token_labels,
... )

>>> loss = outputs.loss
>>> logits = outputs.logits

LayoutLMForQuestionAnswering

class transformers.LayoutLMForQuestionAnswering

< source >

( config has_visual_segment_embedding = True )

参数

config (LayoutLMForQuestionAnswering) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看from_pretrained()方法来加载模型权重。
has_visual_segment_embedding (bool, 可选, 默认为True) — 是否添加视觉分段嵌入。

Layoutlm transformer，顶部带有一个跨度分类头，用于像SQuAD这样的抽取式问答任务（在隐藏状态输出之上有一个线性层来计算`span start logits`和`span end logits`）。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与一般用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None start_positions: typing.Optional[torch.LongTensor] = None end_positions: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为(batch_size, sequence_length)，可选) — 词汇表中输入序列标记的索引。默认情况下，填充将被忽略。

索引可以使用AutoTokenizer获得。有关详细信息，请参阅PreTrainedTokenizer.encode()和PreTrainedTokenizer.call()。

什么是input IDs？
bbox (torch.LongTensor，形状为(batch_size, sequence_length, 4)，可选) — 每个输入序列标记的边界框。选择范围为[0, config.max_2d_position_embeddings-1]。每个边界框应为(x0, y0, x1, y1)格式的归一化版本，其中(x0, y0)对应于边界框左上角的位置，(x1, y1)表示右下角的位置。有关归一化，请参阅概述。
attention_mask (torch.FloatTensor，形状为(batch_size, sequence_length)，可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择范围为[0, 1]：
- 1表示未被掩盖的标记，
- 0表示被掩盖的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor，形状为(batch_size, sequence_length)，可选) — 段标记索引，用于指示输入的第一个和第二个部分。索引选择范围为[0, 1]：
- 0对应于句子A标记，
- 1对应于句子B标记。
什么是token type IDs？
position_ids (torch.LongTensor，形状为(batch_size, sequence_length)，可选) — 输入序列中每个标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。

什么是位置ID？
head_mask (torch.FloatTensor，形状为(num_heads,)或(num_layers, num_heads)，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择范围为[0, 1]：
- 1表示头部未被掩盖，
- 0表示头部被掩盖。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递input_ids。如果你想对如何将input_ids索引转换为相关向量有更多的控制，而不是模型内部的嵌入查找矩阵，这将很有用。
start_positions (torch.LongTensor，形状为(batch_size,)，可选) — 用于计算标记分类损失的标注跨度起始位置（索引）的标签。位置被限制在序列的长度（sequence_length）范围内。序列以外的位置不用于计算损失。
end_positions (torch.LongTensor，形状为(batch_size,)，可选) — 用于计算标记分类损失的标注跨度结束位置（索引）的标签。位置被限制在序列的长度（sequence_length）范围内。序列以外的位置不用于计算损失。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的`attentions`。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的`hidden_states`。
return_dict (bool, 可选) — 是否返回ModelOutput而不是普通元组。

transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)

一个transformers.modeling_outputs.QuestionAnsweringModelOutput或一个torch.FloatTensor元组（如果传入return_dict=False或config.return_dict=False），包含根据配置（LayoutLMConfig）和输入的不同元素。

loss (torch.FloatTensor of shape (1,), 可选, 当提供 labels 时返回) — 总范围提取损失是起始位置和结束位置的交叉熵之和。
start_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 范围起始分数（SoftMax 之前）。
end_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 范围结束分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的一个输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

LayoutLMForQuestionAnswering的前向方法，覆盖了__call__特殊方法。

示例

在以下示例中，我们为LayoutLM模型准备了一个问题+上下文对。它将预测它认为答案是什么（图像中解析文本中的答案范围）。

>>> from transformers import AutoTokenizer, LayoutLMForQuestionAnswering
>>> from datasets import load_dataset
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("impira/layoutlm-document-qa", add_prefix_space=True)
>>> model = LayoutLMForQuestionAnswering.from_pretrained("impira/layoutlm-document-qa", revision="1e3ebac")

>>> dataset = load_dataset("nielsr/funsd", split="train")
>>> example = dataset[0]
>>> question = "what's his name?"
>>> words = example["words"]
>>> boxes = example["bboxes"]

>>> encoding = tokenizer(
...     question.split(), words, is_split_into_words=True, return_token_type_ids=True, return_tensors="pt"
... )
>>> bbox = []
>>> for i, s, w in zip(encoding.input_ids[0], encoding.sequence_ids(0), encoding.word_ids(0)):
...     if s == 1:
...         bbox.append(boxes[w])
...     elif i == tokenizer.sep_token_id:
...         bbox.append([1000] * 4)
...     else:
...         bbox.append([0] * 4)
>>> encoding["bbox"] = torch.tensor([bbox])

>>> word_ids = encoding.word_ids(0)
>>> outputs = model(**encoding)
>>> loss = outputs.loss
>>> start_scores = outputs.start_logits
>>> end_scores = outputs.end_logits
>>> start, end = word_ids[start_scores.argmax(-1)], word_ids[end_scores.argmax(-1)]
>>> print(" ".join(words[start : end + 1]))
M. Hamann P. Harper, P. Martinez

TensorFlow

隐藏 TensorFlow 内容

TFLayoutLMModel

class transformers.TFLayoutLMModel

< source >

( config: LayoutLMConfig *inputs **kwargs )

参数

config (LayoutLMConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看from_pretrained()方法来加载模型权重。

裸LayoutLM模型Transformer，输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自TFPreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是keras.Model的子类。将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

支持第二种格式的原因是，Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持，当使用 `model.fit()` 等方法时，一切都应该“正常工作”——只需以 `model.fit()` 支持的任何格式传递你的输入和标签即可！但是，如果你想在 `fit()` 和 `predict()` 等 Keras 方法之外使用第二种格式，例如在使用 Keras `Functional` API 创建自己的层或模型时，你可以使用三种可能性来收集所有输入张量在第一个位置参数中

只有一个 input_ids 的单个张量，没有其他：model(input_ids)
长度可变的列表，包含一个或多个输入张量，按文档字符串中给出的顺序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心这些，因为你可以像将输入传递给任何其他Python函数一样直接传递输入！

调用

< source >

参数

input_ids (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

索引可以使用AutoTokenizer获得。有关详细信息，请参阅PreTrainedTokenizer.call()和PreTrainedTokenizer.encode()。

什么是input IDs？
bbox (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length, 4)，可选) — 每个输入序列标记的边界框。选择范围为[0, config.max_2d_position_embeddings-1]。
attention_mask (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length)，可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择范围为[0, 1]：
- 1表示未被掩盖的标记，
- 0表示被掩盖的标记。
什么是注意力掩码？
token_type_ids (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length)，可选) — 段标记索引，用于指示输入的第一个和第二个部分。索引选择范围为[0, 1]：
- 0对应于句子A标记，
- 1对应于句子B标记。
什么是token type IDs？
position_ids (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length)，可选) — 输入序列中每个标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。

什么是位置ID？
head_mask (Numpy数组或tf.Tensor，形状为(num_heads,)或(num_layers, num_heads)，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择范围为[0, 1]：
- 1表示头部未被掩盖，
- 0表示头部被掩盖。
inputs_embeds (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递input_ids。如果你想对如何将input_ids索引转换为相关向量有更多的控制，而不是模型内部的嵌入查找矩阵，这将很有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的`attentions`。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的`hidden_states`。
return_dict (bool, 可选) — 是否返回ModelOutput而不是普通元组。
training (bool, 可选, 默认为False) — 是否在训练模式下使用模型（一些模块如dropout模块在训练和评估之间有不同的行为）。

transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions 或 tuple(tf.Tensor)

一个transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions或一个tf.Tensor元组（如果传入return_dict=False或config.return_dict=False），包含根据配置（LayoutLMConfig）和输入的不同元素。

last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
pooler_output (tf.Tensor，形状为(batch_size, hidden_size)) — 序列第一个标记（分类标记）的最后一层隐藏状态，经线性层和Tanh激活函数进一步处理。预训练期间，线性层权重根据下一句预测（分类）目标进行训练。

此输出通常不是输入语义内容的良好摘要，通常最好对整个输入序列的隐藏状态进行平均或池化。
past_key_values (list[tf.Tensor], 可选, 当传入use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head))。

包含预先计算的隐藏状态（注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(tf.Tensor)，可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — tf.Tensor元组（一个用于嵌入输出+一个用于每一层输出），形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传入output_attentions=True或config.output_attentions=True时返回) — tf.Tensor元组（每层一个），形状为(batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(tf.Tensor)，可选，当传入output_attentions=True或config.output_attentions=True时返回) — tf.Tensor元组（每层一个），形状为(batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。

TFLayoutLMModel的前向方法，覆盖了__call__特殊方法。

示例

>>> from transformers import AutoTokenizer, TFLayoutLMModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMModel.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])

>>> outputs = model(
...     input_ids=input_ids, bbox=bbox, attention_mask=attention_mask, token_type_ids=token_type_ids
... )

>>> last_hidden_states = outputs.last_hidden_state

TFLayoutLMForMaskedLM

class transformers.TFLayoutLMForMaskedLM

< source >

( config: LayoutLMConfig *inputs **kwargs )

参数

config (LayoutLMConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看from_pretrained()方法来加载模型权重。

带有`language modeling`头部的LayoutLM模型。

此模型继承自TFPreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是keras.Model的子类。将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

只有一个 input_ids 的单个张量，没有其他：model(input_ids)
长度可变的列表，包含一个或多个输入张量，按文档字符串中给出的顺序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心这些，因为你可以像将输入传递给任何其他Python函数一样直接传递输入！

调用

< source >

参数

input_ids (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

索引可以使用AutoTokenizer获得。有关详细信息，请参阅PreTrainedTokenizer.call()和PreTrainedTokenizer.encode()。

什么是input IDs？
bbox (Numpy数组或tf.Tensor，形状为(batch_size, sequence_length, 4)，可选) — 每个输入序列标记的边界框。选择范围为[0, config.max_2d_position_embeddings-1]。
attention_mask (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免对填充标记索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示标记 **未被掩码**，
- 0 表示标记 **已被掩码**。
什么是注意力掩码？
token_type_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 分段标记索引，用于指示输入的第一部分和第二部分。索引选择范围为 [0, 1]：
- 0 对应于 *句子 A* 标记，
- 1 对应于 *句子 B* 标记。
什么是标记类型 ID？
position_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask (Numpy array 或 tf.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部 **未被掩码**，
- 0 表示头部 **已被掩码**。
inputs_embeds (tf.Tensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传入嵌入表示，而不是传入 input_ids。如果您希望对 input_ids 索引如何转换为相关向量拥有比模型内部嵌入查找矩阵更多的控制权，则此功能非常有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
training (bool, 可选，默认为 False) — 是否在训练模式下使用模型（某些模块，如 dropout 模块在训练和评估之间有不同的行为）。
labels (tf.Tensor 或 np.ndarray，形状为 (batch_size, sequence_length)，可选) — 用于计算掩码语言模型损失的标签。索引应在 [-100, 0, ..., config.vocab_size] 范围内（请参阅 input_ids 文档字符串）。索引设置为 -100 的标记将被忽略（掩码），损失仅针对标签在 [0, ..., config.vocab_size] 范围内的标记计算。

transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFMaskedLMOutput 或一个 tf.Tensor 元组（如果传入 return_dict=False 或当 config.return_dict=False 时），包含根据配置 (LayoutLMConfig) 和输入的不同元素。

loss (tf.Tensor of shape (n,), 可选, 其中 n 是非掩码标签的数量，当提供 labels 时返回) — 掩码语言模型 (MLM) 损失。
logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(tf.Tensor)，可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — tf.Tensor元组（一个用于嵌入输出+一个用于每一层输出），形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传入output_attentions=True或config.output_attentions=True时返回) — tf.Tensor元组（每层一个），形状为(batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFLayoutLMForMaskedLM 的 forward 方法，重写了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, TFLayoutLMForMaskedLM
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMForMaskedLM.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "[MASK]"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])

>>> labels = tokenizer("Hello world", return_tensors="tf")["input_ids"]

>>> outputs = model(
...     input_ids=input_ids,
...     bbox=bbox,
...     attention_mask=attention_mask,
...     token_type_ids=token_type_ids,
...     labels=labels,
... )

>>> loss = outputs.loss

TFLayoutLMForSequenceClassification

class transformers.TFLayoutLMForSequenceClassification

< source 源代码 >

( config: LayoutLMConfig *inputs **kwargs )

参数

config (LayoutLMConfig) — 模型的配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，仅加载配置。请查看 from_pretrained() 方法以加载模型权重。

LayoutLM 模型 Transformer，顶部带有一个序列分类/回归头（池化输出顶部的一个线性层），例如用于 GLUE 任务。

此模型继承自TFPreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是keras.Model的子类。将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

只有一个 input_ids 的单个张量，没有其他：model(input_ids)
长度可变的列表，包含一个或多个输入张量，按文档字符串中给出的顺序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心这些，因为你可以像将输入传递给任何其他Python函数一样直接传递输入！

调用

< source 源代码 >

参数

input_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.__call__() 和 PreTrainedTokenizer.encode()。

什么是输入 ID？
bbox (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length, 4)，可选) — 每个输入序列标记的边界框。选择范围为 [0, config.max_2d_position_embeddings- 1]。
attention_mask (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免对填充标记索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示标记 **未被掩码**，
- 0 表示标记 **已被掩码**。
什么是注意力掩码？
token_type_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 分段标记索引，用于指示输入的第一部分和第二部分。索引选择范围为 [0, 1]：
- 0 对应于 *句子 A* 标记，
- 1 对应于 *句子 B* 标记。
什么是标记类型 ID？
position_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask (Numpy array 或 tf.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部 **未被掩码**，
- 0 表示头部 **已被掩码**。
inputs_embeds (tf.Tensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传入嵌入表示，而不是传入 input_ids。如果您希望对 input_ids 索引如何转换为相关向量拥有比模型内部嵌入查找矩阵更多的控制权，则此功能非常有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
training (bool, 可选，默认为 False) — 是否在训练模式下使用模型（某些模块，如 dropout 模块在训练和评估之间有不同的行为）。
labels (tf.Tensor 或 np.ndarray，形状为 (batch_size,)，可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失）；如果 config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或一个 tf.Tensor 元组（如果传入 return_dict=False 或当 config.return_dict=False 时），包含根据配置 (LayoutLMConfig) 和输入的不同元素。

loss (tf.Tensor，形状为 (batch_size, )，可选，当提供 labels 时返回) — 分类损失（如果 config.num_labels==1，则为回归损失）。
logits (tf.Tensor，形状为 (batch_size, config.num_labels)) — 分类（或回归，如果 config.num_labels==1）分数（SoftMax 之前）。
hidden_states (tuple(tf.Tensor)，可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — tf.Tensor元组（一个用于嵌入输出+一个用于每一层输出），形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传入output_attentions=True或config.output_attentions=True时返回) — tf.Tensor元组（每层一个），形状为(batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFLayoutLMForSequenceClassification 的 forward 方法，重写了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, TFLayoutLMForSequenceClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMForSequenceClassification.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])
>>> sequence_label = tf.convert_to_tensor([1])

>>> outputs = model(
...     input_ids=input_ids,
...     bbox=bbox,
...     attention_mask=attention_mask,
...     token_type_ids=token_type_ids,
...     labels=sequence_label,
... )

>>> loss = outputs.loss
>>> logits = outputs.logits

TFLayoutLMForTokenClassification

class transformers.TFLayoutLMForTokenClassification

< source 源代码 >

( config: LayoutLMConfig *inputs **kwargs )

参数

config (LayoutLMConfig) — 模型的配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，仅加载配置。请查看 from_pretrained() 方法以加载模型权重。

LayoutLM 模型，顶部带有一个标记分类头（隐藏状态输出顶部的一个线性层），例如用于命名实体识别（NER）任务。

此模型继承自TFPreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是keras.Model的子类。将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

只有一个 input_ids 的单个张量，没有其他：model(input_ids)
长度可变的列表，包含一个或多个输入张量，按文档字符串中给出的顺序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心这些，因为你可以像将输入传递给任何其他Python函数一样直接传递输入！

调用

< source 源代码 >

参数

input_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.__call__() 和 PreTrainedTokenizer.encode()。

什么是输入 ID？
bbox (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length, 4)，可选) — 每个输入序列标记的边界框。选择范围为 [0, config.max_2d_position_embeddings- 1]。
attention_mask (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于避免对填充标记索引执行注意力操作的掩码。掩码值选择范围为 [0, 1]：
- 1 表示标记 **未被掩码**，
- 0 表示标记 **已被掩码**。
什么是注意力掩码？
token_type_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 分段标记索引，用于指示输入的第一部分和第二部分。索引选择范围为 [0, 1]：
- 0 对应于 *句子 A* 标记，
- 1 对应于 *句子 B* 标记。
什么是标记类型 ID？
position_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask (Numpy array 或 tf.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部 **未被掩码**，
- 0 表示头部 **已被掩码**。
inputs_embeds (tf.Tensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传入嵌入表示，而不是传入 input_ids。如果您希望对 input_ids 索引如何转换为相关向量拥有比模型内部嵌入查找矩阵更多的控制权，则此功能非常有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
training (bool, 可选，默认为 False) — 是否在训练模式下使用模型（某些模块，如 dropout 模块在训练和评估之间有不同的行为）。
labels (tf.Tensor 或 np.ndarray，形状为 (batch_size, sequence_length)，可选) — 用于计算标记分类损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。

transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFTokenClassifierOutput 或一个 tf.Tensor 元组（如果传入 return_dict=False 或当 config.return_dict=False 时），包含根据配置 (LayoutLMConfig) 和输入的不同元素。

loss (tf.Tensor，形状为 (n,)，可选，其中 n 是未被掩盖的标签数量，当提供 labels 时返回) — 分类损失。
logits (tf.Tensor，形状为 (batch_size, sequence_length, config.num_labels)) — 分类分数（SoftMax 之前）。
hidden_states (tuple(tf.Tensor)，可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — tf.Tensor元组（一个用于嵌入输出+一个用于每一层输出），形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传入output_attentions=True或config.output_attentions=True时返回) — tf.Tensor元组（每层一个），形状为(batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFLayoutLMForTokenClassification 的 forward 方法，重写了 __call__ 特殊方法。

示例

>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFLayoutLMForTokenClassification

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
>>> model = TFLayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")

>>> words = ["Hello", "world"]
>>> normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

>>> token_boxes = []
>>> for word, box in zip(words, normalized_word_boxes):
...     word_tokens = tokenizer.tokenize(word)
...     token_boxes.extend([box] * len(word_tokens))
>>> # add bounding boxes of cls + sep tokens
>>> token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

>>> encoding = tokenizer(" ".join(words), return_tensors="tf")
>>> input_ids = encoding["input_ids"]
>>> attention_mask = encoding["attention_mask"]
>>> token_type_ids = encoding["token_type_ids"]
>>> bbox = tf.convert_to_tensor([token_boxes])
>>> token_labels = tf.convert_to_tensor([1, 1, 0, 0])

>>> outputs = model(
...     input_ids=input_ids,
...     bbox=bbox,
...     attention_mask=attention_mask,
...     token_type_ids=token_type_ids,
...     labels=token_labels,
... )

>>> loss = outputs.loss
>>> logits = outputs.logits

TFLayoutLMForQuestionAnswering

class transformers.TFLayoutLMForQuestionAnswering

< source 源代码 >

( config: LayoutLMConfig *inputs **kwargs )

参数

config (LayoutLMConfig) — 模型的配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，仅加载配置。请查看 from_pretrained() 方法以加载模型权重。

LayoutLM 模型，顶部带有一个用于抽取式问答任务（如 DocVQA）的跨度分类头（最终隐藏状态输出顶部的一个线性层，用于计算 span start logits 和 span end logits）。

此模型继承自TFPreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是keras.Model的子类。将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

只有一个 input_ids 的单个张量，没有其他：model(input_ids)
长度可变的列表，包含一个或多个输入张量，按文档字符串中给出的顺序：model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心这些，因为你可以像将输入传递给任何其他Python函数一样直接传递输入！

调用

< source 源代码 >

参数

input_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。

索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。

什么是输入 ID？
bbox (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length, 4), 可选) — 每个输入序列 token 的边界框。选择范围为 [0, config.max_2d_position_embeddings- 1]。
attention_mask (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length), 可选) — 掩码，用于避免对填充 token 索引执行注意力操作。掩码值选择范围为 [0, 1]：
- 1 表示 token 未被掩盖，
- 0 表示 token 被掩盖。
什么是注意力掩码？
token_type_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length), 可选) — 分段 token 索引，用于指示输入的第一个和第二个部分。索引选择范围为 [0, 1]：
- 0 对应于 句子 A token，
- 1 对应于 句子 B token。
什么是 token 类型 ID？
position_ids (Numpy array 或 tf.Tensor，形状为 (batch_size, sequence_length), 可选) — 每个输入序列 token 在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask (Numpy array 或 tf.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads), 可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择范围为 [0, 1]：
- 1 表示头部未被掩盖，
- 0 表示头部被掩盖。
inputs_embeds (tf.Tensor，形状为 (batch_size, sequence_length, hidden_size), 可选) — 可选地，您可以直接传递嵌入表示而不是传递 input_ids。如果您希望对 input_ids 索引如何转换为相关向量有更多控制，而不是模型内部的嵌入查找矩阵，这将非常有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详情请参见返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
training (bool, 可选, 默认为 False) — 是否在训练模式下使用模型（某些模块如 dropout 模块在训练和评估之间有不同的行为）。
start_positions (tf.Tensor 或 np.ndarray，形状为 (batch_size,), 可选) — 用于计算 token 分类损失的标注跨度起始位置（索引）的标签。位置被限制在序列长度（sequence_length）内。序列外的位置不计入损失计算。
end_positions (tf.Tensor 或 np.ndarray，形状为 (batch_size,), 可选) — 用于计算 token 分类损失的标注跨度结束位置（索引）的标签。位置被限制在序列长度（sequence_length）内。序列外的位置不计入损失计算。

transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或一个 tf.Tensor 元组（如果传递了 return_dict=False 或 config.return_dict=False），包含根据配置 (LayoutLMConfig) 和输入而变化的各种元素。

loss (tf.Tensor，形状为 (batch_size, ), 可选, 当提供了 start_positions 和 end_positions 时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits (形状为 (batch_size, sequence_length) 的 tf.Tensor) — 跨度起始分数（SoftMax 之前）。
end_logits (形状为 (batch_size, sequence_length) 的 tf.Tensor) — 跨度结束分数（SoftMax 之前）。
hidden_states (tuple(tf.Tensor)，可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — tf.Tensor元组（一个用于嵌入输出+一个用于每一层输出），形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传入output_attentions=True或config.output_attentions=True时返回) — tf.Tensor元组（每层一个），形状为(batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFLayoutLMForQuestionAnswering 的 forward 方法重写了 __call__ 特殊方法。

示例

>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFLayoutLMForQuestionAnswering
>>> from datasets import load_dataset

>>> tokenizer = AutoTokenizer.from_pretrained("impira/layoutlm-document-qa", add_prefix_space=True)
>>> model = TFLayoutLMForQuestionAnswering.from_pretrained("impira/layoutlm-document-qa", revision="1e3ebac")

>>> dataset = load_dataset("nielsr/funsd", split="train")
>>> example = dataset[0]
>>> question = "what's his name?"
>>> words = example["words"]
>>> boxes = example["bboxes"]

>>> encoding = tokenizer(
...     question.split(), words, is_split_into_words=True, return_token_type_ids=True, return_tensors="tf"
... )
>>> bbox = []
>>> for i, s, w in zip(encoding.input_ids[0], encoding.sequence_ids(0), encoding.word_ids(0)):
...     if s == 1:
...         bbox.append(boxes[w])
...     elif i == tokenizer.sep_token_id:
...         bbox.append([1000] * 4)
...     else:
...         bbox.append([0] * 4)
>>> encoding["bbox"] = tf.convert_to_tensor([bbox])

>>> word_ids = encoding.word_ids(0)
>>> outputs = model(**encoding)
>>> loss = outputs.loss
>>> start_scores = outputs.start_logits
>>> end_scores = outputs.end_logits
>>> start, end = word_ids[tf.math.argmax(start_scores, -1)[0]], word_ids[tf.math.argmax(end_scores, -1)[0]]
>>> print(" ".join(words[start : end + 1]))
M. Hamann P. Harper, P. Martinez

< > 在 GitHub 上更新

Transformers

LayoutLM

概述

使用技巧

资源

LayoutLMConfig

class transformers.LayoutLMConfig

LayoutLMTokenizer

class transformers.LayoutLMTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

get_special_tokens_mask

LayoutLMTokenizerFast

class transformers.LayoutLMTokenizerFast

build_inputs_with_special_tokens

LayoutLMModel

class transformers.LayoutLMModel

forward

LayoutLMForMaskedLM

class transformers.LayoutLMForMaskedLM

forward

LayoutLMForSequenceClassification

class transformers.LayoutLMForSequenceClassification

forward

LayoutLMForTokenClassification

class transformers.LayoutLMForTokenClassification

forward

LayoutLMForQuestionAnswering

class transformers.LayoutLMForQuestionAnswering

forward

TFLayoutLMModel

class transformers.TFLayoutLMModel

调用

TFLayoutLMForMaskedLM

class transformers.TFLayoutLMForMaskedLM

调用

TFLayoutLMForSequenceClassification

class transformers.TFLayoutLMForSequenceClassification

调用

TFLayoutLMForTokenClassification

class transformers.TFLayoutLMForTokenClassification

调用

TFLayoutLMForQuestionAnswering

class transformers.TFLayoutLMForQuestionAnswering

调用