Transformers 文档

LayoutLMV2

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

LayoutLMV2

PyTorch

概述

LayoutLMV2 模型在 LayoutLMv2:用于视觉丰富文档理解的多模态预训练 中被提出,作者为 Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou。LayoutLMV2 改进了 LayoutLM,在多个文档图像理解基准测试中获得了最先进的结果。

  • 从扫描文档中提取信息:FUNSD 数据集(包含超过 30,000 个单词的 199 个带注释表格的集合)、CORD 数据集(包含 800 张收据用于训练,100 张用于验证,100 张用于测试)、SROIE 数据集(包含 626 张收据用于训练,347 张收据用于测试)和 Kleister-NDA 数据集(来自 EDGAR 数据库的保密协议集合,包括 254 份文档用于训练,83 份文档用于验证,以及 203 份文档用于测试)。
  • 文档图像分类:RVL-CDIP 数据集(包含 400,000 张图像,属于 16 个类别之一)。
  • 文档视觉问答:DocVQA 数据集(包含在 12,000 多个文档图像上定义的 50,000 个问题)。

以下是论文的摘要

由于其有效的模型架构和大规模未标记扫描/数字原生文档的优势,文本和布局的预训练已被证明在各种视觉丰富的文档理解任务中有效。在本文中,我们提出了 LayoutLMv2,通过在多模态框架中预训练文本、布局和图像,其中利用了新的模型架构和预训练任务。具体来说,LayoutLMv2 不仅使用了现有的掩码视觉语言建模任务,还在预训练阶段使用了新的文本-图像对齐和文本-图像匹配任务,从而更好地学习了跨模态交互。同时,它还在 Transformer 架构中集成了一种空间感知自注意力机制,以便模型可以充分理解不同文本块之间的相对位置关系。实验结果表明,LayoutLMv2 优于强大的基线,并在各种下游视觉丰富的文档理解任务中取得了新的最先进的结果,包括 FUNSD (0.7895 -> 0.8420)、CORD (0.9493 -> 0.9601)、SROIE (0.9524 -> 0.9781)、Kleister-NDA (0.834 -> 0.852)、RVL-CDIP (0.9443 -> 0.9564) 和 DocVQA (0.7295 -> 0.8672)。预训练的 LayoutLMv2 模型在此 https URL 上公开提供。

LayoutLMV2 依赖于 detectron2torchvisiontesseract。运行以下命令安装它们

python -m pip install 'git+https://github.com/facebookresearch/detectron2.git'
python -m pip install torchvision tesseract

(如果您正在为 LayoutLMV2 开发,请注意,通过 doctest 也需要安装这些软件包。)

使用技巧

  • LayoutLMv1 和 LayoutLMv2 之间的主要区别在于后者在预训练期间 incorporated 了视觉嵌入(而 LayoutLMv1 仅在微调期间添加视觉嵌入)。
  • LayoutLMv2 在自注意力层中的注意力分数中同时添加了相对 1D 注意力偏差和空间 2D 注意力偏差。详细信息可以在 论文 的第 5 页找到。
  • 关于如何在 RVL-CDIP、FUNSD、DocVQA、CORD 上使用 LayoutLMv2 模型的演示笔记本可以在这里找到。
  • LayoutLMv2 使用 Facebook AI 的 Detectron2 包作为其视觉骨干网络。有关安装说明,请参阅此链接
  • 除了 input_idsforward() 还期望 2 个额外的输入,即 imagebboximage 输入对应于文本标记出现的原始文档图像。该模型期望每个文档图像的大小为 224x224。这意味着,如果您有一批文档图像,则 image 应为形状为 (batch_size, 3, 224, 224) 的张量。这可以是 torch.TensorDetectron2.structures.ImageList。您无需标准化通道,因为这由模型完成。需要注意的是,视觉骨干网络期望 BGR 通道而不是 RGB,因为 Detectron2 中的所有模型都使用 BGR 格式进行预训练。bbox 输入是输入文本标记的边界框(即 2D 位置)。这与 LayoutLMModel 相同。这些可以使用外部 OCR 引擎获得,例如 Google 的 Tesseract(有一个可用的 Python 封装器)。每个边界框应采用 (x0, y0, x1, y1) 格式,其中 (x0, y0) 对应于边界框左上角的位置,(x1, y1) 表示右下角的位置。请注意,首先需要将边界框标准化为 0-1000 比例。要标准化,您可以使用以下函数
def normalize_bbox(bbox, width, height):
    return [
        int(1000 * (bbox[0] / width)),
        int(1000 * (bbox[1] / height)),
        int(1000 * (bbox[2] / width)),
        int(1000 * (bbox[3] / height)),
    ]

在这里,widthheight 对应于标记出现的原始文档的宽度和高度(在调整图像大小之前)。例如,可以使用 Python Image Library (PIL) 库获得这些值,如下所示

from PIL import Image

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
)

width, height = image.size

但是,此模型包含一个全新的 LayoutLMv2Processor,可用于直接为模型准备数据(包括在后台应用 OCR)。更多信息可以在下面的“用法”部分找到。

  • 在内部,LayoutLMv2Model 将通过其视觉骨干网络发送 image 输入,以获得较低分辨率的特征图,其形状等于 LayoutLMv2Configimage_feature_pool_shape 属性。然后将此特征图展平以获得图像标记序列。由于特征图的大小默认情况下为 7x7,因此获得 49 个图像标记。然后将这些与文本标记连接,并通过 Transformer 编码器发送。这意味着,如果您将文本标记填充到最大长度,则模型的最后一个隐藏状态的长度将为 512 + 49 = 561。更一般地,最后一个隐藏状态的形状将为 seq_length + image_feature_pool_shape[0] * config.image_feature_pool_shape[1]
  • 当调用 from_pretrained() 时,将打印警告,其中包含未初始化的长参数名称列表。这不是问题,因为这些参数是批归一化统计信息,在自定义数据集上进行微调时将具有值。
  • 如果您想在分布式环境中训练模型,请确保在模型上调用 synchronize_batch_norm,以便正确同步视觉骨干网络的批归一化层。

此外,还有 LayoutXLM,它是 LayoutLMv2 的多语言版本。更多信息可以在 LayoutXLM 的文档页面 上找到。

资源

官方 Hugging Face 和社区(🌎 表示)资源的列表,可帮助您开始使用 LayoutLMv2。如果您有兴趣提交资源以包含在此处,请随时打开 Pull Request,我们将对其进行审核!理想情况下,该资源应展示一些新内容,而不是重复现有资源。

文本分类
问题回答
标记分类

用法:LayoutLMv2Processor

为模型准备数据的最简单方法是使用 LayoutLMv2Processor,它在内部结合了图像处理器 (LayoutLMv2ImageProcessor) 和分词器 (LayoutLMv2TokenizerLayoutLMv2TokenizerFast)。图像处理器处理图像模态,而分词器处理文本模态。处理器结合了两者,这对于像 LayoutLMv2 这样的多模态模型来说是理想的。请注意,如果您只想处理一种模态,您仍然可以单独使用两者。

from transformers import LayoutLMv2ImageProcessor, LayoutLMv2TokenizerFast, LayoutLMv2Processor

image_processor = LayoutLMv2ImageProcessor()  # apply_ocr is set to True by default
tokenizer = LayoutLMv2TokenizerFast.from_pretrained("microsoft/layoutlmv2-base-uncased")
processor = LayoutLMv2Processor(image_processor, tokenizer)

简而言之,可以将文档图像(以及可能的其他数据)提供给 LayoutLMv2Processor,它将创建模型期望的输入。在内部,处理器首先使用 LayoutLMv2ImageProcessor 对图像应用 OCR,以获取单词列表和标准化的边界框,以及将图像调整为给定大小,以获得 image 输入。然后将单词和标准化的边界框提供给 LayoutLMv2TokenizerLayoutLMv2TokenizerFast,后者将其转换为标记级别的 input_idsattention_masktoken_type_idsbbox。可选地,可以向处理器提供单词标签,这些标签将转换为标记级别的 labels

LayoutLMv2Processor 在后台使用 PyTesseract,它是 Google 的 Tesseract OCR 引擎的 Python 封装器。请注意,您仍然可以使用自己选择的 OCR 引擎,并自己提供单词和标准化的框。这需要使用设置为 Falseapply_ocr 初始化 LayoutLMv2ImageProcessor

总共有 5 种处理器支持的用例。下面,我们列出所有这些用例。请注意,这些用例中的每一个都适用于批量和非批量输入(我们为非批量输入说明它们)。

用例 1:文档图像分类(训练、推理)+ 标记分类(推理),apply_ocr = True

这是最简单的情况,其中处理器(实际上是图像处理器)将对图像执行 OCR 以获取单词和标准化的边界框。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
encoding = processor(
    image, return_tensors="pt"
)  # you can also add all tokenizer parameters here such as padding, truncation
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例 2:文档图像分类(训练、推理)+ 标记分类(推理),apply_ocr=False

如果想要自己进行 OCR,可以将图像处理器初始化为 apply_ocr 设置为 False。在这种情况下,应将单词和相应的(标准化的)边界框自己提供给处理器。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
encoding = processor(image, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例 3:标记分类(训练),apply_ocr=False

对于标记分类任务(例如 FUNSD、CORD、SROIE、Kleister-NDA),还可以提供相应的单词标签以训练模型。然后,处理器会将这些标签转换为标记级别的 labels。默认情况下,它只会标记单词的第一个 wordpiece,并将剩余的 wordpiece 标记为 -100,这是 PyTorch 的 CrossEntropyLoss 的 ignore_index。如果您希望标记单词的所有 wordpiece,可以将分词器初始化为 only_label_first_subword 设置为 False

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
word_labels = [1, 2]
encoding = processor(image, words, boxes=boxes, word_labels=word_labels, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'labels', 'image'])

用例 4:视觉问答(推理),apply_ocr=True

对于视觉问答任务(例如 DocVQA),您可以向处理器提供问题。默认情况下,处理器将对图像应用 OCR,并创建 [CLS] 问题标记 [SEP] 单词标记 [SEP]。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
encoding = processor(image, question, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例 5:视觉问答(推理),apply_ocr=False

对于视觉问答任务(例如 DocVQA),您可以向处理器提供问题。如果您想自己执行 OCR,可以将您自己的单词和(标准化的)边界框提供给处理器。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

LayoutLMv2Config

class transformers.LayoutLMv2Config

< >

( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 max_2d_position_embeddings = 1024 max_rel_pos = 128 rel_pos_bins = 32 fast_qkv = True max_rel_2d_pos = 256 rel_2d_pos_bins = 64 convert_sync_batchnorm = True image_feature_pool_shape = [7, 7, 256] coordinate_size = 128 shape_size = 128 has_relative_attention_bias = True has_spatial_attention_bias = True has_visual_segment_embedding = False detectron2_config_args = None **kwargs )

参数

  • vocab_size (int, 可选, 默认为 30522) — LayoutLMv2 模型的词汇表大小。 定义了在调用 LayoutLMv2ModelTFLayoutLMv2Model 时,通过的 inputs_ids 可以表示的不同 token 的数量。
  • hidden_size (int, 可选, 默认为 768) — 编码器层和池化器层的维度。
  • num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中的隐藏层数。
  • num_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。
  • intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间层”(即,前馈层)的维度。
  • hidden_act (strfunction, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数(函数或字符串)。 如果是字符串,则支持 "gelu", "relu", "selu""gelu_new"
  • hidden_dropout_prob (float, 可选, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。
  • attention_probs_dropout_prob (float, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。
  • max_position_embeddings (int, 可选, 默认为 512) — 此模型可能使用的最大序列长度。 通常将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。
  • type_vocab_size (int, 可选, 默认为 2) — 在调用 LayoutLMv2ModelTFLayoutLMv2Model 时,通过的 token_type_ids 的词汇表大小。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。
  • layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。
  • max_2d_position_embeddings (int, 可选, 默认为 1024) — 2D 位置嵌入可能使用的最大值。 通常将其设置为较大的值以防万一(例如,1024)。
  • max_rel_pos (int, 可选, 默认为 128) — 自注意力机制中使用的最大相对位置数。
  • rel_pos_bins (int, 可选, 默认为 32) — 自注意力机制中使用的相对位置 bins 的数量。
  • fast_qkv (bool, 可选, 默认为 True) — 是否在自注意力层中对 queries, keys, values 使用单个矩阵。
  • max_rel_2d_pos (int, 可选, 默认为 256) — 自注意力机制中最大相对 2D 位置数。
  • rel_2d_pos_bins (int, 可选, 默认为 64) — 自注意力机制中 2D 相对位置 bins 的数量。
  • image_feature_pool_shape (List[int], 可选, 默认为 [7, 7, 256]) — 平均池化特征图的形状。
  • coordinate_size (int, 可选, 默认为 128) — 坐标嵌入的维度。
  • shape_size (int, 可选, 默认为 128) — 宽度和高度嵌入的维度。
  • has_relative_attention_bias (bool, 可选, 默认为 True) — 是否在自注意力机制中使用相对注意力偏差。
  • has_spatial_attention_bias (bool, 可选, 默认为 True) — 是否在自注意力机制中使用空间注意力偏差。
  • has_visual_segment_embedding (bool, 可选, 默认为 False) — 是否添加视觉片段嵌入。
  • detectron2_config_args (dict, 可选) — 包含 Detectron2 视觉 backbone 的配置参数的字典。 有关默认值的详细信息,请参阅此文件

这是用于存储 LayoutLMv2Model 配置的配置类。 它用于根据指定的参数实例化 LayoutLMv2 模型,从而定义模型架构。 使用默认值实例化配置将产生与 LayoutLMv2 microsoft/layoutlmv2-base-uncased 架构类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例

>>> from transformers import LayoutLMv2Config, LayoutLMv2Model

>>> # Initializing a LayoutLMv2 microsoft/layoutlmv2-base-uncased style configuration
>>> configuration = LayoutLMv2Config()

>>> # Initializing a model (with random weights) from the microsoft/layoutlmv2-base-uncased style configuration
>>> model = LayoutLMv2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

LayoutLMv2FeatureExtractor

class transformers.LayoutLMv2FeatureExtractor

< >

( *args **kwargs )

__call__

< >

( images **kwargs )

预处理图像或一批图像。

LayoutLMv2ImageProcessor

class transformers.LayoutLMv2ImageProcessor

< >

( do_resize: bool = True size: typing.Dict[str, int] = None resample: Resampling = <Resampling.BILINEAR: 2> apply_ocr: bool = True ocr_lang: typing.Optional[str] = None tesseract_config: typing.Optional[str] = '' **kwargs )

参数

  • do_resize (bool, 可选, 默认为 True) — 是否将图像的(高度,宽度)尺寸调整为 (size["height"], size["width"])。可以被 preprocess 中的 do_resize 覆盖。
  • size (Dict[str, int] 可选, 默认为 {"height" -- 224, "width": 224}): 调整大小后图像的尺寸。可以被 preprocess 中的 size 覆盖。
  • resample (PILImageResampling, 可选, 默认为 Resampling.BILINEAR) — 如果调整图像大小,则使用的重采样过滤器。可以被 preprocess 方法中的 resample 参数覆盖。
  • apply_ocr (bool, 可选, 默认为 True) — 是否应用 Tesseract OCR 引擎来获取单词 + 归一化边界框。可以被 preprocess 中的 apply_ocr 覆盖。
  • ocr_lang (str, 可选) — Tesseract OCR 引擎使用的语言,由其 ISO 代码指定。默认情况下,使用英语。可以被 preprocess 中的 ocr_lang 覆盖。
  • tesseract_config (str, 可选, 默认为 "") — 传递给调用 Tesseract 时的 config 参数的任何其他自定义配置标志。例如:'—psm 6'。可以被 preprocess 中的 tesseract_config 覆盖。

构建一个 LayoutLMv2 图像处理器。

preprocess

< >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: bool = None size: typing.Dict[str, int] = None resample: Resampling = None apply_ocr: bool = None ocr_lang: typing.Optional[str] = None tesseract_config: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[transformers.image_utils.ChannelDimension, str, NoneType] = None )

参数

  • images (ImageInput) — 要预处理的图像。
  • do_resize (bool, 可选, 默认为 self.do_resize) — 是否调整图像大小。
  • size (Dict[str, int], 可选, 默认为 self.size) — 调整大小后输出图像的期望尺寸。
  • resample (PILImageResampling, 可选, 默认为 self.resample) — 如果调整图像大小,则使用的重采样过滤器。这可以是枚举 PIL.Image 重采样过滤器之一。仅当 do_resize 设置为 True 时才有效。
  • apply_ocr (bool, 可选, 默认为 self.apply_ocr) — 是否应用 Tesseract OCR 引擎来获取单词 + 归一化边界框。
  • ocr_lang (str, 可选, 默认为 self.ocr_lang) — Tesseract OCR 引擎使用的语言,由其 ISO 代码指定。默认情况下,使用英语。
  • tesseract_config (str, 可选, 默认为 self.tesseract_config) — 传递给调用 Tesseract 时的 config 参数的任何其他自定义配置标志。
  • return_tensors (strTensorType, 可选) — 返回张量的类型。可以是以下之一:
    • Unset: 返回 np.ndarray 列表。
    • TensorType.TENSORFLOW'tf': 返回 tf.Tensor 类型的批次。
    • TensorType.PYTORCH'pt': 返回 torch.Tensor 类型的批次。
    • TensorType.NUMPY'np': 返回 np.ndarray 类型的批次。
    • TensorType.JAX'jax': 返回 jax.numpy.ndarray 类型的批次。
  • data_format (ChannelDimensionstr, 可选, 默认为 ChannelDimension.FIRST) — 输出图像的通道维度格式。可以是以下之一:
    • ChannelDimension.FIRST: 图像格式为 (num_channels, height, width)。
    • ChannelDimension.LAST: 图像格式为 (height, width, num_channels)。

预处理图像或一批图像。

LayoutLMv2Tokenizer

class transformers.LayoutLMv2Tokenizer

< >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' cls_token_box = [0, 0, 0, 0] sep_token_box = [1000, 1000, 1000, 1000] pad_token_box = [0, 0, 0, 0] pad_token_label = -100 only_label_first_subword = True tokenize_chinese_chars = True strip_accents = None model_max_length: int = 512 additional_special_tokens: typing.Optional[typing.List[str]] = None **kwargs )

构建一个 LayoutLMv2 tokenizer。基于 WordPiece。LayoutLMv2Tokenizer 可用于将单词、单词级边界框和可选的单词标签转换为 token 级的 input_idsattention_masktoken_type_idsbbox 和可选的 labels(用于 token 分类)。

此 tokenizer 继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此父类以获取有关这些方法的更多信息。

LayoutLMv2Tokenizer 运行端到端 tokenization:标点符号分割和 wordpiece。它还将单词级边界框转换为 token 级边界框。

__call__

< >

( text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]] text_pair: typing.Union[typing.List[str], typing.List[typing.List[str]], NoneType] = None boxes: typing.Union[typing.List[typing.List[int]], typing.List[typing.List[typing.List[int]]]] = None word_labels: typing.Union[typing.List[int], typing.List[typing.List[int]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) BatchEncoding

参数

  • text (str, List[str], List[List[str]]) — 要编码的序列或序列批次。每个序列可以是字符串,字符串列表(单个示例的词或示例批次的问题)或字符串列表的列表(词批次)。
  • text_pair (List[str], List[List[str]]) — 要编码的序列或序列批次。每个序列应为字符串列表(预分词字符串)。
  • boxes (List[List[int]], List[List[List[int]]]) — 单词级别的边界框。每个边界框应被归一化到 0-1000 的范围内。
  • word_labels (List[int], List[List[int]], 可选) — 单词级别的整数标签(用于诸如 FUNSD,CORD 等令牌分类任务)。
  • add_special_tokens (bool, 可选, 默认为 True) — 是否使用相对于其模型的特殊令牌对序列进行编码。
  • padding (bool, strPaddingStrategy, 可选, 默认为 False) — 激活并控制填充。接受以下值:

    • True'longest':填充到批次中最长的序列(如果仅提供单个序列,则不填充)。
    • 'max_length':填充到通过参数 max_length 指定的最大长度,如果未提供该参数,则填充到模型可接受的最大输入长度。
    • False'do_not_pad'(默认):不填充(即,可以输出具有不同长度序列的批次)。
  • truncation (bool, strTruncationStrategy, 可选, 默认为 False) — 激活并控制截断。接受以下值:

    • True'longest_first':截断为通过参数 max_length 指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将逐个令牌地截断,从该对中最长的序列中移除一个令牌。
    • 'only_first':截断为通过参数 max_length 指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第一个序列。
    • 'only_second':截断为通过参数 max_length 指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第二个序列。
    • False'do_not_truncate'(默认):不截断(即,可以输出序列长度大于模型最大允许输入大小的批次)。
  • max_length (int, 可选) — 控制截断/填充参数之一使用的最大长度。

    如果未设置或设置为 None,如果截断/填充参数之一需要最大长度,则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则将停用截断/填充到最大长度的功能。

  • stride (int, 可选, 默认为 0) — 如果与 max_length 一起设置为数字,则当 return_overflowing_tokens=True 时返回的溢出令牌将包含从返回的截断序列末尾开始的一些令牌,以在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠令牌的数量。
  • pad_to_multiple_of (int, 可选) — 如果设置,将序列填充为提供值的倍数。这对于在计算能力 >= 7.5 (Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用尤其有用。
  • return_tensors (strTensorType, 可选) — 如果设置,将返回张量而不是 python 整数列表。可接受的值为:

    • 'tf':返回 TensorFlow tf.constant 对象。
    • 'pt':返回 PyTorch torch.Tensor 对象。
    • 'np':返回 Numpy np.ndarray 对象。
  • return_token_type_ids (bool, 可选) — 是否返回令牌类型 ID。如果保留为默认值,将根据特定分词器的默认值(由 return_outputs 属性定义)返回令牌类型 ID。

    什么是令牌类型 ID?

  • return_attention_mask (bool, 可选) — 是否返回注意力掩码。如果保留为默认值,将根据特定分词器的默认值(由 return_outputs 属性定义)返回注意力掩码。

    什么是注意力掩码?

  • return_overflowing_tokens (bool, 可选, 默认为 False) — 是否返回溢出的令牌序列。如果提供了一对输入 ID 序列(或一批对),且 truncation_strategy = longest_firstTrue,则会引发错误,而不是返回溢出的令牌。
  • return_special_tokens_mask (bool, 可选, 默认为 False) — 是否返回特殊令牌掩码信息。
  • return_offsets_mapping (bool, 可选, 默认为 False) — 是否为每个令牌返回 (char_start, char_end)

    这仅在继承自 PreTrainedTokenizerFast 的快速分词器上可用,如果使用 Python 的分词器,此方法将引发 NotImplementedError

  • return_length (bool, 可选, 默认为 False) — 是否返回编码输入的长度。
  • verbose (bool, 可选, 默认为 True) — 是否打印更多信息和警告。
  • **kwargs — 传递给 self.tokenize() 方法的参数

Returns

BatchEncoding

一个 BatchEncoding,包含以下字段

  • input_ids — 要馈送到模型的令牌 ID 列表。

    什么是输入 ID?

  • bbox — 要馈送到模型的边界框列表。

  • token_type_ids — 要馈送到模型的令牌类型 ID 列表(当 return_token_type_ids=True“token_type_ids”self.model_input_names 中时)。

    什么是令牌类型 ID?

  • attention_mask — 指定模型应注意哪些令牌的索引列表(当 return_attention_mask=True“attention_mask”self.model_input_names 中时)。

    什么是注意力掩码?

  • labels — 要馈送到模型的标签列表。(当指定 word_labels 时)。

  • overflowing_tokens — 溢出的令牌序列列表(当指定 max_lengthreturn_overflowing_tokens=True 时)。

  • num_truncated_tokens — 截断的令牌数(当指定 max_lengthreturn_overflowing_tokens=True 时)。

  • special_tokens_mask — 0 和 1 的列表,其中 1 指定添加的特殊令牌,0 指定常规序列令牌(当 add_special_tokens=Truereturn_special_tokens_mask=True 时)。

  • length — 输入的长度(当 return_length=True 时)。

主要方法,用于对一个或多个序列或一对或多对序列进行分词和准备模型,其中包含单词级别的归一化边界框和可选标签。

save_vocabulary

< >

( save_directory: str filename_prefix: typing.Optional[str] = None )

LayoutLMv2TokenizerFast

class transformers.LayoutLMv2TokenizerFast

< >

( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' cls_token_box = [0, 0, 0, 0] sep_token_box = [1000, 1000, 1000, 1000] pad_token_box = [0, 0, 0, 0] pad_token_label = -100 only_label_first_subword = True tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

  • vocab_file (str) — 包含词汇表的文件。
  • do_lower_case (bool, optional, defaults to True) — 是否在分词时将输入文本转换为小写。
  • unk_token (str, optional, defaults to "[UNK]") — 未知 token。词汇表中不存在的 token 无法转换为 ID,而是设置为此 token。
  • sep_token (str, optional, defaults to "[SEP]") — 分隔符 token,用于从多个序列构建一个序列时,例如,用于序列分类的两个序列,或者用于问答的文本和问题。它也用作使用特殊 token 构建的序列的最后一个 token。
  • pad_token (str, optional, defaults to "[PAD]") — 用于填充的 token,例如在对不同长度的序列进行批处理时。
  • cls_token (str, optional, defaults to "[CLS]") — 分类器 token,用于进行序列分类(对整个序列而不是每个 token 进行分类)。当使用特殊 token 构建序列时,它是序列的第一个 token。
  • mask_token (str, optional, defaults to "[MASK]") — 用于掩码值的 token。这是使用掩码语言建模训练此模型时使用的 token。这是模型将尝试预测的 token。
  • cls_token_box (List[int], optional, defaults to [0, 0, 0, 0]) — 用于特殊 [CLS] token 的边界框。
  • sep_token_box (List[int], optional, defaults to [1000, 1000, 1000, 1000]) — 用于特殊 [SEP] token 的边界框。
  • pad_token_box (List[int], optional, defaults to [0, 0, 0, 0]) — 用于特殊 [PAD] token 的边界框。
  • pad_token_label (int, optional, defaults to -100) — 用于填充 token 的标签。默认为 -100,这是 PyTorch 的 CrossEntropyLoss 的 ignore_index
  • only_label_first_subword (bool, optional, defaults to True) — 如果提供了词级别标签,是否仅标记第一个子词。
  • tokenize_chinese_chars (bool, optional, defaults to True) — 是否对中文字符进行分词。对于日语,这可能应该被禁用(参见此 issue)。
  • strip_accents (bool, optional) — 是否去除所有重音符号。如果未指定此选项,则将由 lowercase 的值确定(与原始 LayoutLMv2 中一样)。

构建一个 “fast” LayoutLMv2 分词器(由 HuggingFace 的 tokenizers 库支持)。基于 WordPiece。

此分词器继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。

__call__

< >

( text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]] text_pair: typing.Union[typing.List[str], typing.List[typing.List[str]], NoneType] = None boxes: typing.Union[typing.List[typing.List[int]], typing.List[typing.List[typing.List[int]]]] = None word_labels: typing.Union[typing.List[int], typing.List[typing.List[int]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) BatchEncoding

参数

  • text (str, List[str], List[List[str]]) — 要编码的序列或序列批次。每个序列可以是字符串、字符串列表(单个示例的单词或一批示例的问题)或字符串列表的列表(单词批次)。
  • text_pair (List[str], List[List[str]]) — 要编码的序列或序列批次。每个序列都应是字符串列表(预分词的字符串)。
  • boxes (List[List[int]], List[List[List[int]]]) — 词级别边界框。每个边界框应标准化为 0-1000 比例。
  • word_labels (List[int], List[List[int]], optional) — 词级别整数标签(用于 token 分类任务,如 FUNSD、CORD)。
  • add_special_tokens (bool, optional, defaults to True) — 是否使用与其模型相关的特殊 token 对序列进行编码。
  • padding (bool, str or PaddingStrategy, optional, defaults to False) — 激活并控制填充。接受以下值:

    • True'longest':填充到批次中最长序列的长度(如果仅提供单个序列,则不填充)。
    • 'max_length':填充到参数 max_length 指定的最大长度,如果未提供该参数,则填充到模型可接受的最大输入长度。
    • False'do_not_pad' (默认):不填充(即,可以输出具有不同长度序列的批次)。
  • truncation (bool, str or TruncationStrategy, optional, defaults to False) — 激活并控制截断。接受以下值:

    • True'longest_first':截断为参数 max_length 指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将逐个 token 截断,从这对序列中最长的序列中删除 token。
    • 'only_first':截断为参数 max_length 指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第一个序列。
    • 'only_second':截断为参数 max_length 指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第二个序列。
    • False'do_not_truncate' (默认):不截断(即,可以输出序列长度大于模型最大允许输入大小的批次)。
  • max_length (int, optional) — 控制由截断/填充参数之一使用的最大长度。

    如果未设置或设置为 None,如果截断/填充参数之一需要最大长度,则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则将停用截断/填充到最大长度。

  • stride (int, optional, defaults to 0) — 如果与 max_length 一起设置为数字,则当 return_overflowing_tokens=True 时返回的溢出 token 将包含来自截断序列末尾的一些 token,以在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠 token 的数量。
  • pad_to_multiple_of (int, optional) — 如果设置,将序列填充为提供值的倍数。这对于在计算能力 >= 7.5 (Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用特别有用。
  • return_tensors (str or TensorType, optional) — 如果设置,将返回 tensor 而不是 python 整数列表。可接受的值为:

    • 'tf':返回 TensorFlow tf.constant 对象。
    • 'pt':返回 PyTorch torch.Tensor 对象。
    • 'np':返回 Numpy np.ndarray 对象。
  • return_token_type_ids (bool, optional) — 是否返回 token 类型 ID。如果保留为默认值,将根据特定分词器的默认值返回 token 类型 ID,由 return_outputs 属性定义。

    什么是 token 类型 ID?

  • return_attention_mask (bool, optional) — 是否返回 attention mask(注意力掩码)。如果保留默认值,将根据特定 tokenizer 的默认值返回 attention mask,该默认值由 return_outputs 属性定义。

    什么是 attention masks?

  • return_overflowing_tokens (bool, optional, defaults to False) — 是否返回溢出的 token 序列。如果提供一对输入 id 序列(或一批对)且 truncation_strategy = longest_firstTrue,则会引发错误,而不是返回溢出的 token。
  • return_special_tokens_mask (bool, optional, defaults to False) — 是否返回特殊 token 掩码信息。
  • return_offsets_mapping (bool, optional, defaults to False) — 是否返回每个 token 的 (char_start, char_end)

    这仅在继承自 PreTrainedTokenizerFast 的快速 tokenizer 上可用。如果使用 Python 的 tokenizer,此方法将引发 NotImplementedError 异常。

  • return_length (bool, optional, defaults to False) — 是否返回编码后输入的长度。
  • verbose (bool, optional, defaults to True) — 是否打印更多信息和警告。
  • **kwargs — 传递给 self.tokenize() 方法的参数

Returns

BatchEncoding

一个 BatchEncoding,包含以下字段

  • input_ids — 要馈送到模型的令牌 ID 列表。

    什么是输入 ID?

  • bbox — 要馈送到模型的边界框列表。

  • token_type_ids — 要馈送到模型的令牌类型 ID 列表(当 return_token_type_ids=True“token_type_ids”self.model_input_names 中时)。

    什么是令牌类型 ID?

  • attention_mask — 指定模型应注意哪些令牌的索引列表(当 return_attention_mask=True“attention_mask”self.model_input_names 中时)。

    什么是注意力掩码?

  • labels — 要馈送到模型的标签列表。(当指定 word_labels 时)。

  • overflowing_tokens — 溢出的令牌序列列表(当指定 max_lengthreturn_overflowing_tokens=True 时)。

  • num_truncated_tokens — 截断的令牌数(当指定 max_lengthreturn_overflowing_tokens=True 时)。

  • special_tokens_mask — 0 和 1 的列表,其中 1 指定添加的特殊令牌,0 指定常规序列令牌(当 add_special_tokens=Truereturn_special_tokens_mask=True 时)。

  • length — 输入的长度(当 return_length=True 时)。

主要方法,用于对一个或多个序列或一对或多对序列进行分词和准备模型,其中包含单词级别的归一化边界框和可选标签。

LayoutLMv2Processor

class transformers.LayoutLMv2Processor

< >

( image_processor = None tokenizer = None **kwargs )

参数

构建一个 LayoutLMv2 processor,它将 LayoutLMv2 image processor 和 LayoutLMv2 tokenizer 组合成一个单一的 processor。

LayoutLMv2Processor 提供了准备模型数据所需的所有功能。

它首先使用 LayoutLMv2ImageProcessor 将文档图像调整为固定大小,并可选地应用 OCR 以获取单词和归一化的边界框。然后将这些提供给 LayoutLMv2TokenizerLayoutLMv2TokenizerFast,它们将单词和边界框转换为 token 级别的 input_idsattention_masktoken_type_idsbbox。 可选地,可以提供整数 word_labels,它们将被转换为 token 级别的 labels,用于 token 分类任务(例如 FUNSD、CORD)。

__call__

< >

( images text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]] = None text_pair: typing.Union[typing.List[str], typing.List[typing.List[str]], NoneType] = None boxes: typing.Union[typing.List[typing.List[int]], typing.List[typing.List[typing.List[int]]]] = None word_labels: typing.Union[typing.List[int], typing.List[typing.List[int]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = False max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None **kwargs )

此方法首先将 images 参数转发给 call()。 如果 LayoutLMv2ImageProcessor 初始化时将 apply_ocr 设置为 True,它会将获取的单词和边界框以及其他参数传递给 call() 并返回输出,以及调整大小后的 images。 如果 LayoutLMv2ImageProcessor 初始化时将 apply_ocr 设置为 False,它会将用户指定的单词 (text/text_pair) 和 boxes 以及其他参数传递给 [__call__()](/docs/transformers/v4.50.0/en/model_doc/layoutlmv2#transformers.LayoutLMv2Tokenizer.__call__) 并返回输出,以及调整大小后的 images

有关更多信息,请参阅上述两种方法的文档字符串。

LayoutLMv2Model

class transformers.LayoutLMv2Model

< >

( config )

参数

  • config (LayoutLMv2Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。

裸 LayoutLMv2 模型 Transformer,输出原始隐藏状态,顶部没有任何特定的 head。此模型是 PyTorch torch.nn.Module 子类。 可以将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解与常规用法和行为相关的所有事项。

forward(前向传播)

< >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.BaseModelOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。

    可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是 input IDs?

  • bbox (torch.LongTensor,形状为 ((batch_size, sequence_length), 4), optional) — 每个输入序列 token 的边界框。在范围 [0, config.max_2d_position_embeddings-1] 中选择。每个边界框都应是 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框左上角的位置,而 (x1, y1) 表示右下角的位置。
  • image (torch.FloatTensor,形状为 (batch_size, num_channels, height, width)detectron.structures.ImageList,其 tensors 的形状为 (batch_size, num_channels, height, width)) — 批量文档图像。
  • attention_mask (torch.FloatTensor, 形状为 (batch_size, sequence_length), 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示标记未被掩盖
    • 0 表示标记被掩盖

    什么是 attention 掩码?

  • token_type_ids (torch.LongTensor, 形状为 (batch_size, sequence_length), 可选) — 片段标记索引,用于指示输入的第一部分和第二部分。索引在 [0, 1] 中选择:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是 token type IDs?

  • position_ids (torch.LongTensor, 形状为 (batch_size, sequence_length), 可选) — 位置嵌入中每个输入序列标记的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是 position IDs?

  • head_mask (torch.FloatTensor, 形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于 nullify self-attention 模块中选定 head 的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示 head 未被掩盖
    • 0 表示 head 被掩盖
  • inputs_embeds (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size), 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。
  • output_attentions (bool, 可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的 hidden states。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

Returns

transformers.modeling_outputs.BaseModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或当 config.return_dict=False 时),包含各种元素,具体取决于配置 (LayoutLMv2Config) 和输入。

  • last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出处的 hidden-states 序列。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。

LayoutLMv2Model 前向方法,覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。

示例

>>> from transformers import AutoProcessor, LayoutLMv2Model, set_seed
>>> from PIL import Image
>>> import torch
>>> from datasets import load_dataset

>>> set_seed(0)

>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> model = LayoutLMv2Model.from_pretrained("microsoft/layoutlmv2-base-uncased")


>>> dataset = load_dataset("hf-internal-testing/fixtures_docvqa", trust_remote_code=True)
>>> image_path = dataset["test"][0]["file"]
>>> image = Image.open(image_path).convert("RGB")

>>> encoding = processor(image, return_tensors="pt")

>>> outputs = model(**encoding)
>>> last_hidden_states = outputs.last_hidden_state

>>> last_hidden_states.shape
torch.Size([1, 342, 768])

LayoutLMv2ForSequenceClassification

class transformers.LayoutLMv2ForSequenceClassification

< >

( config )

参数

  • config (LayoutLMv2Config) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。

LayoutLMv2 模型,顶部带有序列分类头(位于 [CLS] 标记的最终 hidden state、平均池化的初始视觉嵌入和平均池化的最终视觉嵌入的串联之上的线性层),例如用于文档图像分类任务,例如 RVL-CDIP 数据集。

此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。

forward(前向传播)

< >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.SequenceClassifierOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor, 形状为 batch_size, sequence_length) — 词汇表中输入序列标记的索引。

    索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是 input IDs?

  • bbox (torch.LongTensor, 形状为 (batch_size, sequence_length, 4), 可选) — 每个输入序列标记的边界框。在范围 [0, config.max_2d_position_embeddings-1] 中选择。每个边界框应为 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框中左上角的位置,而 (x1, y1) 表示右下角的位置。
  • image (torch.FloatTensor, 形状为 (batch_size, num_channels, height, width)detectron.structures.ImageList,其 tensors 形状为 (batch_size, num_channels, height, width)) — 批量文档图像。
  • attention_mask (torch.FloatTensor, 形状为 batch_size, sequence_length, 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示标记未被掩盖
    • 0 表示标记被掩盖

    什么是 attention 掩码?

  • token_type_ids (torch.LongTensor, 形状为 batch_size, sequence_length, 可选) — 片段标记索引,用于指示输入的第一部分和第二部分。索引在 [0, 1] 中选择:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是 token type IDs?

  • position_ids (torch.LongTensor, 形状为 batch_size, sequence_length, 可选) — 位置嵌入中每个输入序列标记的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是 position IDs?

  • head_mask (torch.FloatTensor, 形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于 nullify self-attention 模块中选定 head 的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示 head 未被掩盖
    • 0 表示 head 被掩盖
  • inputs_embeds (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size), 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。
  • output_attentions (bool, 可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的 hidden states。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
  • labels (torch.LongTensor, 形状为 (batch_size,), 可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1,则计算回归损失(均方误差损失),如果 config.num_labels > 1,则计算分类损失(交叉熵损失)。

Returns

transformers.modeling_outputs.SequenceClassifierOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutput 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或当 config.return_dict=False 时),包含各种元素,具体取决于配置 (LayoutLMv2Config) 和输入。

  • loss (torch.FloatTensor, 形状为 (1,), 可选, 当提供 labels 时返回) — 分类(或回归,如果 config.num_labels==1)损失。

  • logits (torch.FloatTensor, 形状为 (batch_size, config.num_labels)) — 分类(或回归,如果 config.num_labels==1)得分(在 SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。

LayoutLMv2ForSequenceClassification 前向方法,覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。

示例

>>> from transformers import AutoProcessor, LayoutLMv2ForSequenceClassification, set_seed
>>> from PIL import Image
>>> import torch
>>> from datasets import load_dataset

>>> set_seed(0)

>>> dataset = load_dataset("aharley/rvl_cdip", split="train", streaming=True, trust_remote_code=True)
>>> data = next(iter(dataset))
>>> image = data["image"].convert("RGB")

>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> model = LayoutLMv2ForSequenceClassification.from_pretrained(
...     "microsoft/layoutlmv2-base-uncased", num_labels=dataset.info.features["label"].num_classes
... )

>>> encoding = processor(image, return_tensors="pt")
>>> sequence_label = torch.tensor([data["label"]])

>>> outputs = model(**encoding, labels=sequence_label)

>>> loss, logits = outputs.loss, outputs.logits
>>> predicted_idx = logits.argmax(dim=-1).item()
>>> predicted_answer = dataset.info.features["label"].names[4]
>>> predicted_idx, predicted_answer  # results are not good without further fine-tuning
(7, 'advertisement')

LayoutLMv2ForTokenClassification

class transformers.LayoutLMv2ForTokenClassification

< >

( config )

参数

  • config (LayoutLMv2Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。

LayoutLMv2 模型,顶部带有一个 token 分类头(隐藏状态文本部分顶部的线性层),例如用于序列标注(信息抽取)任务,例如 FUNSDSROIECORDKleister-NDA

此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。

forward(前向传播)

< >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.TokenClassifierOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 batch_size, sequence_length) — 词汇表中输入序列 token 的索引。

    索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 IDs?

  • bbox (torch.LongTensor,形状为 (batch_size, sequence_length, 4)可选) — 每个输入序列 token 的边界框。 在范围 [0, config.max_2d_position_embeddings-1] 中选择。 每个边界框应为 (x0, y0, x1, y1) 格式的标准化版本,其中 (x0, y0) 对应于边界框中左上角的位置,(x1, y1) 表示右下角的位置。
  • image (torch.FloatTensor,形状为 (batch_size, num_channels, height, width)detectron.structures.ImageList,其 tensors 的形状为 (batch_size, num_channels, height, width)) — 批量文档图像。
  • attention_mask (torch.FloatTensor,形状为 batch_size, sequence_length可选) — 掩码,以避免在 padding token 索引上执行 attention。 掩码值在 [0, 1] 中选择:

    • 1 表示 token 未被掩码
    • 0 表示 token 已被掩码

    什么是 attention 掩码?

  • token_type_ids (torch.LongTensor,形状为 batch_size, sequence_length可选) — 分段 token 索引,用于指示输入的第一部分和第二部分。 索引在 [0, 1] 中选择:

    • 0 对应于 sentence A token,
    • 1 对应于 sentence B token。

    什么是 token 类型 IDs?

  • position_ids (torch.LongTensor,形状为 batch_size, sequence_length可选) — 每个输入序列 token 在位置嵌入中的位置索引。 在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是位置 IDs?

  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 掩码,用于 nullify 自注意力模块的选定 head。 掩码值在 [0, 1] 中选择:

    • 1 表示 head 未被掩码
    • 0 表示 head 已被掩码
  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — (可选)您可以选择直接传递嵌入表示,而不是传递 input_ids。 如果您希望更好地控制如何将 input_ids 索引转换为关联的向量,而不是模型的内部嵌入查找矩阵,这将非常有用。
  • output_attentions (bool可选) — 是否返回所有 attention 层的 attention tensors。 有关更多详细信息,请参阅返回的 tensors 下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回的 tensors 下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是普通 tuple。
  • labels (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 用于计算 token 分类损失的标签。 索引应在 [0, ..., config.num_labels - 1] 中。

Returns

transformers.modeling_outputs.TokenClassifierOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor 的 tuple(如果传递了 return_dict=False 或当 config.return_dict=False 时),其中包含各种元素,具体取决于配置 (LayoutLMv2Config) 和输入。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 labels 时返回) — 分类损失。

  • logits (torch.FloatTensor,形状为 (batch_size, sequence_length, config.num_labels)) — 分类得分(在 SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。

LayoutLMv2ForTokenClassification 的 forward 方法,覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。

示例

>>> from transformers import AutoProcessor, LayoutLMv2ForTokenClassification, set_seed
>>> from PIL import Image
>>> from datasets import load_dataset

>>> set_seed(0)

>>> datasets = load_dataset("nielsr/funsd", split="test", trust_remote_code=True)
>>> labels = datasets.features["ner_tags"].feature.names
>>> id2label = {v: k for v, k in enumerate(labels)}

>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")
>>> model = LayoutLMv2ForTokenClassification.from_pretrained(
...     "microsoft/layoutlmv2-base-uncased", num_labels=len(labels)
... )

>>> data = datasets[0]
>>> image = Image.open(data["image_path"]).convert("RGB")
>>> words = data["words"]
>>> boxes = data["bboxes"]  # make sure to normalize your bounding boxes
>>> word_labels = data["ner_tags"]
>>> encoding = processor(
...     image,
...     words,
...     boxes=boxes,
...     word_labels=word_labels,
...     padding="max_length",
...     truncation=True,
...     return_tensors="pt",
... )

>>> outputs = model(**encoding)
>>> logits, loss = outputs.logits, outputs.loss

>>> predicted_token_class_ids = logits.argmax(-1)
>>> predicted_tokens_classes = [id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes[:5]  # results are not good without further fine-tuning
['I-HEADER', 'I-HEADER', 'I-QUESTION', 'I-HEADER', 'I-QUESTION']

LayoutLMv2ForQuestionAnswering

class transformers.LayoutLMv2ForQuestionAnswering

< >

( config has_visual_segment_embedding = True )

参数

  • config (LayoutLMv2Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。

LayoutLMv2 模型,顶部带有一个 span 分类头,用于抽取式问答任务,例如 DocVQA(隐藏状态文本部分顶部的一个线性层,用于计算 span start logitsspan end logits)。

此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。

forward(前向传播)

< >

( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None start_positions: typing.Optional[torch.LongTensor] = None end_positions: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.QuestionAnsweringModelOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 batch_size, sequence_length) — 词汇表中输入序列 token 的索引。

    索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 IDs?

  • bbox (torch.LongTensor,形状为 (batch_size, sequence_length, 4)可选) — 每个输入序列标记的边界框。在范围 [0, config.max_2d_position_embeddings-1] 中选择。每个边界框都应该是 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框左上角的位置,而 (x1, y1) 表示右下角的位置。
  • image (torch.FloatTensor,形状为 (batch_size, num_channels, height, width)detectron.structures.ImageList,其 tensors 的形状为 (batch_size, num_channels, height, width)) — 文档图像批次。
  • attention_mask (torch.FloatTensor,形状为 batch_size, sequence_length可选) — 掩码,用于避免对填充标记索引执行注意力机制。掩码值在 [0, 1] 中选择:

    • 1 表示未被掩码的标记,
    • 0 表示已被掩码的标记。

    什么是注意力掩码?

  • token_type_ids (torch.LongTensor,形状为 batch_size, sequence_length可选) — 段落标记索引,用于指示输入的第一个和第二个部分。索引在 [0, 1] 中选择:

    • 0 对应于 句子 A 标记,
    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (torch.LongTensor,形状为 batch_size, sequence_length可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是位置 ID?

  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 掩码,用于使自注意力模块中选定的 head 失效。掩码值在 [0, 1] 中选择:

    • 1 表示 head 未被掩码
    • 0 表示 head 已被掩码
  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是普通元组。
  • start_positions (torch.LongTensor,形状为 (batch_size,)可选) — 用于计算标记分类损失的已标记跨度起始位置(索引)的标签。位置被限制在序列的长度 (sequence_length) 内。序列之外的位置不计入损失计算。
  • end_positions (torch.LongTensor,形状为 (batch_size,)可选) — 用于计算标记分类损失的已标记跨度结束位置(索引)的标签。位置被限制在序列的长度 (sequence_length) 内。序列之外的位置不计入损失计算。

Returns

transformers.modeling_outputs.QuestionAnsweringModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含取决于配置 (LayoutLMv2Config) 和输入的各种元素。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 labels 时返回) — 总跨度提取损失是起始位置和结束位置交叉熵损失的总和。

  • start_logits (torch.FloatTensor,形状为 (batch_size, sequence_length)) — 跨度起始得分(SoftMax 之前)。

  • end_logits (torch.FloatTensor,形状为 (batch_size, sequence_length)) — 跨度结束得分(SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。

LayoutLMv2ForQuestionAnswering 的 forward 方法重写了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。

示例

在下面的示例中,我们给 LayoutLMv2 模型一张图像(包含文本),并向它提问。它将给出它认为的答案的预测(答案在从图像中解析出的文本中的跨度)。

>>> from transformers import AutoProcessor, LayoutLMv2ForQuestionAnswering, set_seed
>>> import torch
>>> from PIL import Image
>>> from datasets import load_dataset

>>> set_seed(0)
>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> model = LayoutLMv2ForQuestionAnswering.from_pretrained("microsoft/layoutlmv2-base-uncased")

>>> dataset = load_dataset("hf-internal-testing/fixtures_docvqa", trust_remote_code=True)
>>> image_path = dataset["test"][0]["file"]
>>> image = Image.open(image_path).convert("RGB")
>>> question = "When is coffee break?"
>>> encoding = processor(image, question, return_tensors="pt")

>>> outputs = model(**encoding)
>>> predicted_start_idx = outputs.start_logits.argmax(-1).item()
>>> predicted_end_idx = outputs.end_logits.argmax(-1).item()
>>> predicted_start_idx, predicted_end_idx
(30, 191)

>>> predicted_answer_tokens = encoding.input_ids.squeeze()[predicted_start_idx : predicted_end_idx + 1]
>>> predicted_answer = processor.tokenizer.decode(predicted_answer_tokens)
>>> predicted_answer  # results are not good without further fine-tuning
'44 a. m. to 12 : 25 p. m. 12 : 25 to 12 : 58 p. m. 12 : 58 to 4 : 00 p. m. 2 : 00 to 5 : 00 p. m. coffee break coffee will be served for men and women in the lobby adjacent to exhibit area. please move into exhibit area. ( exhibits open ) trrf general session ( part | ) presiding : lee a. waller trrf vice president “ introductory remarks ” lee a. waller, trrf vice presi - dent individual interviews with trrf public board members and sci - entific advisory council mem - bers conducted by trrf treasurer philip g. kuehn to get answers which the public refrigerated warehousing industry is looking for. plus questions from'
>>> target_start_index = torch.tensor([7])
>>> target_end_index = torch.tensor([14])
>>> outputs = model(**encoding, start_positions=target_start_index, end_positions=target_end_index)
>>> predicted_answer_span_start = outputs.start_logits.argmax(-1).item()
>>> predicted_answer_span_end = outputs.end_logits.argmax(-1).item()
>>> predicted_answer_span_start, predicted_answer_span_end
(30, 191)
< > GitHub 上更新