LayoutLMV2

概述

LayoutLMV2 模型在 LayoutLMv2：用于视觉丰富文档理解的多模态预训练中被提出，作者为 Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou。LayoutLMV2 改进了 LayoutLM，在多个文档图像理解基准测试中获得了最先进的结果。

从扫描文档中提取信息：FUNSD 数据集（包含超过 30,000 个单词的 199 个带注释表格的集合）、CORD 数据集（包含 800 张收据用于训练，100 张用于验证，100 张用于测试）、SROIE 数据集（包含 626 张收据用于训练，347 张收据用于测试）和 Kleister-NDA 数据集（来自 EDGAR 数据库的保密协议集合，包括 254 份文档用于训练，83 份文档用于验证，以及 203 份文档用于测试）。
文档图像分类：RVL-CDIP 数据集（包含 400,000 张图像，属于 16 个类别之一）。
文档视觉问答：DocVQA 数据集（包含在 12,000 多个文档图像上定义的 50,000 个问题）。

以下是论文的摘要

由于其有效的模型架构和大规模未标记扫描/数字原生文档的优势，文本和布局的预训练已被证明在各种视觉丰富的文档理解任务中有效。在本文中，我们提出了 LayoutLMv2，通过在多模态框架中预训练文本、布局和图像，其中利用了新的模型架构和预训练任务。具体来说，LayoutLMv2 不仅使用了现有的掩码视觉语言建模任务，还在预训练阶段使用了新的文本-图像对齐和文本-图像匹配任务，从而更好地学习了跨模态交互。同时，它还在 Transformer 架构中集成了一种空间感知自注意力机制，以便模型可以充分理解不同文本块之间的相对位置关系。实验结果表明，LayoutLMv2 优于强大的基线，并在各种下游视觉丰富的文档理解任务中取得了新的最先进的结果，包括 FUNSD (0.7895 -> 0.8420)、CORD (0.9493 -> 0.9601)、SROIE (0.9524 -> 0.9781)、Kleister-NDA (0.834 -> 0.852)、RVL-CDIP (0.9443 -> 0.9564) 和 DocVQA (0.7295 -> 0.8672)。预训练的 LayoutLMv2 模型在此 https URL 上公开提供。

LayoutLMV2 依赖于 detectron2、torchvision 和 tesseract。运行以下命令安装它们

python -m pip install 'git+https://github.com/facebookresearch/detectron2.git'
python -m pip install torchvision tesseract

（如果您正在为 LayoutLMV2 开发，请注意，通过 doctest 也需要安装这些软件包。）

使用技巧

LayoutLMv1 和 LayoutLMv2 之间的主要区别在于后者在预训练期间 incorporated 了视觉嵌入（而 LayoutLMv1 仅在微调期间添加视觉嵌入）。
LayoutLMv2 在自注意力层中的注意力分数中同时添加了相对 1D 注意力偏差和空间 2D 注意力偏差。详细信息可以在论文的第 5 页找到。
关于如何在 RVL-CDIP、FUNSD、DocVQA、CORD 上使用 LayoutLMv2 模型的演示笔记本可以在这里找到。
LayoutLMv2 使用 Facebook AI 的 Detectron2 包作为其视觉骨干网络。有关安装说明，请参阅此链接。
除了 input_ids，forward() 还期望 2 个额外的输入，即 image 和 bbox。image 输入对应于文本标记出现的原始文档图像。该模型期望每个文档图像的大小为 224x224。这意味着，如果您有一批文档图像，则 image 应为形状为 (batch_size, 3, 224, 224) 的张量。这可以是 torch.Tensor 或 Detectron2.structures.ImageList。您无需标准化通道，因为这由模型完成。需要注意的是，视觉骨干网络期望 BGR 通道而不是 RGB，因为 Detectron2 中的所有模型都使用 BGR 格式进行预训练。bbox 输入是输入文本标记的边界框（即 2D 位置）。这与 LayoutLMModel 相同。这些可以使用外部 OCR 引擎获得，例如 Google 的 Tesseract（有一个可用的 Python 封装器）。每个边界框应采用 (x0, y0, x1, y1) 格式，其中 (x0, y0) 对应于边界框左上角的位置，(x1, y1) 表示右下角的位置。请注意，首先需要将边界框标准化为 0-1000 比例。要标准化，您可以使用以下函数

def normalize_bbox(bbox, width, height):
    return [
        int(1000 * (bbox[0] / width)),
        int(1000 * (bbox[1] / height)),
        int(1000 * (bbox[2] / width)),
        int(1000 * (bbox[3] / height)),
    ]

在这里，width 和 height 对应于标记出现的原始文档的宽度和高度（在调整图像大小之前）。例如，可以使用 Python Image Library (PIL) 库获得这些值，如下所示

from PIL import Image

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
)

width, height = image.size

但是，此模型包含一个全新的 LayoutLMv2Processor，可用于直接为模型准备数据（包括在后台应用 OCR）。更多信息可以在下面的“用法”部分找到。

在内部，LayoutLMv2Model 将通过其视觉骨干网络发送 image 输入，以获得较低分辨率的特征图，其形状等于 LayoutLMv2Config 的 image_feature_pool_shape 属性。然后将此特征图展平以获得图像标记序列。由于特征图的大小默认情况下为 7x7，因此获得 49 个图像标记。然后将这些与文本标记连接，并通过 Transformer 编码器发送。这意味着，如果您将文本标记填充到最大长度，则模型的最后一个隐藏状态的长度将为 512 + 49 = 561。更一般地，最后一个隐藏状态的形状将为 seq_length + image_feature_pool_shape[0] * config.image_feature_pool_shape[1]。
当调用 from_pretrained() 时，将打印警告，其中包含未初始化的长参数名称列表。这不是问题，因为这些参数是批归一化统计信息，在自定义数据集上进行微调时将具有值。
如果您想在分布式环境中训练模型，请确保在模型上调用 synchronize_batch_norm，以便正确同步视觉骨干网络的批归一化层。

此外，还有 LayoutXLM，它是 LayoutLMv2 的多语言版本。更多信息可以在 LayoutXLM 的文档页面上找到。

资源

官方 Hugging Face 和社区（🌎 表示）资源的列表，可帮助您开始使用 LayoutLMv2。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！理想情况下，该资源应展示一些新内容，而不是重复现有资源。

文本分类

关于如何在 RVL-CDIP 数据集上微调 LayoutLMv2 进行文本分类的笔记本。
另请参阅：文本分类任务指南

问题回答

关于如何在 DocVQA 数据集上微调 LayoutLMv2 进行问题回答的笔记本。
另请参阅：问题回答任务指南
另请参阅：文档问题回答任务指南

标记分类

关于如何在 CORD 数据集上微调 LayoutLMv2 进行标记分类的笔记本。
关于如何在 FUNSD 数据集上微调 LayoutLMv2 进行标记分类的笔记本。
另请参阅：标记分类任务指南

用法：LayoutLMv2Processor

为模型准备数据的最简单方法是使用 LayoutLMv2Processor，它在内部结合了图像处理器 (LayoutLMv2ImageProcessor) 和分词器 (LayoutLMv2Tokenizer 或 LayoutLMv2TokenizerFast)。图像处理器处理图像模态，而分词器处理文本模态。处理器结合了两者，这对于像 LayoutLMv2 这样的多模态模型来说是理想的。请注意，如果您只想处理一种模态，您仍然可以单独使用两者。

from transformers import LayoutLMv2ImageProcessor, LayoutLMv2TokenizerFast, LayoutLMv2Processor

image_processor = LayoutLMv2ImageProcessor()  # apply_ocr is set to True by default
tokenizer = LayoutLMv2TokenizerFast.from_pretrained("microsoft/layoutlmv2-base-uncased")
processor = LayoutLMv2Processor(image_processor, tokenizer)

简而言之，可以将文档图像（以及可能的其他数据）提供给 LayoutLMv2Processor，它将创建模型期望的输入。在内部，处理器首先使用 LayoutLMv2ImageProcessor 对图像应用 OCR，以获取单词列表和标准化的边界框，以及将图像调整为给定大小，以获得 image 输入。然后将单词和标准化的边界框提供给 LayoutLMv2Tokenizer 或 LayoutLMv2TokenizerFast，后者将其转换为标记级别的 input_ids、attention_mask、token_type_ids、bbox。可选地，可以向处理器提供单词标签，这些标签将转换为标记级别的 labels。

LayoutLMv2Processor 在后台使用 PyTesseract，它是 Google 的 Tesseract OCR 引擎的 Python 封装器。请注意，您仍然可以使用自己选择的 OCR 引擎，并自己提供单词和标准化的框。这需要使用设置为 False 的 apply_ocr 初始化 LayoutLMv2ImageProcessor。

总共有 5 种处理器支持的用例。下面，我们列出所有这些用例。请注意，这些用例中的每一个都适用于批量和非批量输入（我们为非批量输入说明它们）。

用例 1：文档图像分类（训练、推理）+ 标记分类（推理），apply_ocr = True

这是最简单的情况，其中处理器（实际上是图像处理器）将对图像执行 OCR 以获取单词和标准化的边界框。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
encoding = processor(
    image, return_tensors="pt"
)  # you can also add all tokenizer parameters here such as padding, truncation
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例 2：文档图像分类（训练、推理）+ 标记分类（推理），apply_ocr=False

如果想要自己进行 OCR，可以将图像处理器初始化为 apply_ocr 设置为 False。在这种情况下，应将单词和相应的（标准化的）边界框自己提供给处理器。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
encoding = processor(image, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例 3：标记分类（训练），apply_ocr=False

对于标记分类任务（例如 FUNSD、CORD、SROIE、Kleister-NDA），还可以提供相应的单词标签以训练模型。然后，处理器会将这些标签转换为标记级别的 labels。默认情况下，它只会标记单词的第一个 wordpiece，并将剩余的 wordpiece 标记为 -100，这是 PyTorch 的 CrossEntropyLoss 的 ignore_index。如果您希望标记单词的所有 wordpiece，可以将分词器初始化为 only_label_first_subword 设置为 False。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
word_labels = [1, 2]
encoding = processor(image, words, boxes=boxes, word_labels=word_labels, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'labels', 'image'])

用例 4：视觉问答（推理），apply_ocr=True

对于视觉问答任务（例如 DocVQA），您可以向处理器提供问题。默认情况下，处理器将对图像应用 OCR，并创建 [CLS] 问题标记 [SEP] 单词标记 [SEP]。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
encoding = processor(image, question, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例 5：视觉问答（推理），apply_ocr=False

对于视觉问答任务（例如 DocVQA），您可以向处理器提供问题。如果您想自己执行 OCR，可以将您自己的单词和（标准化的）边界框提供给处理器。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

Transformers

LayoutLMV2

概述

使用技巧

资源

用法：LayoutLMv2Processor

LayoutLMv2Config

class transformers.LayoutLMv2Config

LayoutLMv2FeatureExtractor

class transformers.LayoutLMv2FeatureExtractor

__call__

LayoutLMv2ImageProcessor

class transformers.LayoutLMv2ImageProcessor

preprocess

LayoutLMv2Tokenizer

class transformers.LayoutLMv2Tokenizer

__call__

save_vocabulary

LayoutLMv2TokenizerFast

class transformers.LayoutLMv2TokenizerFast

__call__

LayoutLMv2Processor

class transformers.LayoutLMv2Processor

__call__

LayoutLMv2Model

class transformers.LayoutLMv2Model

forward（前向传播）

LayoutLMv2ForSequenceClassification

class transformers.LayoutLMv2ForSequenceClassification

forward（前向传播）

LayoutLMv2ForTokenClassification

class transformers.LayoutLMv2ForTokenClassification

forward（前向传播）

LayoutLMv2ForQuestionAnswering

class transformers.LayoutLMv2ForQuestionAnswering

forward（前向传播）

call

call

call

call