LayoutLMv3

概述

LayoutLMv3 模型在 LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking 中提出，作者为 Yupan Huang、Tengchao Lv、Lei Cui、Yutong Lu、Furu Wei。LayoutLMv3 通过使用 patch embeddings（如 ViT 中所示）而不是利用 CNN 主干，简化了 LayoutLMv2，并在 3 个目标上预训练模型：masked language modeling (MLM)、masked image modeling (MIM) 和 word-patch alignment (WPA)。

论文摘要如下：

自监督预训练技术在文档人工智能领域取得了显著进展。大多数多模态预训练模型使用 masked language modeling 目标来学习文本模态上的双向表示，但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。在本文中，我们提出了 LayoutLMv3，通过统一的文本和图像掩码预训练用于文档人工智能的多模态 Transformer。此外，LayoutLMv3 还使用 word-patch alignment 目标进行预训练，通过预测文本单词的相应图像 patch 是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使 LayoutLMv3 成为通用的预训练模型，适用于以文本为中心和以图像为中心的文档人工智能任务。实验结果表明，LayoutLMv3 不仅在以文本为中心的任务（包括表单理解、收据理解和文档视觉问答）中，而且在以图像为中心的任务（如文档图像分类和文档布局分析）中，都实现了最先进的性能。

LayoutLMv3 架构。摘自原始论文。

此模型由 nielsr 贡献。此模型的 TensorFlow 版本由 chriskoo、tokec 和 lre 添加。原始代码可以在这里找到。

使用技巧

在数据处理方面，LayoutLMv3 与其前身 LayoutLMv2 相同，除了：
- 图像需要调整大小并以常规 RGB 格式标准化通道。另一方面，LayoutLMv2 在内部标准化图像，并期望通道采用 BGR 格式。
- 文本使用 byte-pair encoding (BPE) 进行分词，而不是 WordPiece。由于数据预处理中的这些差异，可以使用 LayoutLMv3Processor，它在内部结合了 LayoutLMv3ImageProcessor（用于图像模态）和 LayoutLMv3Tokenizer/LayoutLMv3TokenizerFast（用于文本模态），以准备模型的所有数据。
关于 LayoutLMv3Processor 的使用，我们参考其前身使用指南。

资源

以下是官方 Hugging Face 和社区（🌎 表示）资源列表，可帮助您开始使用 LayoutLMv3。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！资源最好能展示一些新的东西，而不是重复现有的资源。

LayoutLMv3 几乎与 LayoutLMv2 相同，因此我们也包括了您可以为 LayoutLMv3 任务调整的 LayoutLMv2 资源。对于这些 notebook，在为模型准备数据时，请注意使用 LayoutLMv2Processor！

LayoutLMv3 的演示 notebook 可以在这里找到。
演示脚本可以在这里找到。

文本分类

LayoutLMv2ForSequenceClassification 由此notebook支持。
文本分类任务指南

Token 分类

LayoutLMv3ForTokenClassification 由此示例脚本和notebook支持。
关于如何使用 LayoutLMv2ForTokenClassification 执行推理的notebook，以及关于当没有标签可用时如何使用 LayoutLMv2ForTokenClassification 执行推理的notebook。
关于如何使用 🤗 Trainer 微调 LayoutLMv2ForTokenClassification 的notebook。
Token 分类任务指南

问答

LayoutLMv2ForQuestionAnswering 由此notebook支持。
问答任务指南

文档问答

Transformers

LayoutLMv3

概述

使用技巧

资源

LayoutLMv3Config

class transformers.LayoutLMv3Config

LayoutLMv3FeatureExtractor

class transformers.LayoutLMv3FeatureExtractor

__call__

LayoutLMv3ImageProcessor

class transformers.LayoutLMv3ImageProcessor

preprocess

LayoutLMv3Tokenizer

class transformers.LayoutLMv3Tokenizer

__call__

save_vocabulary

LayoutLMv3TokenizerFast

class transformers.LayoutLMv3TokenizerFast

__call__

LayoutLMv3Processor

class transformers.LayoutLMv3Processor

__call__

LayoutLMv3Model

class transformers.LayoutLMv3Model

forward

LayoutLMv3ForSequenceClassification

class transformers.LayoutLMv3ForSequenceClassification

forward

LayoutLMv3ForTokenClassification

class transformers.LayoutLMv3ForTokenClassification

forward

LayoutLMv3ForQuestionAnswering

class transformers.LayoutLMv3ForQuestionAnswering

forward

TFLayoutLMv3Model

class transformers.TFLayoutLMv3Model

call

TFLayoutLMv3ForSequenceClassification

class transformers.TFLayoutLMv3ForSequenceClassification

call

TFLayoutLMv3ForTokenClassification

class transformers.TFLayoutLMv3ForTokenClassification

call

TFLayoutLMv3ForQuestionAnswering

class transformers.TFLayoutLMv3ForQuestionAnswering

call

call

call

call

call