Transformers 文档
DiT
并获得增强的文档体验
开始使用
DiT
概述
DiT 在 DiT: Self-supervised Pre-training for Document Image Transformer (作者: Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei) 中被提出。DiT 将 BEiT (BERT 预训练图像 Transformer) 的自监督目标应用于 4200 万张文档图像,从而在包括以下任务中实现了最先进的结果:
- 文档图像分类:RVL-CDIP 数据集(包含 400,000 张图像,属于 16 个类别之一)。
- 文档布局分析:PubLayNet 数据集(包含超过 360,000 张文档图像,通过自动解析 PubMed XML 文件构建)。
- 表格检测:ICDAR 2019 cTDaR 数据集(包含 600 张训练图像和 240 张测试图像)。
以下是论文的摘要:
图像 Transformer 最近在自然图像理解方面取得了重大进展,无论是使用监督式(ViT、DeiT 等)还是自监督式(BEiT、MAE 等)预训练技术。在本文中,我们提出了 DiT,一种自监督预训练文档图像 Transformer 模型,它使用大规模未标记的文本图像用于文档 AI 任务,这至关重要,因为由于缺乏人工标记的文档图像,因此不存在任何监督式模型。我们将 DiT 用作各种基于视觉的文档 AI 任务的骨干网络,包括文档图像分类、文档布局分析以及表格检测。实验结果表明,自监督预训练的 DiT 模型在这些下游任务上取得了新的最先进的结果,例如文档图像分类 (91.11 → 92.69)、文档布局分析 (91.0 → 94.9) 和表格检测 (94.23 → 96.55)。

使用技巧
可以直接使用 AutoModel API 加载 DiT 的权重
from transformers import AutoModel
model = AutoModel.from_pretrained("microsoft/dit-base")
这将加载在掩码图像建模上预训练的模型。请注意,这不会包含顶部的语言建模头,该头部用于预测视觉标记。
要包含头部,您可以将权重加载到 BeitForMaskedImageModeling
模型中,如下所示
from transformers import BeitForMaskedImageModeling
model = BeitForMaskedImageModeling.from_pretrained("microsoft/dit-base")
您还可以从 hub 加载微调模型,如下所示
from transformers import AutoModelForImageClassification
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
此特定检查点在 RVL-CDIP 上进行了微调,RVL-CDIP 是文档图像分类的重要基准。 有关说明文档图像分类推理的 notebook,请访问此处。
资源
官方 Hugging Face 和社区 (🌎 表示) 资源列表,可帮助您开始使用 DiT。
如果您有兴趣提交资源并将其收录在此处,请随时打开 Pull Request,我们将对其进行审核!该资源最好展示一些新的内容,而不是重复现有资源。
由于 DiT 的架构与 BEiT 的架构等效,因此可以参考 BEiT 的文档页面,以获取所有提示、代码示例和 notebook。