DiT
概述
DiT 由 Junlong Li、Yiheng Xu、Tengchao Lv、Lei Cui、Cha Zhang 和 Furu Wei 在 DiT: Self-supervised Pre-training for Document Image Transformer 中提出。DiT 将 BEiT(BERT 预训练图像 Transformer)的自监督目标应用于 4200 万张文档图像,从而在包括以下任务在内的任务中取得了最先进的结果
- 文档图像分类:RVL-CDIP 数据集(包含 400,000 张图像,属于 16 个类别中的一个)。
- 文档版式分析:PubLayNet 数据集(通过自动解析 PubMed XML 文件构建的 360,000 多张文档图像集合)。
- 表格检测:ICDAR 2019 cTDaR 数据集(包含 600 张训练图像和 240 张测试图像)。
论文摘要如下:
图像 Transformer 最近在自然图像理解方面取得了重大进展,无论是使用监督(ViT、DeiT 等)还是自监督(BEiT、MAE 等)预训练技术。在本文中,我们提出了 DiT,这是一种使用大规模未标记文本图像进行文档 AI 任务的自监督预训练文档图像 Transformer 模型,这至关重要,因为由于缺乏人工标注的文档图像,因此从未存在过任何监督对应模型。我们将 DiT 作为各种基于视觉的文档 AI 任务的主干网络,包括文档图像分类、文档版式分析以及表格检测。实验结果表明,自监督预训练的 DiT 模型在这些下游任务上取得了新的最先进的结果,例如文档图像分类(91.11 → 92.69)、文档版式分析(91.0 → 94.9)和表格检测(94.23 → 96.55)。
方法概述。摘自[原始论文](https://arxiv.org/abs/2203.02378)。此模型由 nielsr 贡献。原始代码可以在这里找到 这里。
使用技巧
可以使用 AutoModel API 直接使用 DiT 的权重
from transformers import AutoModel
model = AutoModel.from_pretrained("microsoft/dit-base")
这将加载在掩码图像建模上预训练的模型。请注意,这不会包含顶部的语言建模头,该头用于预测视觉标记。
要包含头部,可以将权重加载到 BeitForMaskedImageModeling
模型中,如下所示
from transformers import BeitForMaskedImageModeling
model = BeitForMaskedImageModeling.from_pretrained("microsoft/dit-base")
也可以从 中心 加载微调模型,如下所示
from transformers import AutoModelForImageClassification
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
此特定检查点在 RVL-CDIP 上进行了微调,这是文档图像分类的一个重要基准。一个说明文档图像分类推理的笔记本可以在这里找到 这里。
资源
帮助您开始使用 DiT 的官方 Hugging Face 和社区(由🌎表示)资源列表。
- BeitForImageClassification 由此 示例脚本 和 笔记本 支持。
如果您有兴趣提交要包含在此处的资源,请随时打开一个拉取请求,我们将对其进行审查!理想情况下,资源应展示一些新内容,而不是复制现有资源。
由于 DiT 的架构等同于 BEiT 的架构,因此可以参考 BEiT 的文档页面 获取所有提示、代码示例和笔记本。