Transformers 文档

DiT

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

DiT

PyTorch Flax

概述

DiT 在 DiT: Self-supervised Pre-training for Document Image Transformer (作者: Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei) 中被提出。DiT 将 BEiT (BERT 预训练图像 Transformer) 的自监督目标应用于 4200 万张文档图像,从而在包括以下任务中实现了最先进的结果:

  • 文档图像分类:RVL-CDIP 数据集(包含 400,000 张图像,属于 16 个类别之一)。
  • 文档布局分析:PubLayNet 数据集(包含超过 360,000 张文档图像,通过自动解析 PubMed XML 文件构建)。
  • 表格检测:ICDAR 2019 cTDaR 数据集(包含 600 张训练图像和 240 张测试图像)。

以下是论文的摘要:

图像 Transformer 最近在自然图像理解方面取得了重大进展,无论是使用监督式(ViT、DeiT 等)还是自监督式(BEiT、MAE 等)预训练技术。在本文中,我们提出了 DiT,一种自监督预训练文档图像 Transformer 模型,它使用大规模未标记的文本图像用于文档 AI 任务,这至关重要,因为由于缺乏人工标记的文档图像,因此不存在任何监督式模型。我们将 DiT 用作各种基于视觉的文档 AI 任务的骨干网络,包括文档图像分类、文档布局分析以及表格检测。实验结果表明,自监督预训练的 DiT 模型在这些下游任务上取得了新的最先进的结果,例如文档图像分类 (91.11 → 92.69)、文档布局分析 (91.0 → 94.9) 和表格检测 (94.23 → 96.55)。

drawing 方法总结。摘自[原始论文](https://arxiv.org/abs/2203.02378)。

此模型由 nielsr 贡献。 原始代码可以在这里找到。

使用技巧

可以直接使用 AutoModel API 加载 DiT 的权重

from transformers import AutoModel

model = AutoModel.from_pretrained("microsoft/dit-base")

这将加载在掩码图像建模上预训练的模型。请注意,这不会包含顶部的语言建模头,该头部用于预测视觉标记。

要包含头部,您可以将权重加载到 BeitForMaskedImageModeling 模型中,如下所示

from transformers import BeitForMaskedImageModeling

model = BeitForMaskedImageModeling.from_pretrained("microsoft/dit-base")

您还可以从 hub 加载微调模型,如下所示

from transformers import AutoModelForImageClassification

model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")

此特定检查点在 RVL-CDIP 上进行了微调,RVL-CDIP 是文档图像分类的重要基准。 有关说明文档图像分类推理的 notebook,请访问此处

资源

官方 Hugging Face 和社区 (🌎 表示) 资源列表,可帮助您开始使用 DiT。

图像分类

如果您有兴趣提交资源并将其收录在此处,请随时打开 Pull Request,我们将对其进行审核!该资源最好展示一些新的内容,而不是重复现有资源。

由于 DiT 的架构与 BEiT 的架构等效,因此可以参考 BEiT 的文档页面,以获取所有提示、代码示例和 notebook。

< > 在 GitHub 上更新