Transformers 文档

DiT

Hugging Face's logo
加入Hugging Face社区

并获得增强文档体验

开始使用

DiT

概述

DiT 由 Junlong Li、Yiheng Xu、Tengchao Lv、Lei Cui、Cha Zhang 和 Furu Wei 在 DiT: Self-supervised Pre-training for Document Image Transformer 中提出。DiT 将 BEiT(BERT 预训练图像 Transformer)的自监督目标应用于 4200 万张文档图像,从而在包括以下任务在内的任务中取得了最先进的结果

  • 文档图像分类:RVL-CDIP 数据集(包含 400,000 张图像,属于 16 个类别中的一个)。
  • 文档版式分析:PubLayNet 数据集(通过自动解析 PubMed XML 文件构建的 360,000 多张文档图像集合)。
  • 表格检测:ICDAR 2019 cTDaR 数据集(包含 600 张训练图像和 240 张测试图像)。

论文摘要如下:

图像 Transformer 最近在自然图像理解方面取得了重大进展,无论是使用监督(ViT、DeiT 等)还是自监督(BEiT、MAE 等)预训练技术。在本文中,我们提出了 DiT,这是一种使用大规模未标记文本图像进行文档 AI 任务的自监督预训练文档图像 Transformer 模型,这至关重要,因为由于缺乏人工标注的文档图像,因此从未存在过任何监督对应模型。我们将 DiT 作为各种基于视觉的文档 AI 任务的主干网络,包括文档图像分类、文档版式分析以及表格检测。实验结果表明,自监督预训练的 DiT 模型在这些下游任务上取得了新的最先进的结果,例如文档图像分类(91.11 → 92.69)、文档版式分析(91.0 → 94.9)和表格检测(94.23 → 96.55)。

绘图 方法概述。摘自[原始论文](https://arxiv.org/abs/2203.02378)。

此模型由 nielsr 贡献。原始代码可以在这里找到 这里

使用技巧

可以使用 AutoModel API 直接使用 DiT 的权重

from transformers import AutoModel

model = AutoModel.from_pretrained("microsoft/dit-base")

这将加载在掩码图像建模上预训练的模型。请注意,这不会包含顶部的语言建模头,该头用于预测视觉标记。

要包含头部,可以将权重加载到 BeitForMaskedImageModeling 模型中,如下所示

from transformers import BeitForMaskedImageModeling

model = BeitForMaskedImageModeling.from_pretrained("microsoft/dit-base")

也可以从 中心 加载微调模型,如下所示

from transformers import AutoModelForImageClassification

model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")

此特定检查点在 RVL-CDIP 上进行了微调,这是文档图像分类的一个重要基准。一个说明文档图像分类推理的笔记本可以在这里找到 这里

资源

帮助您开始使用 DiT 的官方 Hugging Face 和社区(由🌎表示)资源列表。

图像分类

如果您有兴趣提交要包含在此处的资源,请随时打开一个拉取请求,我们将对其进行审查!理想情况下,资源应展示一些新内容,而不是复制现有资源。

由于 DiT 的架构等同于 BEiT 的架构,因此可以参考 BEiT 的文档页面 获取所有提示、代码示例和笔记本。

< > 在 GitHub 上更新