Transformers 文档
LayoutLMV2
并获得增强的文档体验
开始使用
LayoutLMV2
概述
LayoutLMV2 模型在 LayoutLMv2:用于视觉丰富文档理解的多模态预训练 中被提出,作者为 Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou。LayoutLMV2 改进了 LayoutLM,在多个文档图像理解基准测试中获得了最先进的结果。
- 从扫描文档中提取信息:FUNSD 数据集(包含超过 30,000 个单词的 199 个带注释表格的集合)、CORD 数据集(包含 800 张收据用于训练,100 张用于验证,100 张用于测试)、SROIE 数据集(包含 626 张收据用于训练,347 张收据用于测试)和 Kleister-NDA 数据集(来自 EDGAR 数据库的保密协议集合,包括 254 份文档用于训练,83 份文档用于验证,以及 203 份文档用于测试)。
- 文档图像分类:RVL-CDIP 数据集(包含 400,000 张图像,属于 16 个类别之一)。
- 文档视觉问答:DocVQA 数据集(包含在 12,000 多个文档图像上定义的 50,000 个问题)。
以下是论文的摘要
由于其有效的模型架构和大规模未标记扫描/数字原生文档的优势,文本和布局的预训练已被证明在各种视觉丰富的文档理解任务中有效。在本文中,我们提出了 LayoutLMv2,通过在多模态框架中预训练文本、布局和图像,其中利用了新的模型架构和预训练任务。具体来说,LayoutLMv2 不仅使用了现有的掩码视觉语言建模任务,还在预训练阶段使用了新的文本-图像对齐和文本-图像匹配任务,从而更好地学习了跨模态交互。同时,它还在 Transformer 架构中集成了一种空间感知自注意力机制,以便模型可以充分理解不同文本块之间的相对位置关系。实验结果表明,LayoutLMv2 优于强大的基线,并在各种下游视觉丰富的文档理解任务中取得了新的最先进的结果,包括 FUNSD (0.7895 -> 0.8420)、CORD (0.9493 -> 0.9601)、SROIE (0.9524 -> 0.9781)、Kleister-NDA (0.834 -> 0.852)、RVL-CDIP (0.9443 -> 0.9564) 和 DocVQA (0.7295 -> 0.8672)。预训练的 LayoutLMv2 模型在此 https URL 上公开提供。
LayoutLMV2 依赖于 detectron2
、torchvision
和 tesseract
。运行以下命令安装它们
python -m pip install 'git+https://github.com/facebookresearch/detectron2.git'
python -m pip install torchvision tesseract
(如果您正在为 LayoutLMV2 开发,请注意,通过 doctest 也需要安装这些软件包。)
使用技巧
- LayoutLMv1 和 LayoutLMv2 之间的主要区别在于后者在预训练期间 incorporated 了视觉嵌入(而 LayoutLMv1 仅在微调期间添加视觉嵌入)。
- LayoutLMv2 在自注意力层中的注意力分数中同时添加了相对 1D 注意力偏差和空间 2D 注意力偏差。详细信息可以在 论文 的第 5 页找到。
- 关于如何在 RVL-CDIP、FUNSD、DocVQA、CORD 上使用 LayoutLMv2 模型的演示笔记本可以在这里找到。
- LayoutLMv2 使用 Facebook AI 的 Detectron2 包作为其视觉骨干网络。有关安装说明,请参阅此链接。
- 除了
input_ids
,forward() 还期望 2 个额外的输入,即image
和bbox
。image
输入对应于文本标记出现的原始文档图像。该模型期望每个文档图像的大小为 224x224。这意味着,如果您有一批文档图像,则image
应为形状为 (batch_size, 3, 224, 224) 的张量。这可以是torch.Tensor
或Detectron2.structures.ImageList
。您无需标准化通道,因为这由模型完成。需要注意的是,视觉骨干网络期望 BGR 通道而不是 RGB,因为 Detectron2 中的所有模型都使用 BGR 格式进行预训练。bbox
输入是输入文本标记的边界框(即 2D 位置)。这与 LayoutLMModel 相同。这些可以使用外部 OCR 引擎获得,例如 Google 的 Tesseract(有一个可用的 Python 封装器)。每个边界框应采用 (x0, y0, x1, y1) 格式,其中 (x0, y0) 对应于边界框左上角的位置,(x1, y1) 表示右下角的位置。请注意,首先需要将边界框标准化为 0-1000 比例。要标准化,您可以使用以下函数
def normalize_bbox(bbox, width, height):
return [
int(1000 * (bbox[0] / width)),
int(1000 * (bbox[1] / height)),
int(1000 * (bbox[2] / width)),
int(1000 * (bbox[3] / height)),
]
在这里,width
和 height
对应于标记出现的原始文档的宽度和高度(在调整图像大小之前)。例如,可以使用 Python Image Library (PIL) 库获得这些值,如下所示
from PIL import Image
image = Image.open(
"name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
)
width, height = image.size
但是,此模型包含一个全新的 LayoutLMv2Processor,可用于直接为模型准备数据(包括在后台应用 OCR)。更多信息可以在下面的“用法”部分找到。
- 在内部,LayoutLMv2Model 将通过其视觉骨干网络发送
image
输入,以获得较低分辨率的特征图,其形状等于 LayoutLMv2Config 的image_feature_pool_shape
属性。然后将此特征图展平以获得图像标记序列。由于特征图的大小默认情况下为 7x7,因此获得 49 个图像标记。然后将这些与文本标记连接,并通过 Transformer 编码器发送。这意味着,如果您将文本标记填充到最大长度,则模型的最后一个隐藏状态的长度将为 512 + 49 = 561。更一般地,最后一个隐藏状态的形状将为seq_length
+image_feature_pool_shape[0]
*config.image_feature_pool_shape[1]
。 - 当调用 from_pretrained() 时,将打印警告,其中包含未初始化的长参数名称列表。这不是问题,因为这些参数是批归一化统计信息,在自定义数据集上进行微调时将具有值。
- 如果您想在分布式环境中训练模型,请确保在模型上调用
synchronize_batch_norm
,以便正确同步视觉骨干网络的批归一化层。
此外,还有 LayoutXLM,它是 LayoutLMv2 的多语言版本。更多信息可以在 LayoutXLM 的文档页面 上找到。
资源
官方 Hugging Face 和社区(🌎 表示)资源的列表,可帮助您开始使用 LayoutLMv2。如果您有兴趣提交资源以包含在此处,请随时打开 Pull Request,我们将对其进行审核!理想情况下,该资源应展示一些新内容,而不是重复现有资源。
- 关于如何 在 RVL-CDIP 数据集上微调 LayoutLMv2 进行文本分类 的笔记本。
- 另请参阅:文本分类任务指南
- 关于如何 在 DocVQA 数据集上微调 LayoutLMv2 进行问题回答 的笔记本。
- 另请参阅:问题回答任务指南
- 另请参阅:文档问题回答任务指南
- 关于如何 在 CORD 数据集上微调 LayoutLMv2 进行标记分类 的笔记本。
- 关于如何 在 FUNSD 数据集上微调 LayoutLMv2 进行标记分类 的笔记本。
- 另请参阅:标记分类任务指南
用法:LayoutLMv2Processor
为模型准备数据的最简单方法是使用 LayoutLMv2Processor,它在内部结合了图像处理器 (LayoutLMv2ImageProcessor) 和分词器 (LayoutLMv2Tokenizer 或 LayoutLMv2TokenizerFast)。图像处理器处理图像模态,而分词器处理文本模态。处理器结合了两者,这对于像 LayoutLMv2 这样的多模态模型来说是理想的。请注意,如果您只想处理一种模态,您仍然可以单独使用两者。
from transformers import LayoutLMv2ImageProcessor, LayoutLMv2TokenizerFast, LayoutLMv2Processor
image_processor = LayoutLMv2ImageProcessor() # apply_ocr is set to True by default
tokenizer = LayoutLMv2TokenizerFast.from_pretrained("microsoft/layoutlmv2-base-uncased")
processor = LayoutLMv2Processor(image_processor, tokenizer)
简而言之,可以将文档图像(以及可能的其他数据)提供给 LayoutLMv2Processor,它将创建模型期望的输入。在内部,处理器首先使用 LayoutLMv2ImageProcessor 对图像应用 OCR,以获取单词列表和标准化的边界框,以及将图像调整为给定大小,以获得 image
输入。然后将单词和标准化的边界框提供给 LayoutLMv2Tokenizer 或 LayoutLMv2TokenizerFast,后者将其转换为标记级别的 input_ids
、attention_mask
、token_type_ids
、bbox
。可选地,可以向处理器提供单词标签,这些标签将转换为标记级别的 labels
。
LayoutLMv2Processor 在后台使用 PyTesseract,它是 Google 的 Tesseract OCR 引擎的 Python 封装器。请注意,您仍然可以使用自己选择的 OCR 引擎,并自己提供单词和标准化的框。这需要使用设置为 False
的 apply_ocr
初始化 LayoutLMv2ImageProcessor。
总共有 5 种处理器支持的用例。下面,我们列出所有这些用例。请注意,这些用例中的每一个都适用于批量和非批量输入(我们为非批量输入说明它们)。
用例 1:文档图像分类(训练、推理)+ 标记分类(推理),apply_ocr = True
这是最简单的情况,其中处理器(实际上是图像处理器)将对图像执行 OCR 以获取单词和标准化的边界框。
from transformers import LayoutLMv2Processor
from PIL import Image
processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")
image = Image.open(
"name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
encoding = processor(
image, return_tensors="pt"
) # you can also add all tokenizer parameters here such as padding, truncation
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])
用例 2:文档图像分类(训练、推理)+ 标记分类(推理),apply_ocr=False
如果想要自己进行 OCR,可以将图像处理器初始化为 apply_ocr
设置为 False
。在这种情况下,应将单词和相应的(标准化的)边界框自己提供给处理器。
from transformers import LayoutLMv2Processor
from PIL import Image
processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")
image = Image.open(
"name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]] # make sure to normalize your bounding boxes
encoding = processor(image, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])
用例 3:标记分类(训练),apply_ocr=False
对于标记分类任务(例如 FUNSD、CORD、SROIE、Kleister-NDA),还可以提供相应的单词标签以训练模型。然后,处理器会将这些标签转换为标记级别的 labels
。默认情况下,它只会标记单词的第一个 wordpiece,并将剩余的 wordpiece 标记为 -100,这是 PyTorch 的 CrossEntropyLoss 的 ignore_index
。如果您希望标记单词的所有 wordpiece,可以将分词器初始化为 only_label_first_subword
设置为 False
。
from transformers import LayoutLMv2Processor
from PIL import Image
processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")
image = Image.open(
"name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]] # make sure to normalize your bounding boxes
word_labels = [1, 2]
encoding = processor(image, words, boxes=boxes, word_labels=word_labels, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'labels', 'image'])
用例 4:视觉问答(推理),apply_ocr=True
对于视觉问答任务(例如 DocVQA),您可以向处理器提供问题。默认情况下,处理器将对图像应用 OCR,并创建 [CLS] 问题标记 [SEP] 单词标记 [SEP]。
from transformers import LayoutLMv2Processor
from PIL import Image
processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")
image = Image.open(
"name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
encoding = processor(image, question, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])
用例 5:视觉问答(推理),apply_ocr=False
对于视觉问答任务(例如 DocVQA),您可以向处理器提供问题。如果您想自己执行 OCR,可以将您自己的单词和(标准化的)边界框提供给处理器。
from transformers import LayoutLMv2Processor
from PIL import Image
processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")
image = Image.open(
"name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]] # make sure to normalize your bounding boxes
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])
LayoutLMv2Config
class transformers.LayoutLMv2Config
< source >( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 max_2d_position_embeddings = 1024 max_rel_pos = 128 rel_pos_bins = 32 fast_qkv = True max_rel_2d_pos = 256 rel_2d_pos_bins = 64 convert_sync_batchnorm = True image_feature_pool_shape = [7, 7, 256] coordinate_size = 128 shape_size = 128 has_relative_attention_bias = True has_spatial_attention_bias = True has_visual_segment_embedding = False detectron2_config_args = None **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 30522) — LayoutLMv2 模型的词汇表大小。 定义了在调用 LayoutLMv2Model 或TFLayoutLMv2Model
时,通过的inputs_ids
可以表示的不同 token 的数量。 - hidden_size (
int
, 可选, 默认为 768) — 编码器层和池化器层的维度。 - num_hidden_layers (
int
, 可选, 默认为 12) — Transformer 编码器中的隐藏层数。 - num_attention_heads (
int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。 - intermediate_size (
int
, 可选, 默认为 3072) — Transformer 编码器中“中间层”(即,前馈层)的维度。 - hidden_act (
str
或function
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。 如果是字符串,则支持"gelu"
,"relu"
,"selu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可选, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
float
, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。 - max_position_embeddings (
int
, 可选, 默认为 512) — 此模型可能使用的最大序列长度。 通常将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。 - type_vocab_size (
int
, 可选, 默认为 2) — 在调用 LayoutLMv2Model 或TFLayoutLMv2Model
时,通过的token_type_ids
的词汇表大小。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。 - layer_norm_eps (
float
, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。 - max_2d_position_embeddings (
int
, 可选, 默认为 1024) — 2D 位置嵌入可能使用的最大值。 通常将其设置为较大的值以防万一(例如,1024)。 - max_rel_pos (
int
, 可选, 默认为 128) — 自注意力机制中使用的最大相对位置数。 - rel_pos_bins (
int
, 可选, 默认为 32) — 自注意力机制中使用的相对位置 bins 的数量。 - fast_qkv (
bool
, 可选, 默认为True
) — 是否在自注意力层中对 queries, keys, values 使用单个矩阵。 - max_rel_2d_pos (
int
, 可选, 默认为 256) — 自注意力机制中最大相对 2D 位置数。 - rel_2d_pos_bins (
int
, 可选, 默认为 64) — 自注意力机制中 2D 相对位置 bins 的数量。 - image_feature_pool_shape (
List[int]
, 可选, 默认为 [7, 7, 256]) — 平均池化特征图的形状。 - coordinate_size (
int
, 可选, 默认为 128) — 坐标嵌入的维度。 - shape_size (
int
, 可选, 默认为 128) — 宽度和高度嵌入的维度。 - has_relative_attention_bias (
bool
, 可选, 默认为True
) — 是否在自注意力机制中使用相对注意力偏差。 - has_spatial_attention_bias (
bool
, 可选, 默认为True
) — 是否在自注意力机制中使用空间注意力偏差。 - has_visual_segment_embedding (
bool
, 可选, 默认为False
) — 是否添加视觉片段嵌入。 - detectron2_config_args (
dict
, 可选) — 包含 Detectron2 视觉 backbone 的配置参数的字典。 有关默认值的详细信息,请参阅此文件。
这是用于存储 LayoutLMv2Model 配置的配置类。 它用于根据指定的参数实例化 LayoutLMv2 模型,从而定义模型架构。 使用默认值实例化配置将产生与 LayoutLMv2 microsoft/layoutlmv2-base-uncased 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import LayoutLMv2Config, LayoutLMv2Model
>>> # Initializing a LayoutLMv2 microsoft/layoutlmv2-base-uncased style configuration
>>> configuration = LayoutLMv2Config()
>>> # Initializing a model (with random weights) from the microsoft/layoutlmv2-base-uncased style configuration
>>> model = LayoutLMv2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
LayoutLMv2FeatureExtractor
预处理图像或一批图像。
LayoutLMv2ImageProcessor
class transformers.LayoutLMv2ImageProcessor
< source >( do_resize: bool = True size: typing.Dict[str, int] = None resample: Resampling = <Resampling.BILINEAR: 2> apply_ocr: bool = True ocr_lang: typing.Optional[str] = None tesseract_config: typing.Optional[str] = '' **kwargs )
参数
- do_resize (
bool
, 可选, 默认为True
) — 是否将图像的(高度,宽度)尺寸调整为(size["height"], size["width"])
。可以被preprocess
中的do_resize
覆盖。 - size (
Dict[str, int]
可选, 默认为{"height" -- 224, "width": 224}
): 调整大小后图像的尺寸。可以被preprocess
中的size
覆盖。 - resample (
PILImageResampling
, 可选, 默认为Resampling.BILINEAR
) — 如果调整图像大小,则使用的重采样过滤器。可以被preprocess
方法中的resample
参数覆盖。 - apply_ocr (
bool
, 可选, 默认为True
) — 是否应用 Tesseract OCR 引擎来获取单词 + 归一化边界框。可以被preprocess
中的apply_ocr
覆盖。 - ocr_lang (
str
, 可选) — Tesseract OCR 引擎使用的语言,由其 ISO 代码指定。默认情况下,使用英语。可以被preprocess
中的ocr_lang
覆盖。 - tesseract_config (
str
, 可选, 默认为""
) — 传递给调用 Tesseract 时的config
参数的任何其他自定义配置标志。例如:'—psm 6'。可以被preprocess
中的tesseract_config
覆盖。
构建一个 LayoutLMv2 图像处理器。
preprocess
< source >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: bool = None size: typing.Dict[str, int] = None resample: Resampling = None apply_ocr: bool = None ocr_lang: typing.Optional[str] = None tesseract_config: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[transformers.image_utils.ChannelDimension, str, NoneType] = None )
参数
- images (
ImageInput
) — 要预处理的图像。 - do_resize (
bool
, 可选, 默认为self.do_resize
) — 是否调整图像大小。 - size (
Dict[str, int]
, 可选, 默认为self.size
) — 调整大小后输出图像的期望尺寸。 - resample (
PILImageResampling
, 可选, 默认为self.resample
) — 如果调整图像大小,则使用的重采样过滤器。这可以是枚举PIL.Image
重采样过滤器之一。仅当do_resize
设置为True
时才有效。 - apply_ocr (
bool
, 可选, 默认为self.apply_ocr
) — 是否应用 Tesseract OCR 引擎来获取单词 + 归一化边界框。 - ocr_lang (
str
, 可选, 默认为self.ocr_lang
) — Tesseract OCR 引擎使用的语言,由其 ISO 代码指定。默认情况下,使用英语。 - tesseract_config (
str
, 可选, 默认为self.tesseract_config
) — 传递给调用 Tesseract 时的config
参数的任何其他自定义配置标志。 - return_tensors (
str
或TensorType
, 可选) — 返回张量的类型。可以是以下之一:- Unset: 返回
np.ndarray
列表。 TensorType.TENSORFLOW
或'tf'
: 返回tf.Tensor
类型的批次。TensorType.PYTORCH
或'pt'
: 返回torch.Tensor
类型的批次。TensorType.NUMPY
或'np'
: 返回np.ndarray
类型的批次。TensorType.JAX
或'jax'
: 返回jax.numpy.ndarray
类型的批次。
- Unset: 返回
- data_format (
ChannelDimension
或str
, 可选, 默认为ChannelDimension.FIRST
) — 输出图像的通道维度格式。可以是以下之一:ChannelDimension.FIRST
: 图像格式为 (num_channels, height, width)。ChannelDimension.LAST
: 图像格式为 (height, width, num_channels)。
预处理图像或一批图像。
LayoutLMv2Tokenizer
class transformers.LayoutLMv2Tokenizer
< source >( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' cls_token_box = [0, 0, 0, 0] sep_token_box = [1000, 1000, 1000, 1000] pad_token_box = [0, 0, 0, 0] pad_token_label = -100 only_label_first_subword = True tokenize_chinese_chars = True strip_accents = None model_max_length: int = 512 additional_special_tokens: typing.Optional[typing.List[str]] = None **kwargs )
构建一个 LayoutLMv2 tokenizer。基于 WordPiece。LayoutLMv2Tokenizer 可用于将单词、单词级边界框和可选的单词标签转换为 token 级的 input_ids
、attention_mask
、token_type_ids
、bbox
和可选的 labels
(用于 token 分类)。
此 tokenizer 继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此父类以获取有关这些方法的更多信息。
LayoutLMv2Tokenizer 运行端到端 tokenization:标点符号分割和 wordpiece。它还将单词级边界框转换为 token 级边界框。
__call__
< source >( text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]] text_pair: typing.Union[typing.List[str], typing.List[typing.List[str]], NoneType] = None boxes: typing.Union[typing.List[typing.List[int]], typing.List[typing.List[typing.List[int]]]] = None word_labels: typing.Union[typing.List[int], typing.List[typing.List[int]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → BatchEncoding
参数
- text (
str
,List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列可以是字符串,字符串列表(单个示例的词或示例批次的问题)或字符串列表的列表(词批次)。 - text_pair (
List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列应为字符串列表(预分词字符串)。 - boxes (
List[List[int]]
,List[List[List[int]]]
) — 单词级别的边界框。每个边界框应被归一化到 0-1000 的范围内。 - word_labels (
List[int]
,List[List[int]]
, 可选) — 单词级别的整数标签(用于诸如 FUNSD,CORD 等令牌分类任务)。 - add_special_tokens (
bool
, 可选, 默认为True
) — 是否使用相对于其模型的特殊令牌对序列进行编码。 - padding (
bool
,str
或 PaddingStrategy, 可选, 默认为False
) — 激活并控制填充。接受以下值:True
或'longest'
:填充到批次中最长的序列(如果仅提供单个序列,则不填充)。'max_length'
:填充到通过参数max_length
指定的最大长度,如果未提供该参数,则填充到模型可接受的最大输入长度。False
或'do_not_pad'
(默认):不填充(即,可以输出具有不同长度序列的批次)。
- truncation (
bool
,str
或 TruncationStrategy, 可选, 默认为False
) — 激活并控制截断。接受以下值:True
或'longest_first'
:截断为通过参数max_length
指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将逐个令牌地截断,从该对中最长的序列中移除一个令牌。'only_first'
:截断为通过参数max_length
指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第一个序列。'only_second'
:截断为通过参数max_length
指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第二个序列。False
或'do_not_truncate'
(默认):不截断(即,可以输出序列长度大于模型最大允许输入大小的批次)。
- max_length (
int
, 可选) — 控制截断/填充参数之一使用的最大长度。如果未设置或设置为
None
,如果截断/填充参数之一需要最大长度,则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则将停用截断/填充到最大长度的功能。 - stride (
int
, 可选, 默认为 0) — 如果与max_length
一起设置为数字,则当return_overflowing_tokens=True
时返回的溢出令牌将包含从返回的截断序列末尾开始的一些令牌,以在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠令牌的数量。 - pad_to_multiple_of (
int
, 可选) — 如果设置,将序列填充为提供值的倍数。这对于在计算能力>= 7.5
(Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用尤其有用。 - return_tensors (
str
或 TensorType, 可选) — 如果设置,将返回张量而不是 python 整数列表。可接受的值为:'tf'
:返回 TensorFlowtf.constant
对象。'pt'
:返回 PyTorchtorch.Tensor
对象。'np'
:返回 Numpynp.ndarray
对象。
- return_token_type_ids (
bool
, 可选) — 是否返回令牌类型 ID。如果保留为默认值,将根据特定分词器的默认值(由return_outputs
属性定义)返回令牌类型 ID。 - return_attention_mask (
bool
, 可选) — 是否返回注意力掩码。如果保留为默认值,将根据特定分词器的默认值(由return_outputs
属性定义)返回注意力掩码。 - return_overflowing_tokens (
bool
, 可选, 默认为False
) — 是否返回溢出的令牌序列。如果提供了一对输入 ID 序列(或一批对),且truncation_strategy = longest_first
或True
,则会引发错误,而不是返回溢出的令牌。 - return_special_tokens_mask (
bool
, 可选, 默认为False
) — 是否返回特殊令牌掩码信息。 - return_offsets_mapping (
bool
, 可选, 默认为False
) — 是否为每个令牌返回(char_start, char_end)
。这仅在继承自 PreTrainedTokenizerFast 的快速分词器上可用,如果使用 Python 的分词器,此方法将引发
NotImplementedError
。 - return_length (
bool
, 可选, 默认为False
) — 是否返回编码输入的长度。 - verbose (
bool
, 可选, 默认为True
) — 是否打印更多信息和警告。 - **kwargs — 传递给
self.tokenize()
方法的参数
Returns
一个 BatchEncoding,包含以下字段
-
input_ids — 要馈送到模型的令牌 ID 列表。
-
bbox — 要馈送到模型的边界框列表。
-
token_type_ids — 要馈送到模型的令牌类型 ID 列表(当
return_token_type_ids=True
或 “token_type_ids” 在self.model_input_names
中时)。 -
attention_mask — 指定模型应注意哪些令牌的索引列表(当
return_attention_mask=True
或 “attention_mask” 在self.model_input_names
中时)。 -
labels — 要馈送到模型的标签列表。(当指定
word_labels
时)。 -
overflowing_tokens — 溢出的令牌序列列表(当指定
max_length
且return_overflowing_tokens=True
时)。 -
num_truncated_tokens — 截断的令牌数(当指定
max_length
且return_overflowing_tokens=True
时)。 -
special_tokens_mask — 0 和 1 的列表,其中 1 指定添加的特殊令牌,0 指定常规序列令牌(当
add_special_tokens=True
且return_special_tokens_mask=True
时)。 -
length — 输入的长度(当
return_length=True
时)。
主要方法,用于对一个或多个序列或一对或多对序列进行分词和准备模型,其中包含单词级别的归一化边界框和可选标签。
LayoutLMv2TokenizerFast
class transformers.LayoutLMv2TokenizerFast
< source >( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' cls_token_box = [0, 0, 0, 0] sep_token_box = [1000, 1000, 1000, 1000] pad_token_box = [0, 0, 0, 0] pad_token_label = -100 only_label_first_subword = True tokenize_chinese_chars = True strip_accents = None **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文件。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否在分词时将输入文本转换为小写。 - unk_token (
str
, optional, defaults to"[UNK]"
) — 未知 token。词汇表中不存在的 token 无法转换为 ID,而是设置为此 token。 - sep_token (
str
, optional, defaults to"[SEP]"
) — 分隔符 token,用于从多个序列构建一个序列时,例如,用于序列分类的两个序列,或者用于问答的文本和问题。它也用作使用特殊 token 构建的序列的最后一个 token。 - pad_token (
str
, optional, defaults to"[PAD]"
) — 用于填充的 token,例如在对不同长度的序列进行批处理时。 - cls_token (
str
, optional, defaults to"[CLS]"
) — 分类器 token,用于进行序列分类(对整个序列而不是每个 token 进行分类)。当使用特殊 token 构建序列时,它是序列的第一个 token。 - mask_token (
str
, optional, defaults to"[MASK]"
) — 用于掩码值的 token。这是使用掩码语言建模训练此模型时使用的 token。这是模型将尝试预测的 token。 - cls_token_box (
List[int]
, optional, defaults to[0, 0, 0, 0]
) — 用于特殊 [CLS] token 的边界框。 - sep_token_box (
List[int]
, optional, defaults to[1000, 1000, 1000, 1000]
) — 用于特殊 [SEP] token 的边界框。 - pad_token_box (
List[int]
, optional, defaults to[0, 0, 0, 0]
) — 用于特殊 [PAD] token 的边界框。 - pad_token_label (
int
, optional, defaults to -100) — 用于填充 token 的标签。默认为 -100,这是 PyTorch 的 CrossEntropyLoss 的ignore_index
。 - only_label_first_subword (
bool
, optional, defaults toTrue
) — 如果提供了词级别标签,是否仅标记第一个子词。 - tokenize_chinese_chars (
bool
, optional, defaults toTrue
) — 是否对中文字符进行分词。对于日语,这可能应该被禁用(参见此 issue)。 - strip_accents (
bool
, optional) — 是否去除所有重音符号。如果未指定此选项,则将由lowercase
的值确定(与原始 LayoutLMv2 中一样)。
构建一个 “fast” LayoutLMv2 分词器(由 HuggingFace 的 tokenizers 库支持)。基于 WordPiece。
此分词器继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
__call__
< source >( text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]] text_pair: typing.Union[typing.List[str], typing.List[typing.List[str]], NoneType] = None boxes: typing.Union[typing.List[typing.List[int]], typing.List[typing.List[typing.List[int]]]] = None word_labels: typing.Union[typing.List[int], typing.List[typing.List[int]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → BatchEncoding
参数
- text (
str
,List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列可以是字符串、字符串列表(单个示例的单词或一批示例的问题)或字符串列表的列表(单词批次)。 - text_pair (
List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列都应是字符串列表(预分词的字符串)。 - boxes (
List[List[int]]
,List[List[List[int]]]
) — 词级别边界框。每个边界框应标准化为 0-1000 比例。 - word_labels (
List[int]
,List[List[int]]
, optional) — 词级别整数标签(用于 token 分类任务,如 FUNSD、CORD)。 - add_special_tokens (
bool
, optional, defaults toTrue
) — 是否使用与其模型相关的特殊 token 对序列进行编码。 - padding (
bool
,str
or PaddingStrategy, optional, defaults toFalse
) — 激活并控制填充。接受以下值:True
或'longest'
:填充到批次中最长序列的长度(如果仅提供单个序列,则不填充)。'max_length'
:填充到参数max_length
指定的最大长度,如果未提供该参数,则填充到模型可接受的最大输入长度。False
或'do_not_pad'
(默认):不填充(即,可以输出具有不同长度序列的批次)。
- truncation (
bool
,str
or TruncationStrategy, optional, defaults toFalse
) — 激活并控制截断。接受以下值:True
或'longest_first'
:截断为参数max_length
指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将逐个 token 截断,从这对序列中最长的序列中删除 token。'only_first'
:截断为参数max_length
指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第一个序列。'only_second'
:截断为参数max_length
指定的最大长度,如果未提供该参数,则截断为模型可接受的最大输入长度。如果提供了一对序列(或一批对),这将仅截断一对序列中的第二个序列。False
或'do_not_truncate'
(默认):不截断(即,可以输出序列长度大于模型最大允许输入大小的批次)。
- max_length (
int
, optional) — 控制由截断/填充参数之一使用的最大长度。如果未设置或设置为
None
,如果截断/填充参数之一需要最大长度,则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则将停用截断/填充到最大长度。 - stride (
int
, optional, defaults to 0) — 如果与max_length
一起设置为数字,则当return_overflowing_tokens=True
时返回的溢出 token 将包含来自截断序列末尾的一些 token,以在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠 token 的数量。 - pad_to_multiple_of (
int
, optional) — 如果设置,将序列填充为提供值的倍数。这对于在计算能力>= 7.5
(Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用特别有用。 - return_tensors (
str
or TensorType, optional) — 如果设置,将返回 tensor 而不是 python 整数列表。可接受的值为:'tf'
:返回 TensorFlowtf.constant
对象。'pt'
:返回 PyTorchtorch.Tensor
对象。'np'
:返回 Numpynp.ndarray
对象。
- return_token_type_ids (
bool
, optional) — 是否返回 token 类型 ID。如果保留为默认值,将根据特定分词器的默认值返回 token 类型 ID,由return_outputs
属性定义。 - return_attention_mask (
bool
, optional) — 是否返回 attention mask(注意力掩码)。如果保留默认值,将根据特定 tokenizer 的默认值返回 attention mask,该默认值由return_outputs
属性定义。 - return_overflowing_tokens (
bool
, optional, defaults toFalse
) — 是否返回溢出的 token 序列。如果提供一对输入 id 序列(或一批对)且truncation_strategy = longest_first
或True
,则会引发错误,而不是返回溢出的 token。 - return_special_tokens_mask (
bool
, optional, defaults toFalse
) — 是否返回特殊 token 掩码信息。 - return_offsets_mapping (
bool
, optional, defaults toFalse
) — 是否返回每个 token 的(char_start, char_end)
。这仅在继承自 PreTrainedTokenizerFast 的快速 tokenizer 上可用。如果使用 Python 的 tokenizer,此方法将引发
NotImplementedError
异常。 - return_length (
bool
, optional, defaults toFalse
) — 是否返回编码后输入的长度。 - verbose (
bool
, optional, defaults toTrue
) — 是否打印更多信息和警告。 - **kwargs — 传递给
self.tokenize()
方法的参数
Returns
一个 BatchEncoding,包含以下字段
-
input_ids — 要馈送到模型的令牌 ID 列表。
-
bbox — 要馈送到模型的边界框列表。
-
token_type_ids — 要馈送到模型的令牌类型 ID 列表(当
return_token_type_ids=True
或 “token_type_ids” 在self.model_input_names
中时)。 -
attention_mask — 指定模型应注意哪些令牌的索引列表(当
return_attention_mask=True
或 “attention_mask” 在self.model_input_names
中时)。 -
labels — 要馈送到模型的标签列表。(当指定
word_labels
时)。 -
overflowing_tokens — 溢出的令牌序列列表(当指定
max_length
且return_overflowing_tokens=True
时)。 -
num_truncated_tokens — 截断的令牌数(当指定
max_length
且return_overflowing_tokens=True
时)。 -
special_tokens_mask — 0 和 1 的列表,其中 1 指定添加的特殊令牌,0 指定常规序列令牌(当
add_special_tokens=True
且return_special_tokens_mask=True
时)。 -
length — 输入的长度(当
return_length=True
时)。
主要方法,用于对一个或多个序列或一对或多对序列进行分词和准备模型,其中包含单词级别的归一化边界框和可选标签。
LayoutLMv2Processor
class transformers.LayoutLMv2Processor
< source >( image_processor = None tokenizer = None **kwargs )
参数
- image_processor (
LayoutLMv2ImageProcessor
, optional) — LayoutLMv2ImageProcessor 的实例。image processor 是必需的输入。 - tokenizer (
LayoutLMv2Tokenizer
orLayoutLMv2TokenizerFast
, optional) — LayoutLMv2Tokenizer 或 LayoutLMv2TokenizerFast 的实例。tokenizer 是必需的输入。
构建一个 LayoutLMv2 processor,它将 LayoutLMv2 image processor 和 LayoutLMv2 tokenizer 组合成一个单一的 processor。
LayoutLMv2Processor 提供了准备模型数据所需的所有功能。
它首先使用 LayoutLMv2ImageProcessor 将文档图像调整为固定大小,并可选地应用 OCR 以获取单词和归一化的边界框。然后将这些提供给 LayoutLMv2Tokenizer 或 LayoutLMv2TokenizerFast,它们将单词和边界框转换为 token 级别的 input_ids
、attention_mask
、token_type_ids
、bbox
。 可选地,可以提供整数 word_labels
,它们将被转换为 token 级别的 labels
,用于 token 分类任务(例如 FUNSD、CORD)。
__call__
< source >( images text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]] = None text_pair: typing.Union[typing.List[str], typing.List[typing.List[str]], NoneType] = None boxes: typing.Union[typing.List[typing.List[int]], typing.List[typing.List[typing.List[int]]]] = None word_labels: typing.Union[typing.List[int], typing.List[typing.List[int]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = False max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None **kwargs )
此方法首先将 images
参数转发给 call()。 如果 LayoutLMv2ImageProcessor 初始化时将 apply_ocr
设置为 True
,它会将获取的单词和边界框以及其他参数传递给 call() 并返回输出,以及调整大小后的 images
。 如果 LayoutLMv2ImageProcessor 初始化时将 apply_ocr
设置为 False
,它会将用户指定的单词 (text
/text_pair
) 和 boxes
以及其他参数传递给 [__call__()](/docs/transformers/v4.50.0/en/model_doc/layoutlmv2#transformers.LayoutLMv2Tokenizer.__call__) 并返回输出,以及调整大小后的 images
。
有关更多信息,请参阅上述两种方法的文档字符串。
LayoutLMv2Model
class transformers.LayoutLMv2Model
< source >( config )
参数
- config (LayoutLMv2Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。
裸 LayoutLMv2 模型 Transformer,输出原始隐藏状态,顶部没有任何特定的 head。此模型是 PyTorch torch.nn.Module 子类。 可以将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解与常规用法和行为相关的所有事项。
forward(前向传播)
< source >( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列 token 的索引。可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
,形状为((batch_size, sequence_length), 4)
, optional) — 每个输入序列 token 的边界框。在范围[0, config.max_2d_position_embeddings-1]
中选择。每个边界框都应是 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框左上角的位置,而 (x1, y1) 表示右下角的位置。 - image (
torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
或detectron.structures.ImageList
,其tensors
的形状为(batch_size, num_channels, height, width)
) — 批量文档图像。 - attention_mask (
torch.FloatTensor
, 形状为(batch_size, sequence_length)
, 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在[0, 1]
中选择:- 1 表示标记未被掩盖,
- 0 表示标记被掩盖。
- token_type_ids (
torch.LongTensor
, 形状为(batch_size, sequence_length)
, 可选) — 片段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- position_ids (
torch.LongTensor
, 形状为(batch_size, sequence_length)
, 可选) — 位置嵌入中每个输入序列标记的位置索引。在范围[0, config.max_position_embeddings - 1]
中选择。 - head_mask (
torch.FloatTensor
, 形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于 nullify self-attention 模块中选定 head 的掩码。掩码值在[0, 1]
中选择:- 1 表示 head 未被掩盖,
- 0 表示 head 被掩盖。
- inputs_embeds (
torch.FloatTensor
, 形状为(batch_size, sequence_length, hidden_size)
, 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的 hidden states。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
Returns
transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LayoutLMv2Config) 和输入。
-
last_hidden_state (
torch.FloatTensor
, 形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层的输出处的 hidden-states 序列。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。
LayoutLMv2Model 前向方法,覆盖了 __call__
特殊方法。
尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。
示例
>>> from transformers import AutoProcessor, LayoutLMv2Model, set_seed
>>> from PIL import Image
>>> import torch
>>> from datasets import load_dataset
>>> set_seed(0)
>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> model = LayoutLMv2Model.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> dataset = load_dataset("hf-internal-testing/fixtures_docvqa", trust_remote_code=True)
>>> image_path = dataset["test"][0]["file"]
>>> image = Image.open(image_path).convert("RGB")
>>> encoding = processor(image, return_tensors="pt")
>>> outputs = model(**encoding)
>>> last_hidden_states = outputs.last_hidden_state
>>> last_hidden_states.shape
torch.Size([1, 342, 768])
LayoutLMv2ForSequenceClassification
class transformers.LayoutLMv2ForSequenceClassification
< source >( config )
参数
- config (LayoutLMv2Config) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。
LayoutLMv2 模型,顶部带有序列分类头(位于 [CLS] 标记的最终 hidden state、平均池化的初始视觉嵌入和平均池化的最终视觉嵌入的串联之上的线性层),例如用于文档图像分类任务,例如 RVL-CDIP 数据集。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。
forward(前向传播)
< source >( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
, 形状为batch_size, sequence_length
) — 词汇表中输入序列标记的索引。索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
, 形状为(batch_size, sequence_length, 4)
, 可选) — 每个输入序列标记的边界框。在范围[0, config.max_2d_position_embeddings-1]
中选择。每个边界框应为 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框中左上角的位置,而 (x1, y1) 表示右下角的位置。 - image (
torch.FloatTensor
, 形状为(batch_size, num_channels, height, width)
或detectron.structures.ImageList
,其tensors
形状为(batch_size, num_channels, height, width)
) — 批量文档图像。 - attention_mask (
torch.FloatTensor
, 形状为batch_size, sequence_length
, 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在[0, 1]
中选择:- 1 表示标记未被掩盖,
- 0 表示标记被掩盖。
- token_type_ids (
torch.LongTensor
, 形状为batch_size, sequence_length
, 可选) — 片段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- position_ids (
torch.LongTensor
, 形状为batch_size, sequence_length
, 可选) — 位置嵌入中每个输入序列标记的位置索引。在范围[0, config.max_position_embeddings - 1]
中选择。 - head_mask (
torch.FloatTensor
, 形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于 nullify self-attention 模块中选定 head 的掩码。掩码值在[0, 1]
中选择:- 1 表示 head 未被掩盖,
- 0 表示 head 被掩盖。
- inputs_embeds (
torch.FloatTensor
, 形状为(batch_size, sequence_length, hidden_size)
, 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有 attention 层的 attentions 张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的 hidden states。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - labels (
torch.LongTensor
, 形状为(batch_size,)
, 可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
中。如果config.num_labels == 1
,则计算回归损失(均方误差损失),如果config.num_labels > 1
,则计算分类损失(交叉熵损失)。
Returns
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.SequenceClassifierOutput 或一个 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LayoutLMv2Config) 和输入。
-
loss (
torch.FloatTensor
, 形状为(1,)
, 可选, 当提供labels
时返回) — 分类(或回归,如果 config.num_labels==1)损失。 -
logits (
torch.FloatTensor
, 形状为(batch_size, config.num_labels)
) — 分类(或回归,如果 config.num_labels==1)得分(在 SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。
LayoutLMv2ForSequenceClassification 前向方法,覆盖了 __call__
特殊方法。
尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。
示例
>>> from transformers import AutoProcessor, LayoutLMv2ForSequenceClassification, set_seed
>>> from PIL import Image
>>> import torch
>>> from datasets import load_dataset
>>> set_seed(0)
>>> dataset = load_dataset("aharley/rvl_cdip", split="train", streaming=True, trust_remote_code=True)
>>> data = next(iter(dataset))
>>> image = data["image"].convert("RGB")
>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> model = LayoutLMv2ForSequenceClassification.from_pretrained(
... "microsoft/layoutlmv2-base-uncased", num_labels=dataset.info.features["label"].num_classes
... )
>>> encoding = processor(image, return_tensors="pt")
>>> sequence_label = torch.tensor([data["label"]])
>>> outputs = model(**encoding, labels=sequence_label)
>>> loss, logits = outputs.loss, outputs.logits
>>> predicted_idx = logits.argmax(dim=-1).item()
>>> predicted_answer = dataset.info.features["label"].names[4]
>>> predicted_idx, predicted_answer # results are not good without further fine-tuning
(7, 'advertisement')
LayoutLMv2ForTokenClassification
class transformers.LayoutLMv2ForTokenClassification
< source >( config )
参数
- config (LayoutLMv2Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。
LayoutLMv2 模型,顶部带有一个 token 分类头(隐藏状态文本部分顶部的线性层),例如用于序列标注(信息抽取)任务,例如 FUNSD、SROIE、CORD 和 Kleister-NDA。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。
forward(前向传播)
< source >( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
,形状为batch_size, sequence_length
) — 词汇表中输入序列 token 的索引。索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
,形状为(batch_size, sequence_length, 4)
,可选) — 每个输入序列 token 的边界框。 在范围[0, config.max_2d_position_embeddings-1]
中选择。 每个边界框应为 (x0, y0, x1, y1) 格式的标准化版本,其中 (x0, y0) 对应于边界框中左上角的位置,(x1, y1) 表示右下角的位置。 - image (
torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
或detectron.structures.ImageList
,其tensors
的形状为(batch_size, num_channels, height, width)
) — 批量文档图像。 - attention_mask (
torch.FloatTensor
,形状为batch_size, sequence_length
,可选) — 掩码,以避免在 padding token 索引上执行 attention。 掩码值在[0, 1]
中选择:- 1 表示 token 未被掩码,
- 0 表示 token 已被掩码。
- token_type_ids (
torch.LongTensor
,形状为batch_size, sequence_length
,可选) — 分段 token 索引,用于指示输入的第一部分和第二部分。 索引在[0, 1]
中选择:- 0 对应于 sentence A token,
- 1 对应于 sentence B token。
- position_ids (
torch.LongTensor
,形状为batch_size, sequence_length
,可选) — 每个输入序列 token 在位置嵌入中的位置索引。 在范围[0, config.max_position_embeddings - 1]
中选择。 - head_mask (
torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码,用于 nullify 自注意力模块的选定 head。 掩码值在[0, 1]
中选择:- 1 表示 head 未被掩码,
- 0 表示 head 已被掩码。
- inputs_embeds (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — (可选)您可以选择直接传递嵌入表示,而不是传递input_ids
。 如果您希望更好地控制如何将 input_ids 索引转换为关联的向量,而不是模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有 attention 层的 attention tensors。 有关更多详细信息,请参阅返回的 tensors 下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回的 tensors 下的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通 tuple。 - labels (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 用于计算 token 分类损失的标签。 索引应在[0, ..., config.num_labels - 1]
中。
Returns
transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor
的 tuple(如果传递了 return_dict=False
或当 config.return_dict=False
时),其中包含各种元素,具体取决于配置 (LayoutLMv2Config) 和输入。
-
loss (
torch.FloatTensor
,形状为(1,)
,可选,当提供labels
时返回) — 分类损失。 -
logits (
torch.FloatTensor
,形状为(batch_size, sequence_length, config.num_labels)
) — 分类得分(在 SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。
LayoutLMv2ForTokenClassification 的 forward 方法,覆盖了 __call__
特殊方法。
尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。
示例
>>> from transformers import AutoProcessor, LayoutLMv2ForTokenClassification, set_seed
>>> from PIL import Image
>>> from datasets import load_dataset
>>> set_seed(0)
>>> datasets = load_dataset("nielsr/funsd", split="test", trust_remote_code=True)
>>> labels = datasets.features["ner_tags"].feature.names
>>> id2label = {v: k for v, k in enumerate(labels)}
>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")
>>> model = LayoutLMv2ForTokenClassification.from_pretrained(
... "microsoft/layoutlmv2-base-uncased", num_labels=len(labels)
... )
>>> data = datasets[0]
>>> image = Image.open(data["image_path"]).convert("RGB")
>>> words = data["words"]
>>> boxes = data["bboxes"] # make sure to normalize your bounding boxes
>>> word_labels = data["ner_tags"]
>>> encoding = processor(
... image,
... words,
... boxes=boxes,
... word_labels=word_labels,
... padding="max_length",
... truncation=True,
... return_tensors="pt",
... )
>>> outputs = model(**encoding)
>>> logits, loss = outputs.logits, outputs.loss
>>> predicted_token_class_ids = logits.argmax(-1)
>>> predicted_tokens_classes = [id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes[:5] # results are not good without further fine-tuning
['I-HEADER', 'I-HEADER', 'I-QUESTION', 'I-HEADER', 'I-QUESTION']
LayoutLMv2ForQuestionAnswering
class transformers.LayoutLMv2ForQuestionAnswering
< source >( config has_visual_segment_embedding = True )
参数
- config (LayoutLMv2Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。
LayoutLMv2 模型,顶部带有一个 span 分类头,用于抽取式问答任务,例如 DocVQA(隐藏状态文本部分顶部的一个线性层,用于计算 span start logits
和 span end logits
)。
此模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解与常规用法和行为相关的所有事项。
forward(前向传播)
< source >( input_ids: typing.Optional[torch.LongTensor] = None bbox: typing.Optional[torch.LongTensor] = None image: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None start_positions: typing.Optional[torch.LongTensor] = None end_positions: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
,形状为batch_size, sequence_length
) — 词汇表中输入序列 token 的索引。索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- bbox (
torch.LongTensor
,形状为(batch_size, sequence_length, 4)
,可选) — 每个输入序列标记的边界框。在范围[0, config.max_2d_position_embeddings-1]
中选择。每个边界框都应该是 (x0, y0, x1, y1) 格式的归一化版本,其中 (x0, y0) 对应于边界框左上角的位置,而 (x1, y1) 表示右下角的位置。 - image (
torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
或detectron.structures.ImageList
,其tensors
的形状为(batch_size, num_channels, height, width)
) — 文档图像批次。 - attention_mask (
torch.FloatTensor
,形状为batch_size, sequence_length
,可选) — 掩码,用于避免对填充标记索引执行注意力机制。掩码值在[0, 1]
中选择:- 1 表示未被掩码的标记,
- 0 表示已被掩码的标记。
- token_type_ids (
torch.LongTensor
,形状为batch_size, sequence_length
,可选) — 段落标记索引,用于指示输入的第一个和第二个部分。索引在[0, 1]
中选择:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- position_ids (
torch.LongTensor
,形状为batch_size, sequence_length
,可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]
中选择。 - head_mask (
torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码,用于使自注意力模块中选定的 head 失效。掩码值在[0, 1]
中选择:- 1 表示 head 未被掩码,
- 0 表示 head 已被掩码。
- inputs_embeds (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。 - start_positions (
torch.LongTensor
,形状为(batch_size,)
,可选) — 用于计算标记分类损失的已标记跨度起始位置(索引)的标签。位置被限制在序列的长度 (sequence_length
) 内。序列之外的位置不计入损失计算。 - end_positions (
torch.LongTensor
,形状为(batch_size,)
,可选) — 用于计算标记分类损失的已标记跨度结束位置(索引)的标签。位置被限制在序列的长度 (sequence_length
) 内。序列之外的位置不计入损失计算。
Returns
transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含取决于配置 (LayoutLMv2Config) 和输入的各种元素。
-
loss (
torch.FloatTensor
,形状为(1,)
,可选,当提供labels
时返回) — 总跨度提取损失是起始位置和结束位置交叉熵损失的总和。 -
start_logits (
torch.FloatTensor
,形状为(batch_size, sequence_length)
) — 跨度起始得分(SoftMax 之前)。 -
end_logits (
torch.FloatTensor
,形状为(batch_size, sequence_length)
) — 跨度结束得分(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出 + 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出处的 Hidden-states,以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention softmax 之后的 Attention 权重,用于计算 self-attention heads 中的加权平均值。
LayoutLMv2ForQuestionAnswering
的 forward 方法重写了 __call__
特殊方法。
尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默地忽略它们。
示例
在下面的示例中,我们给 LayoutLMv2 模型一张图像(包含文本),并向它提问。它将给出它认为的答案的预测(答案在从图像中解析出的文本中的跨度)。
>>> from transformers import AutoProcessor, LayoutLMv2ForQuestionAnswering, set_seed
>>> import torch
>>> from PIL import Image
>>> from datasets import load_dataset
>>> set_seed(0)
>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> model = LayoutLMv2ForQuestionAnswering.from_pretrained("microsoft/layoutlmv2-base-uncased")
>>> dataset = load_dataset("hf-internal-testing/fixtures_docvqa", trust_remote_code=True)
>>> image_path = dataset["test"][0]["file"]
>>> image = Image.open(image_path).convert("RGB")
>>> question = "When is coffee break?"
>>> encoding = processor(image, question, return_tensors="pt")
>>> outputs = model(**encoding)
>>> predicted_start_idx = outputs.start_logits.argmax(-1).item()
>>> predicted_end_idx = outputs.end_logits.argmax(-1).item()
>>> predicted_start_idx, predicted_end_idx
(30, 191)
>>> predicted_answer_tokens = encoding.input_ids.squeeze()[predicted_start_idx : predicted_end_idx + 1]
>>> predicted_answer = processor.tokenizer.decode(predicted_answer_tokens)
>>> predicted_answer # results are not good without further fine-tuning
'44 a. m. to 12 : 25 p. m. 12 : 25 to 12 : 58 p. m. 12 : 58 to 4 : 00 p. m. 2 : 00 to 5 : 00 p. m. coffee break coffee will be served for men and women in the lobby adjacent to exhibit area. please move into exhibit area. ( exhibits open ) trrf general session ( part | ) presiding : lee a. waller trrf vice president “ introductory remarks ” lee a. waller, trrf vice presi - dent individual interviews with trrf public board members and sci - entific advisory council mem - bers conducted by trrf treasurer philip g. kuehn to get answers which the public refrigerated warehousing industry is looking for. plus questions from'
>>> target_start_index = torch.tensor([7])
>>> target_end_index = torch.tensor([14])
>>> outputs = model(**encoding, start_positions=target_start_index, end_positions=target_end_index)
>>> predicted_answer_span_start = outputs.start_logits.argmax(-1).item()
>>> predicted_answer_span_end = outputs.end_logits.argmax(-1).item()
>>> predicted_answer_span_start, predicted_answer_span_end
(30, 191)