LayoutXLM
概述
LayoutXLM 是由徐毅衡、吕腾超、崔磊、王国鑫、陆奕娟、Dinei Florencio、张超、魏福如在 LayoutXLM: 多语言视觉丰富文档理解的多模态预训练 中提出的,它是 LayoutLMv2 模型 的多语言扩展,在 53 种语言上训练。
论文中的摘要如下
最近,使用文本、布局和图像进行多模态预训练在视觉丰富的文档理解任务中取得了 SOTA 性能,这证明了跨不同模态的联合学习的巨大潜力。在本文中,我们介绍了 LayoutXLM,这是一种用于多语言文档理解的多模态预训练模型,旨在消除视觉丰富文档理解的语言障碍。为了准确地评估 LayoutXLM,我们还引入了一个名为 XFUN 的多语言表格理解基准数据集,其中包括 7 种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的表格理解样本,每个语言的手动标记键值对。实验结果表明,LayoutXLM 模型在 XFUN 数据集上显著优于现有的 SOTA 跨语言预训练模型。
该模型由 nielsr 贡献。原始代码可以在这里找到 here.
使用技巧和示例
可以直接将 LayoutXLM 的权重插入 LayoutLMv2 模型,如下所示
from transformers import LayoutLMv2Model
model = LayoutLMv2Model.from_pretrained("microsoft/layoutxlm-base")
请注意,LayoutXLM 有自己的 tokenizer,基于 LayoutXLMTokenizer/LayoutXLMTokenizerFast。您可以按如下方式初始化它
from transformers import LayoutXLMTokenizer
tokenizer = LayoutXLMTokenizer.from_pretrained("microsoft/layoutxlm-base")
与 LayoutLMv2 类似,您可以使用 LayoutXLMProcessor(在内部依次应用 LayoutLMv2ImageProcessor 和 LayoutXLMTokenizer/LayoutXLMTokenizerFast)来准备模型的所有数据。
由于 LayoutXLM 的架构等同于 LayoutLMv2,因此可以参考 LayoutLMv2 的文档页面 获取所有技巧、代码示例和笔记本。
LayoutXLMTokenizer
class transformers.LayoutXLMTokenizer
< source >( vocab_file bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' cls_token_box = [0, 0, 0, 0] sep_token_box = [1000, 1000, 1000, 1000] pad_token_box = [0, 0, 0, 0] pad_token_label = -100 only_label_first_subword = True sp_model_kwargs: Optional = None **kwargs )
参数
- vocab_file (
str
) — 词汇表文件路径。 - bos_token (
str
, 可选, 默认值为"<s>"
) — 预训练期间使用的序列开始标记。可以用作序列分类器标记。使用特殊标记构建序列时,这不是用于序列开头的标记。使用的标记是
cls_token
。 - eos_token (
str
, 可选, 默认值为"</s>"
) — 序列结束标记。使用特殊标记构建序列时,这不是用于序列结束的标记。使用的标记是
sep_token
。 - sep_token (
str
, 可选, 默认值为"</s>"
) — 分隔符,用于从多个序列构建序列,例如用于序列分类的两个序列或用于问答的文本和问题。 它也用作使用特殊标记构建的序列的最后一个标记。 - cls_token (
str
, 可选, 默认值为"<s>"
) — 分类器标记,用于进行序列分类(对整个序列进行分类,而不是对每个标记进行分类)。 它是使用特殊标记构建的序列的第一个标记。 - unk_token (
str
, 可选, 默认值为"<unk>"
) — 未知标记。 不在词汇表中的标记无法转换为 ID,而是设置为此标记。 - pad_token (
str
, 可选, 默认值为"<pad>"
) — 用于填充的标记,例如在对不同长度的序列进行批处理时。 - mask_token (
str
, 可选, 默认值为"<mask>"
) — 用于掩盖值的标记。 这是在使用掩盖语言建模训练此模型时使用的标记。 这是模型将尝试预测的标记。 - cls_token_box (
List[int]
, 可选, 默认值为[0, 0, 0, 0]
) — 用于特殊 [CLS] 标记的边界框。 - sep_token_box (
List[int]
, 可选, 默认值为[1000, 1000, 1000, 1000]
) — 用于特殊 [SEP] 标记的边界框。 - pad_token_box (
List[int]
, 可选, 默认值为[0, 0, 0, 0]
) — 用于特殊 [PAD] 标记的边界框。 - pad_token_label (
int
, 可选, 默认值为 -100) — 用于填充标记的标签。 默认值为 -100,这是 PyTorch 的 CrossEntropyLoss 的ignore_index
。 - only_label_first_subword (
bool
, 可选, 默认值为True
) — 是否仅标记第一个子词,如果提供了词语标签。
改编自 RobertaTokenizer 和 XLNetTokenizer。基于 SentencePiece。
此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
__call__
< 源代码 > ( text: Union text_pair: Union = None boxes: Union = None word_labels: Union = None add_special_tokens: bool = True padding: Union = False truncation: Union = None max_length: Optional = None stride: int = 0 pad_to_multiple_of: Optional = None padding_side: Optional = None return_tensors: Union = None return_token_type_ids: Optional = None return_attention_mask: Optional = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → BatchEncoding
参数
- text (
str
,List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列可以是字符串、字符串列表(单个示例的单词或批次示例的问题)或字符串列表列表(单词批次)。 - text_pair (
List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列应为字符串列表(预标记字符串)。 - boxes (
List[List[int]]
,List[List[List[int]]]
) — 词级边界框。每个边界框应规范化为 0-1000 比例。 - word_labels (
List[int]
,List[List[int]]
, 可选) — 词级整数标签(用于 FUNSD、CORD 等标记分类任务)。 - add_special_tokens (
bool
, 可选, 默认值为True
) — 是否用其模型相关的特殊标记编码序列。 - padding (
bool
,str
或 PaddingStrategy, 可选, 默认值为False
) — 激活和控制填充。接受以下值:True
或'longest'
: 将批次中的最长序列填充到相同长度(如果只提供单个序列,则不进行填充)。'max_length'
: 填充到由max_length
参数指定的最大长度,或者如果未提供该参数,则填充到模型可接受的最大输入长度。False
或'do_not_pad'
(默认): 不填充(即可以输出具有不同长度序列的批次)。
- truncation (
bool
,str
或 TruncationStrategy, 可选, 默认值为False
) — 激活和控制截断。接受以下值:True
或'longest_first'
: 截断到由max_length
参数指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。这将逐个token截断,如果提供一对序列(或一对序列的批次),则从最长序列中删除一个token。'only_first'
: 截断到由max_length
参数指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一对序列的批次),这将只截断第一条序列。'only_second'
: 截断到由max_length
参数指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一对序列的批次),这将只截断第二条序列。False
或'do_not_truncate'
(默认): 不截断(即可以输出序列长度大于模型最大可接受输入大小的批次)。
- max_length (
int
, 可选) — 通过截断/填充参数控制使用的最大长度。如果未设置或设置为
None
,则如果截断/填充参数需要最大长度,这将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则截断/填充到最大长度将被禁用。 - stride (
int
, 可选, 默认值为 0) — 如果与max_length
一起设置为一个数字,当return_overflowing_tokens=True
时返回的溢出token将包含截断序列末尾的一些token,以在截断序列和溢出序列之间提供一些重叠。此参数的值定义重叠token的数量。 - pad_to_multiple_of (
int
, 可选) — 如果设置,将序列填充到提供的值的倍数。这对于在具有计算能力>= 7.5
(Volta) 的 NVIDIA 硬件上启用 Tensor Core 的使用特别有用。 - return_tensors (
str
或 TensorType, 可选) — 如果设置,将返回张量而不是 Python 整数列表。可接受的值为:'tf'
: 返回 TensorFlowtf.constant
对象。'pt'
: 返回 PyTorchtorch.Tensor
对象。'np'
: 返回 Numpynp.ndarray
对象。
- return_token_type_ids (
bool
, 可选) — 是否返回token类型ID。如果保留默认值,将根据特定分词器的默认值返回token类型ID,由return_outputs
属性定义。 - return_attention_mask (
bool
, 可选) — 是否返回注意力掩码。如果保留默认值,将根据特定分词器的默认值返回注意力掩码,由return_outputs
属性定义。 - return_overflowing_tokens (
bool
, 可选, 默认值为False
) — 是否返回溢出token序列。如果使用truncation_strategy = longest_first
或True
提供一对输入ID序列(或一对序列的批次),则会引发错误,而不是返回溢出token。 - return_special_tokens_mask (
bool
, 可选, 默认值为False
) — 是否返回特殊token掩码信息。 - return_offsets_mapping (
bool
, 可选, 默认值为False
) — 是否返回每个token的(char_start, char_end)
。此功能仅适用于继承自 PreTrainedTokenizerFast 的快速分词器,如果使用 Python 的分词器,此方法将引发
NotImplementedError
。 - return_length (
bool
, 可选, 默认值为False
) — 是否返回编码输入的长度。 - verbose (
bool
, 可选, 默认值为True
) — 是否打印更多信息和警告。 **kwargs — 传递给self.tokenize()
方法
具有以下字段的 BatchEncoding
-
input_ids — 要馈送到模型的token ID 列表。
-
bbox — 要馈送到模型的边界框列表。
-
token_type_ids — 要馈送到模型的token类型ID列表(当
return_token_type_ids=True
或 “token_type_ids” 在self.model_input_names
中时)。 -
attention_mask — 指定模型应该关注哪些token的索引列表(当
return_attention_mask=True
或 “attention_mask” 在self.model_input_names
中时)。 -
labels — 要馈送到模型的标签列表。(当指定
word_labels
时)。 -
overflowing_tokens — 溢出token序列列表(当指定
max_length
且return_overflowing_tokens=True
时)。 -
num_truncated_tokens — 被截断的token数量(当指定
max_length
且return_overflowing_tokens=True
时)。 -
special_tokens_mask — 0 和 1 列表,其中 1 表示添加的特殊token,0 表示常规序列token(当
add_special_tokens=True
且return_special_tokens_mask=True
时)。 -
length — 输入的长度(当
return_length=True
时)。
用于分词和准备一个或多个序列或一个或多个序列对(具有词级归一化边界框和可选标签)以供模型使用的主方法。
build_inputs_with_special_tokens
< 源代码 > ( token_ids_0: List token_ids_1: Optional = None ) → List[int]
通过连接和添加特殊token,从序列或序列对构建用于序列分类任务的模型输入。XLM-RoBERTa 序列具有以下格式
- 单个序列:
<s> X </s>
- 序列对:
<s> A </s></s> B </s>
get_special_tokens_mask
< 源代码 > ( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊令牌的令牌列表中检索序列 ID。当使用分词器 prepare_for_model
方法添加特殊令牌时,会调用此方法。
create_token_type_ids_from_sequences
< 源代码 > ( token_ids_0: List token_ids_1: Optional = None ) → List[int]
从传递的两个序列中创建一个掩码,用于序列对分类任务。XLM-RoBERTa 不使用令牌类型 ID,因此返回零列表。
LayoutXLMTokenizerFast
类 transformers.LayoutXLMTokenizerFast
< 源代码 >( vocab_file = None tokenizer_file = None bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' cls_token_box = [0, 0, 0, 0] sep_token_box = [1000, 1000, 1000, 1000] pad_token_box = [0, 0, 0, 0] pad_token_label = -100 only_label_first_subword = True **kwargs )
参数
- vocab_file (
str
) — 词汇表文件路径。 - bos_token (
str
, 可选, 默认值为"<s>"
) — 预训练期间使用的序列开始标记。可作为序列分类标记使用。当使用特殊标记构建序列时,这不是用于序列开始的标记。使用的标记是
cls_token
。 - eos_token (
str
, 可选, 默认值为"</s>"
) — 序列结束标记。当使用特殊标记构建序列时,这不是用于序列结束的标记。使用的标记是
sep_token
。 - sep_token (
str
, 可选, 默认值为"</s>"
) — 分隔符标记,用于从多个序列构建序列,例如序列分类的两个序列或问答的文本和问题。它也被用作使用特殊标记构建的序列的最后一个标记。 - cls_token (
str
, 可选, 默认值为"<s>"
) — 分类标记,用于进行序列分类(对整个序列进行分类,而不是对每个标记进行分类)。当使用特殊标记构建时,它是序列的第一个标记。 - unk_token (
str
, 可选, 默认值为"<unk>"
) — 未知标记。词汇表中不存在的标记无法转换为 ID,而是设置为该标记。 - pad_token (
str
, 可选, 默认值为"<pad>"
) — 用于填充的标记,例如在对不同长度的序列进行批处理时。 - mask_token (
str
, 可选, 默认值为"<mask>"
) — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 - cls_token_box (
List[int]
, 可选, 默认值为[0, 0, 0, 0]
) — 用于特殊 [CLS] 标记的边界框。 - sep_token_box (
List[int]
, 可选, 默认为[1000, 1000, 1000, 1000]
) — 用于特殊 [SEP] token 的边界框。 - pad_token_box (
List[int]
, 可选, 默认为[0, 0, 0, 0]
) — 用于特殊 [PAD] token 的边界框。 - pad_token_label (
int
, 可选, 默认为 -100) — 用于填充 token 的标签。 默认为 -100,这是 PyTorch 中 CrossEntropyLoss 的ignore_index
。 - only_label_first_subword (
bool
, 可选, 默认为True
) — 是否仅标记第一个子词,如果提供词标签。 - additional_special_tokens (
List[str]
, 可选, 默认为["<s>NOTUSED", "</s>NOTUSED"]
) — 标记器使用的额外特殊 token。
构建一个“快速”LayoutXLM 标记器(由 HuggingFace 的 tokenizers 库支持)。 改编自 RobertaTokenizer 和 XLNetTokenizer。 基于 BPE。
此标记器继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。 用户应参考此超类以获取有关这些方法的更多信息。
__call__
< 源代码 > ( text: Union text_pair: Union = None boxes: Union = None word_labels: Union = None add_special_tokens: bool = True padding: Union = False truncation: Union = None max_length: Optional = None stride: int = 0 pad_to_multiple_of: Optional = None padding_side: Optional = None return_tensors: Union = None return_token_type_ids: Optional = None return_attention_mask: Optional = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → BatchEncoding
参数
- text (
str
,List[str]
,List[List[str]]
) — 要编码的序列或序列批次。 每个序列可以是字符串、字符串列表(单个示例的单词或示例批次的查询)或字符串列表列表(单词批次)。 - text_pair (
List[str]
,List[List[str]]
) — 要编码的序列或序列批次。 每个序列都应该是字符串列表(预标记化字符串)。 - boxes (
List[List[int]]
,List[List[List[int]]]
) — 词级边界框。 每个边界框都应归一化为 0-1000 范围内的比例。 - word_labels (
List[int]
,List[List[int]]
, 可选) — 词级整数标签(用于 FUNSD、CORD 等 token 分类任务)。 - padding (
bool
,str
或 PaddingStrategy, 可选, 默认值为False
) — 激活并控制填充。接受以下值:True
或'longest'
:填充到批次中最长的序列(如果只提供单个序列,则不填充)。'max_length'
:填充到使用参数max_length
指定的最大长度,或者如果未提供该参数,则填充到模型可接受的最大输入长度。False
或'do_not_pad'
(默认):不填充(即,可以输出具有不同长度序列的批次)。
- truncation (
bool
,str
或 TruncationStrategy, 可选, 默认值为False
) — 激活并控制截断。接受以下值:True
或'longest_first'
:截断到使用参数max_length
指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一对序列的批次),这将逐个token进行截断,从最长序列中删除一个token。'only_first'
:截断到使用参数max_length
指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一对序列的批次),这将只截断一对中的第一个序列。'only_second'
:截断到使用参数max_length
指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一对序列的批次),这将只截断一对中的第二个序列。False
或'do_not_truncate'
(默认):不截断(即,可以输出序列长度大于模型最大可接受输入大小的批次)。
- max_length (
int
, 可选) — 控制截断/填充参数所使用的最大长度。如果未设置或设置为
None
,则如果截断/填充参数需要最大长度,则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则将禁用截断/填充到最大长度。 - stride (
int
, 可选, 默认值为 0) — 如果与max_length
一起设置为一个数字,当return_overflowing_tokens=True
时返回的溢出token将包含截断序列末尾的一些token,以在截断序列和溢出序列之间提供一些重叠。此参数的值定义重叠token的数量。 - pad_to_multiple_of (
int
, 可选) — 如果设置,将填充序列到所提供值的倍数。这对于在 NVIDIA 硬件(具有计算能力>= 7.5
(Volta))上启用 Tensor Core 的使用特别有用。 - return_tensors (
str
或 TensorType, 可选) — 如果设置,将返回张量而不是 python 整数列表。可接受的值为:'tf'
:返回 TensorFlowtf.constant
对象。'pt'
:返回 PyTorchtorch.Tensor
对象。'np'
:返回 Numpynp.ndarray
对象。
- return_token_type_ids (
bool
, 可选) — 是否返回token类型ID。如果保留默认值,将根据特定分词器的默认值返回token类型ID,由return_outputs
属性定义。 - return_attention_mask (
bool
, 可选) — 是否返回注意力掩码。如果保留默认值,将根据特定分词器的默认值返回注意力掩码,由return_outputs
属性定义。 - return_overflowing_tokens (
bool
, 可选, 默认值为False
) — 是否返回溢出token序列。如果使用truncation_strategy = longest_first
或True
提供一对输入ID序列(或一对序列的批次),则会引发错误而不是返回溢出token。 - return_special_tokens_mask (
bool
, 可选, 默认值为False
) — 是否返回特殊标记掩码信息。 - return_offsets_mapping (
bool
, 可选, 默认值为False
) — 是否返回每个标记的(char_start, char_end)
。这仅适用于从 PreTrainedTokenizerFast 继承的快速分词器,如果使用 Python 的分词器,此方法将引发
NotImplementedError
。 - return_length (
bool
, 可选, 默认值为False
) — 是否返回编码输入的长度。 - verbose (
bool
, 可选, 默认值为True
) — 是否打印更多信息和警告。 **kwargs — 传递给self.tokenize()
方法
具有以下字段的 BatchEncoding
-
input_ids — 要馈送到模型的token ID 列表。
-
bbox — 要馈送到模型的边界框列表。
-
token_type_ids — 要馈送到模型的token类型ID列表(当
return_token_type_ids=True
或 “token_type_ids” 在self.model_input_names
中时)。 -
attention_mask — 指定模型应该关注哪些token的索引列表(当
return_attention_mask=True
或 “attention_mask” 在self.model_input_names
中时)。 -
labels — 要馈送到模型的标签列表。(当指定
word_labels
时)。 -
overflowing_tokens — 溢出token序列列表(当指定
max_length
且return_overflowing_tokens=True
时)。 -
num_truncated_tokens — 被截断的token数量(当指定
max_length
且return_overflowing_tokens=True
时)。 -
special_tokens_mask — 0 和 1 列表,其中 1 表示添加的特殊token,0 表示常规序列token(当
add_special_tokens=True
且return_special_tokens_mask=True
时)。 -
length — 输入的长度(当
return_length=True
时)。
用于分词和准备一个或多个序列或一个或多个序列对(具有词级归一化边界框和可选标签)以供模型使用的主方法。
LayoutXLMProcessor
class transformers.LayoutXLMProcessor
< source >( image_processor = None tokenizer = None **kwargs )
参数
- image_processor (
LayoutLMv2ImageProcessor
, 可选) — LayoutLMv2ImageProcessor 的实例。 图像处理器是必需的输入。 - tokenizer (
LayoutXLMTokenizer
或LayoutXLMTokenizerFast
, 可选) — LayoutXLMTokenizer 或 LayoutXLMTokenizerFast 的实例。 分词器是必需的输入。
构建将 LayoutXLM 图像处理器和 LayoutXLM 分词器组合到单个处理器中的 LayoutXLM 处理器。
LayoutXLMProcessor 提供了为模型准备数据所需的所有功能。
它首先使用 LayoutLMv2ImageProcessor 将文档图像调整为固定大小,并可选地应用 OCR 以获取单词和归一化的边界框。 然后将其提供给 LayoutXLMTokenizer 或 LayoutXLMTokenizerFast,它们将单词和边界框转换为标记级 input_ids
、attention_mask
、token_type_ids
、bbox
。 可选地,可以提供整数 word_labels
,它们将被转换为标记级 labels
用于标记分类任务(例如 FUNSD、CORD)。
__call__
< source > ( images text: Union = None text_pair: Union = None boxes: Union = None word_labels: Union = None add_special_tokens: bool = True padding: Union = False truncation: Union = None max_length: Optional = None stride: int = 0 pad_to_multiple_of: Optional = None return_token_type_ids: Optional = None return_attention_mask: Optional = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True return_tensors: Union = None **kwargs )
该方法首先将 images
参数转发到 ~LayoutLMv2ImagePrpcessor.__call__
。如果 LayoutLMv2ImagePrpcessor
初始化时 apply_ocr
设置为 True
,则将获得的单词和边界框以及其他参数传递给 call(),并返回输出,以及调整大小后的 images
。如果 LayoutLMv2ImagePrpcessor
初始化时 apply_ocr
设置为 False
,则将用户指定的单词(text
/text_pair
)和 boxes
以及其他参数传递给 [__call__()](/docs/transformers/v4.45.2/en/model_doc/layoutxlm#transformers.LayoutXLMTokenizer.__call__),并返回输出,以及调整大小后的 images
。
有关更多信息,请参阅上面两个方法的文档字符串。