Transformers 文档

TAPEX

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

TAPEX

此模型仅处于维护模式，我们不接受任何更改其代码的新 PR。

如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.30.0。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.30.0。

概述

TAPEX 模型在 TAPEX: Table Pre-training via Learning a Neural SQL Executor 中提出，作者为 Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou。TAPEX 预训练一个 BART 模型来解决合成 SQL 查询，之后可以对其进行微调，以回答与表格数据相关的自然语言问题，以及执行表格事实检查。

TAPEX 已经在多个数据集上进行了微调

SQA (微软的顺序问题回答)
WTQ (斯坦福大学的 Wiki 表格问题)
WikiSQL (Salesforce 出品)
TabFact (USCB NLP 实验室出品)。

该论文的摘要如下

最近，语言模型预训练的进展通过利用大规模非结构化文本数据取得了巨大成功。然而，由于缺乏大规模高质量的表格数据，将预训练应用于结构化表格数据仍然是一个挑战。在本文中，我们提出了 TAPEX，以表明可以通过学习神经 SQL 执行器在合成语料库上实现表格预训练，该语料库是通过自动合成可执行 SQL 查询及其执行输出来获得的。TAPEX 通过引导语言模型模仿 SQL 执行器在多样化、大规模和高质量的合成语料库上，解决了数据稀缺的挑战。我们在四个基准数据集上评估了 TAPEX。实验结果表明，TAPEX 在之前的表格预训练方法上大幅度地表现更优，并在所有数据集上取得了新的最先进的结果。这包括在弱监督的 WikiSQL 注释准确率上提高了 2.3%（达到 89.5%），在 WikiTableQuestions 注释准确率上提高了 4.8%（达到 57.5%），在 SQA 注释准确率上提高了 3.5%（达到 74.5%），以及在 TabFact 准确率上提高了 3.2%（达到 84.2%）。据我们所知，这是第一个通过合成可执行程序来利用表格预训练，并在各种下游任务上取得新的最先进成果的工作。

使用技巧

TAPEX 是一个生成式 (seq2seq) 模型。可以直接将 TAPEX 的权重插入到 BART 模型中。
TAPEX 在 hub 上有检查点，这些检查点可以是仅经过预训练的，也可以是在 WTQ、SQA、WikiSQL 和 TabFact 上微调过的。
句子 + 表格以 sentence + " " + linearized table 的形式呈现给模型。线性化表格具有以下格式：col: col1 | col2 | col 3 row 1 : val1 | val2 | val3 row 2 : ...。
TAPEX 有自己的分词器，可以轻松地为模型准备所有数据。可以将 Pandas DataFrames 和字符串传递给分词器，它将自动创建 input_ids 和 attention_mask（如下面的使用示例所示）。

用法：推理

下面，我们将说明如何使用 TAPEX 进行表格问答。可以看到，可以直接将 TAPEX 的权重插入到 BART 模型中。我们使用 Auto API，它将基于 Hub 上的 checkpoint 的配置文件，自动实例化适当的分词器 (TapexTokenizer) 和模型 (BartForConditionalGeneration)。

>>> from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
>>> import pandas as pd

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/tapex-large-finetuned-wtq")
>>> model = AutoModelForSeq2SeqLM.from_pretrained("microsoft/tapex-large-finetuned-wtq")

>>> # prepare table + question
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> table = pd.DataFrame.from_dict(data)
>>> question = "how many movies does Leonardo Di Caprio have?"

>>> encoding = tokenizer(table, question, return_tensors="pt")

>>> # let the model generate an answer autoregressively
>>> outputs = model.generate(**encoding)

>>> # decode back to text
>>> predicted_answer = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
>>> print(predicted_answer)
53

请注意，TapexTokenizer 也支持批量推理。因此，可以提供一批不同的表格/问题，或一批单个表格和多个问题，或一批单个查询和多个表格。让我们说明一下。

>>> # prepare table + question
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> table = pd.DataFrame.from_dict(data)
>>> questions = [
...     "how many movies does Leonardo Di Caprio have?",
...     "which actor has 69 movies?",
...     "what's the first name of the actor who has 87 movies?",
... ]
>>> encoding = tokenizer(table, questions, padding=True, return_tensors="pt")

>>> # let the model generate an answer autoregressively
>>> outputs = model.generate(**encoding)

>>> # decode back to text
>>> tokenizer.batch_decode(outputs, skip_special_tokens=True)
[' 53', ' george clooney', ' brad pitt']

如果想要进行表格验证（即，确定给定的句子是否被表格内容支持或反驳的任务），可以实例化一个 BartForSequenceClassification 模型。TAPEX 在 Hub 上有针对 TabFact 进行微调的 checkpoints，TabFact 是表格事实检查的一个重要基准（它达到了 84% 的准确率）。下面的代码示例再次利用了 Auto API。

>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/tapex-large-finetuned-tabfact")
>>> model = AutoModelForSequenceClassification.from_pretrained("microsoft/tapex-large-finetuned-tabfact")

>>> # prepare table + sentence
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> table = pd.DataFrame.from_dict(data)
>>> sentence = "George Clooney has 30 movies"

>>> encoding = tokenizer(table, sentence, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**encoding)

>>> # print prediction
>>> predicted_class_idx = outputs.logits[0].argmax(dim=0).item()
>>> print(model.config.id2label[predicted_class_idx])
Refused

TAPEX 架构与 BART 相同，除了分词。有关配置类及其参数的信息，请参阅 BART 文档。TAPEX 特定的分词器将在下面进行文档说明。

TapexTokenizer

class transformers.TapexTokenizer

< source >

( vocab_file merges_file do_lower_case = True errors = 'replace' bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' add_prefix_space = False max_cell_length = 15 **kwargs )

参数

vocab_file (str) — 词汇表文件的路径。
merges_file (str) — merges 文件的路径。
do_lower_case (bool, optional, defaults to True) — 是否在分词时将输入转换为小写。
errors (str, optional, defaults to "replace") — 将字节解码为 UTF-8 时遵循的范例。有关更多信息，请参阅 bytes.decode。
bos_token (str, optional, defaults to "<s>") — 序列开始标记，在预训练期间使用。可以用作序列分类器标记。

当使用特殊标记构建序列时，这不是用于序列开始的标记。使用的标记是 cls_token。
eos_token (str, optional, defaults to "</s>") — 序列结束标记。

当使用特殊标记构建序列时，这不是用于序列结束的标记。使用的标记是 sep_token。
sep_token (str, optional, defaults to "</s>") — 分隔符标记，用于从多个序列构建序列时，例如，用于序列分类的两个序列，或者用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, optional, defaults to "<s>") — 分类器标记，用于进行序列分类（对整个序列而不是每个标记进行分类）。当使用特殊标记构建序列时，它是序列的第一个标记。
unk_token (str, optional, defaults to "<unk>") — 未知标记。词汇表中没有的标记无法转换为 ID，而是设置为此标记。
pad_token (str, optional, defaults to "<pad>") — 用于填充的标记，例如，当批量处理不同长度的序列时。
mask_token (str, optional, defaults to "<mask>") — 用于掩码值的标记。这是使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
add_prefix_space (bool, optional, defaults to False) — 是否在输入中添加前导空格。这允许像对待任何其他单词一样对待前导单词。（BART 分词器通过前导空格检测单词的开头）。
max_cell_length (int, optional, defaults to 15) — 线性化表格时每个单元格的最大字符数。如果超过此数字，则会进行截断。

构建 TAPEX 分词器。基于字节级 Byte-Pair-Encoding (BPE)。

此分词器可用于展平一个或多个表格，并将它们与一个或多个相关句子连接起来，以供 TAPEX 模型使用。TAPEX 分词器创建的格式如下：

sentence col: col1 | col2 | col 3 row 1 : val1 | val2 | val3 row 2 : …

该分词器支持单个表格 + 单个查询、单个表格和多个查询（在这种情况下，表格将为每个查询复制）、单个查询和多个表格（在这种情况下，查询将为每个表格复制），以及多个表格和查询。换句话说，您可以向分词器提供一批表格 + 问题，例如，为模型准备它们。

分词本身基于 BPE 算法。它与 BART、RoBERTa 和 GPT-2 使用的算法相同。

此分词器继承自 PreTrainedTokenizer，其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。

call

< source >

( table: typing.Union[ForwardRef('pd.DataFrame'), typing.List[ForwardRef('pd.DataFrame')]] = None query: typing.Union[str, typing.List[str], NoneType] = None answer: typing.Union[str, typing.List[str]] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = None max_length: typing.Optional[int] = None stride: int = 0 pad_to_multiple_of: typing.Optional[int] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs )

参数

table (pd.DataFrame, List[pd.DataFrame]) — 包含表格数据的表格。
query (str or List[str], optional) — 与一个或多个要编码的表格相关的句子或句子批次。请注意，句子的数量必须与表格的数量匹配。
answer (str or List[str], optional) — 可选地，作为监督的对应问题的答案。
add_special_tokens (bool, optional, defaults to True) — 是否在编码序列时添加特殊标记。这将使用底层的 PretrainedTokenizerBase.build_inputs_with_special_tokens 函数，该函数定义了哪些标记会自动添加到 input ids 中。如果您想自动添加 bos 或 eos 标记，这将非常有用。
padding (bool, str or PaddingStrategy, optional, defaults to False) — 激活和控制填充。接受以下值：
- True 或 'longest'：填充到批次中最长的序列（如果仅提供单个序列，则不填充）。
- 'max_length'：填充到使用参数 max_length 指定的最大长度，或者如果未提供该参数，则填充到模型可接受的最大输入长度。
- False 或 'do_not_pad' (默认)：不填充（即，可以输出具有不同长度序列的批次）。
truncation (bool, str 或 TruncationStrategy, 可选, 默认为 False) — 激活并控制截断。接受以下值：
- True 或 'longest_first'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。如果提供了一对序列（或一批序列对），这将逐 token 进行截断，从较长序列中移除 token。
- 'only_first'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。如果提供了一对序列（或一批序列对），这将仅截断第一条序列。
- 'only_second'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。如果提供了一对序列（或一批序列对），这将仅截断第二条序列。
- False 或 'do_not_truncate' (默认)：不截断（即，可以输出序列长度大于模型最大允许输入大小的批次）。
max_length (int, 可选) — 控制通过截断/填充参数使用的最大长度。

如果未设置或设置为 None，如果截断/填充参数需要最大长度，则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度（如 XLNet），则将停用截断/填充到最大长度的功能。
stride (int, 可选, 默认为 0) — 如果与 max_length 一起设置为一个数字，则当 return_overflowing_tokens=True 时返回的溢出 token 将包含来自截断序列末尾的一些 token，以便在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠 token 的数量。
is_split_into_words (bool, 可选, 默认为 False) — 指示输入是否已预先分词（例如，分成单词）。如果设置为 True，则 tokenizer 假定输入已分成单词（例如，通过在空格上拆分），它将对其进行 token 化。这对于 NER 或 token 分类很有用。
pad_to_multiple_of (int, 可选) — 如果设置，则将序列填充到提供值的倍数。需要激活 padding。这对于在计算能力 >= 7.5 (Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用尤其有用。
padding_side (str, 可选) — 模型应在其上应用填充的一侧。应从 [‘right’, ‘left’] 中选择。默认值从同名的类属性中选取。
return_tensors (str 或 TensorType, 可选) — 如果设置，将返回 tensor 而不是 python 整数列表。可接受的值为：
- 'tf'：返回 TensorFlow tf.constant 对象。
- 'pt'：返回 PyTorch torch.Tensor 对象。
- 'np'：返回 Numpy np.ndarray 对象。
add_special_tokens (bool, 可选, 默认为 True) — 是否使用与其模型相关的特殊 token 对序列进行编码。
padding (bool, str or PaddingStrategy, optional, defaults to False) — 激活和控制填充。接受以下值：
- True 或 'longest'：填充到批次中最长的序列（如果仅提供单个序列，则不填充）。
- 'max_length'：填充到使用参数 max_length 指定的最大长度，或者如果未提供该参数，则填充到模型可接受的最大输入长度。
- False 或 'do_not_pad' (默认)：不填充（即，可以输出具有不同长度序列的批次）。
truncation (bool, str, TapexTruncationStrategy 或 TruncationStrategy, — 可选, 默认为 False):

激活并控制截断。接受以下值：
- 'drop_rows_to_fit'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。这将逐行截断，从表格中删除行。
- True 或 'longest_first'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。如果提供了一对序列（或一批序列对），这将逐 token 进行截断，从较长序列中移除 token。
- 'only_first'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。如果提供了一对序列（或一批序列对），这将仅截断第一条序列。
- 'only_second'：截断到通过参数 max_length 指定的最大长度，或者如果未提供该参数，则截断到模型可接受的最大输入长度。如果提供了一对序列（或一批序列对），这将仅截断第二条序列。
- False 或 'do_not_truncate' (默认)：不截断（即，可以输出序列长度大于模型最大允许输入大小的批次）。
max_length (int, 可选) — 控制截断/填充参数使用的最大长度。如果未设置或设置为 None，如果截断/填充参数需要最大长度，则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度（如 XLNet），则将停用截断/填充到最大长度的功能。
stride (int, 可选, 默认为 0) — 如果与 max_length 一起设置为一个数字，则当 return_overflowing_tokens=True 时返回的溢出 token 将包含来自截断序列末尾的一些 token，以便在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠 token 的数量。
pad_to_multiple_of (int, 可选) — 如果设置，则将序列填充到提供值的倍数。这对于在计算能力 >= 7.5 (Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用尤其有用。
return_tensors (str 或 TensorType, 可选) — 如果设置，将返回 tensor 而不是 python 整数列表。可接受的值为：
- 'tf'：返回 TensorFlow tf.constant 对象。
- 'pt'：返回 PyTorch torch.Tensor 对象。
- 'np'：返回 Numpy np.ndarray 对象。

用于对一个或多个表格-序列对进行 token 化并为模型准备的主要方法。

save_vocabulary

< source >

( save_directory: str filename_prefix: typing.Optional[str] = None )

< > Update on GitHub

←T5v1.1 Transformer XL→

Transformers

TAPEX

概述

使用技巧

用法：推理

TapexTokenizer

class transformers.TapexTokenizer

__call__

save_vocabulary

call