Transformers 文档
TAPAS
并获得增强的文档体验
开始使用
TAPAS
概述
TAPAS 模型由 Jonathan Herzig、Paweł Krzysztof Nowak、Thomas Müller、Francesco Piccinno 和 Julian Martin Eisenschlos 在TAPAS: 通过预训练进行弱监督表格解析中提出。它是一个基于 BERT 的模型,专门为回答表格数据相关问题而设计(并进行预训练)。与 BERT 相比,TAPAS 使用相对位置嵌入,并具有 7 种标记类型来编码表格结构。TAPAS 在大型数据集上通过掩码语言建模(MLM)目标进行预训练,该数据集包含来自英文维基百科的数百万个表格和相应的文本。
对于问答,TAPAS 在顶部有 2 个头:一个单元格选择头和一个聚合头,用于(可选)在所选单元格中执行聚合(例如计数或求和)。TAPAS 已在多个数据集上进行了微调:
它在 SQA 和 WTQ 上均取得了最先进的性能,同时在 WikiSQL 上的性能与 SOTA 相当,但架构更简单。
论文摘要如下:
在表格上回答自然语言问题通常被视为一项语义解析任务。为了减轻完整逻辑形式的收集成本,一种流行的方法侧重于弱监督,即使用指代而非逻辑形式。然而,从弱监督中训练语义解析器存在困难,此外,生成的逻辑形式仅用作检索指代之前的中间步骤。在本文中,我们提出了 TAPAS,一种无需生成逻辑形式即可在表格上进行问答的方法。TAPAS 从弱监督中训练,并通过选择表格单元格并可选地对该选择应用相应的聚合运算符来预测指代。TAPAS 扩展了 BERT 的架构以将表格编码为输入,从维基百科爬取的文本片段和表格的有效联合预训练进行初始化,并进行端到端训练。我们对三个不同的语义解析数据集进行了实验,发现 TAPAS 通过将 SQA 的最先进准确率从 55.1 提高到 67.2,并与 WIKISQL 和 WIKITQ 的最先进水平持平,从而超越或媲美语义解析模型,但模型架构更简单。我们还发现,在我们的设置中,从 WIKISQL 到 WIKITQ 的迁移学习(这是微不足道的)产生了 48.7 的准确率,比最先进水平高出 4.2 个百分点。
此外,作者通过创建数百万自动生成的训练示例的平衡数据集,进一步预训练了 TAPAS 以识别**表格蕴含**,这些示例在微调之前的中间步骤中学习。TAPAS 的作者将这种进一步的预训练称为中间预训练(因为 TAPAS 首先在 MLM 上进行预训练,然后在另一个数据集上进行预训练)。他们发现中间预训练进一步提高了 SQA 的性能,实现了新的最先进水平,并在 TabFact(一个包含 16k 维基百科表格的用于表格蕴含的大规模数据集,一个二元分类任务)上实现了最先进水平。欲了解更多详情,请参阅他们的后续论文:Julian Martin Eisenschlos、Syrine Krichene 和 Thomas Müller 的 使用中间预训练理解表格。

此模型由 nielsr 贡献。此模型的 TensorFlow 版本由 kamalkraj 贡献。原始代码可在 此处 找到。
使用技巧
- TAPAS 默认使用相对位置嵌入(在表格的每个单元格处重新开始位置嵌入)。请注意,这是在 TAPAS 原始论文发表后添加的功能。据作者称,这通常会带来稍好的性能,并允许在不耗尽嵌入的情况下编码更长的序列。这反映在 TapasConfig 的
reset_position_index_per_cell
参数中,该参数默认设置为True
。在 hub 上可用的模型默认版本都使用相对位置嵌入。您仍然可以通过在调用from_pretrained()
方法时传入额外的参数revision="no_reset"
来使用具有绝对位置嵌入的模型。请注意,通常建议在右侧而不是左侧填充输入。 - TAPAS 基于 BERT,因此
TAPAS-base
例如对应于BERT-base
架构。当然,TAPAS-large
将带来最佳性能(论文中报告的结果来自TAPAS-large
)。各种大小模型的性能结果显示在原始 GitHub 仓库中。 - TAPAS 具有在 SQA 上微调的检查点,能够在会话设置中回答与表格相关的问题。这意味着您可以提出后续问题,例如与前一个问题相关的“他多大了?”。请注意,在会话设置中,TAPAS 的前向传播略有不同:在这种情况下,您必须将每个表格-问题对逐一输入到模型中,以便
prev_labels
令牌类型 ID 可以被模型对前一个问题的预测labels
覆盖。有关更多信息,请参阅“用法”部分。 - TAPAS 与 BERT 类似,因此依赖于掩码语言建模(MLM)目标。因此,它在预测掩码令牌和一般 NLU 方面效率高,但不适合文本生成。采用因果语言建模(CLM)目标训练的模型在这方面表现更好。请注意,TAPAS 可以用作 EncoderDecoderModel 框架中的编码器,以将其与 GPT-2 等自回归文本解码器结合使用。
用法:微调
在这里,我们解释了如何在你自己的数据集上微调 TapasForQuestionAnswering。
步骤 1:选择使用 TAPAS 的 3 种方式之一 - 或进行实验
基本上,有 3 种不同的方式可以微调 TapasForQuestionAnswering,对应于 Tapas 被微调的不同数据集。
- SQA:如果你对在会话设置中提问与表格相关的后续问题感兴趣。例如,如果你首先问“第一个演员的名字是什么?”,然后你可以问一个后续问题,例如“他多大了?”。在这里,问题不涉及任何聚合(所有问题都是单元格选择问题)。
- WTQ:如果你不感兴趣在会话设置中提问,而只是提问与表格相关的问题,这些问题可能涉及聚合,例如计算行数、求和单元格值或平均单元格值。你就可以问“C罗职业生涯中进球总数是多少?”。这种情况也称为**弱监督**,因为模型本身必须仅根据问题的答案学习适当的聚合运算符(SUM/COUNT/AVERAGE/NONE)。
- WikiSQL-supervised:此数据集基于 WikiSQL,模型在训练期间被赋予了真实聚合运算符。这也被称为**强监督**。在这里,学习适当的聚合运算符要容易得多。
总结一下:
任务 | 示例数据集 | 描述 |
---|---|---|
对话式 | SQA | 对话式,仅限单元格选择问题 |
聚合的弱监督 | WTQ | 问题可能涉及聚合,模型必须仅根据答案进行学习 |
聚合的强监督 | WikiSQL-supervised | 问题可能涉及聚合,模型必须根据黄金聚合运算符进行学习 |
使用预训练的基座和从中心随机初始化的分类头初始化模型,可以按如下所示进行。
>>> from transformers import TapasConfig, TapasForQuestionAnswering
>>> # for example, the base sized model with default SQA configuration
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base")
>>> # or, the base sized model with WTQ configuration
>>> config = TapasConfig.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> # or, the base sized model with WikiSQL configuration
>>> config = TapasConfig("google-base-finetuned-wikisql-supervised")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
当然,你不必一定遵循 TAPAS 微调的三种方式之一。你也可以在初始化 TapasConfig 时,通过定义你想要的任何超参数来尝试,然后根据该配置创建一个 TapasForQuestionAnswering。例如,如果你的数据集既有对话式问题,又有可能涉及聚合的问题,那么你可以这样做。下面是一个例子:
>>> from transformers import TapasConfig, TapasForQuestionAnswering
>>> # you can initialize the classification heads any way you want (see docs of TapasConfig)
>>> config = TapasConfig(num_aggregation_labels=3, average_logits_per_cell=True)
>>> # initializing the pre-trained base sized model with our custom classification heads
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
使用预训练的基础模型和从中心随机初始化的分类头初始化模型,可以按照以下所示进行。请务必安装 tensorflow_probability 依赖项。
>>> from transformers import TapasConfig, TFTapasForQuestionAnswering
>>> # for example, the base sized model with default SQA configuration
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base")
>>> # or, the base sized model with WTQ configuration
>>> config = TapasConfig.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> # or, the base sized model with WikiSQL configuration
>>> config = TapasConfig("google-base-finetuned-wikisql-supervised")
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
当然,你不必一定遵循 TAPAS 微调的三种方式之一。你也可以通过在初始化 TapasConfig 时定义任何你想要的超参数来进行实验,然后根据该配置创建一个 TFTapasForQuestionAnswering。例如,如果你的数据集既包含对话式问题,也包含可能涉及聚合的问题,那么你可以这样做。下面是一个示例:
>>> from transformers import TapasConfig, TFTapasForQuestionAnswering
>>> # you can initialize the classification heads any way you want (see docs of TapasConfig)
>>> config = TapasConfig(num_aggregation_labels=3, average_logits_per_cell=True)
>>> # initializing the pre-trained base sized model with our custom classification heads
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
你也可以从一个已经微调过的检查点开始。这里需要注意的是,WTQ 上已经微调过的检查点由于 L2 损失有些脆弱而存在一些问题。更多信息请参见此处。
有关 HuggingFace 中心上所有预训练和微调的 TAPAS 检查点的列表,请参见此处。
第二步:以 SQA 格式准备数据
其次,无论您上面选择了什么,您都应该将数据集准备成 SQA 格式。该格式是一个 TSV/CSV 文件,包含以下列:
id
: 可选,表格-问题对的 id,用于记录。annotator
: 可选,标注表格-问题对的人员 id,用于记录。position
: 整数,指示问题是与表格相关的第几个问题(第一、第二、第三……)。仅在会话设置(SQA)中需要。如果您选择 WTQ/WikiSQL-supervised,则不需要此列。question
: 字符串table_file
: 字符串,包含表格数据的 csv 文件名answer_coordinates
: 一个或多个元组的列表(每个元组都是单元格坐标,即属于答案的行、列对)answer_text
: 一个或多个字符串的列表(每个字符串都是答案的一部分的单元格值)aggregation_label
: 聚合运算符的索引。仅在聚合强监督(WikiSQL-supervised 案例)中需要float_answer
: 问题的浮点答案,如果有的话(如果没有则为 np.nan)。仅在聚合弱监督(如 WTQ 和 WikiSQL)中需要
表格本身应存在于一个文件夹中,每个表格都是一个单独的 CSV 文件。请注意,TAPAS 算法的作者使用了一些自动化逻辑的转换脚本将其他数据集(WTQ、WikiSQL)转换为 SQA 格式。作者在此处解释了这一点。与 HuggingFace 实现兼容的此脚本的转换版本可在此处找到。有趣的是,这些转换脚本并不完美(answer_coordinates
和 float_answer
字段是根据 answer_text
填充的),这意味着 WTQ 和 WikiSQL 的结果实际上可以改进。
步骤 3:使用 TapasTokenizer 将数据转换为张量
第三,鉴于您已经以 TSV/CSV 格式(以及包含表格数据的相应 CSV 文件)准备了数据,您可以使用 TapasTokenizer 将表格-问题对转换为 input_ids
、attention_mask
、token_type_ids
等。同样,根据您上面选择的三种情况中的哪一种,TapasForQuestionAnswering 需要不同的输入才能进行微调:
任务 | 所需输入 |
---|---|
对话式 | input_ids , attention_mask , token_type_ids , labels |
聚合的弱监督 | input_ids , attention_mask , token_type_ids , labels , numeric_values , numeric_values_scale , float_answer |
聚合的强监督 | input ids , attention mask , token type ids , labels , aggregation_labels |
TapasTokenizer 根据 TSV 文件的 answer_coordinates
和 answer_text
列创建 labels
、numeric_values
和 numeric_values_scale
。float_answer
和 aggregation_labels
已经存在于步骤 2 的 TSV 文件中。这是一个示例:
>>> from transformers import TapasTokenizer
>>> import pandas as pd
>>> model_name = "google/tapas-base"
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> answer_coordinates = [[(0, 0)], [(2, 1)], [(0, 1), (1, 1), (2, 1)]]
>>> answer_text = [["Brad Pitt"], ["69"], ["209"]]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table,
... queries=queries,
... answer_coordinates=answer_coordinates,
... answer_text=answer_text,
... padding="max_length",
... return_tensors="pt",
... )
>>> inputs
{'input_ids': tensor([[ ... ]]), 'attention_mask': tensor([[...]]), 'token_type_ids': tensor([[[...]]]),
'numeric_values': tensor([[ ... ]]), 'numeric_values_scale: tensor([[ ... ]]), labels: tensor([[ ... ]])}
请注意,TapasTokenizer 期望表格数据是**纯文本**。您可以在数据帧上使用 .astype(str)
将其转换为纯文本数据。当然,这仅展示了如何编码单个训练示例。建议创建数据加载器以迭代批次。
>>> import torch
>>> import pandas as pd
>>> tsv_path = "your_path_to_the_tsv_file"
>>> table_csv_path = "your_path_to_a_directory_containing_all_csv_files"
>>> class TableDataset(torch.utils.data.Dataset):
... def __init__(self, data, tokenizer):
... self.data = data
... self.tokenizer = tokenizer
... def __getitem__(self, idx):
... item = data.iloc[idx]
... table = pd.read_csv(table_csv_path + item.table_file).astype(
... str
... ) # be sure to make your table data text only
... encoding = self.tokenizer(
... table=table,
... queries=item.question,
... answer_coordinates=item.answer_coordinates,
... answer_text=item.answer_text,
... truncation=True,
... padding="max_length",
... return_tensors="pt",
... )
... # remove the batch dimension which the tokenizer adds by default
... encoding = {key: val.squeeze(0) for key, val in encoding.items()}
... # add the float_answer which is also required (weak supervision for aggregation case)
... encoding["float_answer"] = torch.tensor(item.float_answer)
... return encoding
... def __len__(self):
... return len(self.data)
>>> data = pd.read_csv(tsv_path, sep="\t")
>>> train_dataset = TableDataset(data, tokenizer)
>>> train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=32)
第三,鉴于您已经以 TSV/CSV 格式(以及相应的包含表格数据的 CSV 文件)准备了数据,您可以使用 TapasTokenizer 将表格-问题对转换为 input_ids
、attention_mask
、token_type_ids
等。同样,根据您上面选择的三种情况中的哪一种,TFTapasForQuestionAnswering 需要不同的输入才能进行微调:
任务 | 所需输入 |
---|---|
对话式 | input_ids , attention_mask , token_type_ids , labels |
聚合的弱监督 | input_ids , attention_mask , token_type_ids , labels , numeric_values , numeric_values_scale , float_answer |
聚合的强监督 | input ids , attention mask , token type ids , labels , aggregation_labels |
TapasTokenizer 根据 TSV 文件的 answer_coordinates
和 answer_text
列创建 labels
、numeric_values
和 numeric_values_scale
。float_answer
和 aggregation_labels
已经存在于步骤 2 的 TSV 文件中。这是一个示例:
>>> from transformers import TapasTokenizer
>>> import pandas as pd
>>> model_name = "google/tapas-base"
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> answer_coordinates = [[(0, 0)], [(2, 1)], [(0, 1), (1, 1), (2, 1)]]
>>> answer_text = [["Brad Pitt"], ["69"], ["209"]]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table,
... queries=queries,
... answer_coordinates=answer_coordinates,
... answer_text=answer_text,
... padding="max_length",
... return_tensors="tf",
... )
>>> inputs
{'input_ids': tensor([[ ... ]]), 'attention_mask': tensor([[...]]), 'token_type_ids': tensor([[[...]]]),
'numeric_values': tensor([[ ... ]]), 'numeric_values_scale: tensor([[ ... ]]), labels: tensor([[ ... ]])}
请注意,TapasTokenizer 期望表格数据是**纯文本**。您可以在数据帧上使用 .astype(str)
将其转换为纯文本数据。当然,这仅展示了如何编码单个训练示例。建议创建数据加载器以迭代批次。
>>> import tensorflow as tf
>>> import pandas as pd
>>> tsv_path = "your_path_to_the_tsv_file"
>>> table_csv_path = "your_path_to_a_directory_containing_all_csv_files"
>>> class TableDataset:
... def __init__(self, data, tokenizer):
... self.data = data
... self.tokenizer = tokenizer
... def __iter__(self):
... for idx in range(self.__len__()):
... item = self.data.iloc[idx]
... table = pd.read_csv(table_csv_path + item.table_file).astype(
... str
... ) # be sure to make your table data text only
... encoding = self.tokenizer(
... table=table,
... queries=item.question,
... answer_coordinates=item.answer_coordinates,
... answer_text=item.answer_text,
... truncation=True,
... padding="max_length",
... return_tensors="tf",
... )
... # remove the batch dimension which the tokenizer adds by default
... encoding = {key: tf.squeeze(val, 0) for key, val in encoding.items()}
... # add the float_answer which is also required (weak supervision for aggregation case)
... encoding["float_answer"] = tf.convert_to_tensor(item.float_answer, dtype=tf.float32)
... yield encoding["input_ids"], encoding["attention_mask"], encoding["numeric_values"], encoding[
... "numeric_values_scale"
... ], encoding["token_type_ids"], encoding["labels"], encoding["float_answer"]
... def __len__(self):
... return len(self.data)
>>> data = pd.read_csv(tsv_path, sep="\t")
>>> train_dataset = TableDataset(data, tokenizer)
>>> output_signature = (
... tf.TensorSpec(shape=(512,), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.float32),
... tf.TensorSpec(shape=(512,), dtype=tf.float32),
... tf.TensorSpec(shape=(512, 7), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.float32),
... )
>>> train_dataloader = tf.data.Dataset.from_generator(train_dataset, output_signature=output_signature).batch(32)
请注意,此处我们独立编码每个表格-问题对。只要您的数据集**不是对话式**的,这就可以了。如果您的数据集涉及对话式问题(例如 SQA 中),则应首先按表格(按其 position
索引的顺序)将 queries
、answer_coordinates
和 answer_text
分组在一起,并批量编码每个表格及其问题。这将确保 prev_labels
令牌类型(请参阅 TapasTokenizer 的文档)设置正确。有关更多信息,请参阅 此笔记本。有关使用 TensorFlow 模型的更多信息,请参阅 此笔记本。
**第四步:训练(微调)模型
然后,您可以按照以下方式微调 TapasForQuestionAnswering(此处以聚合弱监督为例):
>>> from transformers import TapasConfig, TapasForQuestionAnswering, AdamW
>>> # this is the default WTQ configuration
>>> config = TapasConfig(
... num_aggregation_labels=4,
... use_answer_as_supervision=True,
... answer_loss_cutoff=0.664694,
... cell_selection_preference=0.207951,
... huber_loss_delta=0.121194,
... init_cell_selection_weights_to_zero=True,
... select_one_column=True,
... allow_empty_column_selection=False,
... temperature=0.0352513,
... )
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> optimizer = AdamW(model.parameters(), lr=5e-5)
>>> model.train()
>>> for epoch in range(2): # loop over the dataset multiple times
... for batch in train_dataloader:
... # get the inputs;
... input_ids = batch["input_ids"]
... attention_mask = batch["attention_mask"]
... token_type_ids = batch["token_type_ids"]
... labels = batch["labels"]
... numeric_values = batch["numeric_values"]
... numeric_values_scale = batch["numeric_values_scale"]
... float_answer = batch["float_answer"]
... # zero the parameter gradients
... optimizer.zero_grad()
... # forward + backward + optimize
... outputs = model(
... input_ids=input_ids,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=labels,
... numeric_values=numeric_values,
... numeric_values_scale=numeric_values_scale,
... float_answer=float_answer,
... )
... loss = outputs.loss
... loss.backward()
... optimizer.step()
然后,您可以按照以下方式微调 TFTapasForQuestionAnswering(此处以聚合弱监督为例):
>>> import tensorflow as tf
>>> from transformers import TapasConfig, TFTapasForQuestionAnswering
>>> # this is the default WTQ configuration
>>> config = TapasConfig(
... num_aggregation_labels=4,
... use_answer_as_supervision=True,
... answer_loss_cutoff=0.664694,
... cell_selection_preference=0.207951,
... huber_loss_delta=0.121194,
... init_cell_selection_weights_to_zero=True,
... select_one_column=True,
... allow_empty_column_selection=False,
... temperature=0.0352513,
... )
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
>>> for epoch in range(2): # loop over the dataset multiple times
... for batch in train_dataloader:
... # get the inputs;
... input_ids = batch[0]
... attention_mask = batch[1]
... token_type_ids = batch[4]
... labels = batch[-1]
... numeric_values = batch[2]
... numeric_values_scale = batch[3]
... float_answer = batch[6]
... # forward + backward + optimize
... with tf.GradientTape() as tape:
... outputs = model(
... input_ids=input_ids,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=labels,
... numeric_values=numeric_values,
... numeric_values_scale=numeric_values_scale,
... float_answer=float_answer,
... )
... grads = tape.gradient(outputs.loss, model.trainable_weights)
... optimizer.apply_gradients(zip(grads, model.trainable_weights))
用法:推理
在这里,我们解释如何使用 TapasForQuestionAnswering 或 TFTapasForQuestionAnswering 进行推理(即对新数据进行预测)。对于推理,只需向模型提供 input_ids
、attention_mask
和 token_type_ids
(您可以使用 TapasTokenizer 获取这些信息)即可获得 logits。接下来,您可以使用方便的 ~models.tapas.tokenization_tapas.convert_logits_to_predictions
方法将这些 logits 转换为预测坐标和可选的聚合索引。
然而,请注意,推理**不同**,这取决于设置是否是对话式的。在非对话式设置中,推理可以并行处理批处理中的所有表格-问题对。这是一个示例:
>>> from transformers import TapasTokenizer, TapasForQuestionAnswering
>>> import pandas as pd
>>> model_name = "google/tapas-base-finetuned-wtq"
>>> model = TapasForQuestionAnswering.from_pretrained(model_name)
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> predicted_answer_coordinates, predicted_aggregation_indices = tokenizer.convert_logits_to_predictions(
... inputs, outputs.logits.detach(), outputs.logits_aggregation.detach()
... )
>>> # let's print out the results:
>>> id2aggregation = {0: "NONE", 1: "SUM", 2: "AVERAGE", 3: "COUNT"}
>>> aggregation_predictions_string = [id2aggregation[x] for x in predicted_aggregation_indices]
>>> answers = []
>>> for coordinates in predicted_answer_coordinates:
... if len(coordinates) == 1:
... # only a single cell:
... answers.append(table.iat[coordinates[0]])
... else:
... # multiple cells
... cell_values = []
... for coordinate in coordinates:
... cell_values.append(table.iat[coordinate])
... answers.append(", ".join(cell_values))
>>> display(table)
>>> print("")
>>> for query, answer, predicted_agg in zip(queries, answers, aggregation_predictions_string):
... print(query)
... if predicted_agg == "NONE":
... print("Predicted answer: " + answer)
... else:
... print("Predicted answer: " + predicted_agg + " > " + answer)
What is the name of the first actor?
Predicted answer: Brad Pitt
How many movies has George Clooney played in?
Predicted answer: COUNT > 69
What is the total number of movies?
Predicted answer: SUM > 87, 53, 69
在这里,我们解释了如何使用 TFTapasForQuestionAnswering 进行推理(即对新数据进行预测)。对于推理,只需向模型提供 input_ids
、attention_mask
和 token_type_ids
(您可以使用 TapasTokenizer 获取这些信息)即可获得 logits。接下来,您可以使用方便的 ~models.tapas.tokenization_tapas.convert_logits_to_predictions
方法将这些 logits 转换为预测坐标和可选的聚合索引。
然而,请注意,推理**不同**,这取决于设置是否是对话式的。在非对话式设置中,推理可以并行处理批处理中的所有表格-问题对。这是一个示例:
>>> from transformers import TapasTokenizer, TFTapasForQuestionAnswering
>>> import pandas as pd
>>> model_name = "google/tapas-base-finetuned-wtq"
>>> model = TFTapasForQuestionAnswering.from_pretrained(model_name)
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> outputs = model(**inputs)
>>> predicted_answer_coordinates, predicted_aggregation_indices = tokenizer.convert_logits_to_predictions(
... inputs, outputs.logits, outputs.logits_aggregation
... )
>>> # let's print out the results:
>>> id2aggregation = {0: "NONE", 1: "SUM", 2: "AVERAGE", 3: "COUNT"}
>>> aggregation_predictions_string = [id2aggregation[x] for x in predicted_aggregation_indices]
>>> answers = []
>>> for coordinates in predicted_answer_coordinates:
... if len(coordinates) == 1:
... # only a single cell:
... answers.append(table.iat[coordinates[0]])
... else:
... # multiple cells
... cell_values = []
... for coordinate in coordinates:
... cell_values.append(table.iat[coordinate])
... answers.append(", ".join(cell_values))
>>> display(table)
>>> print("")
>>> for query, answer, predicted_agg in zip(queries, answers, aggregation_predictions_string):
... print(query)
... if predicted_agg == "NONE":
... print("Predicted answer: " + answer)
... else:
... print("Predicted answer: " + predicted_agg + " > " + answer)
What is the name of the first actor?
Predicted answer: Brad Pitt
How many movies has George Clooney played in?
Predicted answer: COUNT > 69
What is the total number of movies?
Predicted answer: SUM > 87, 53, 69
如果是对话式设置,那么每个表格-问题对必须**按顺序**提供给模型,以便 prev_labels
令牌类型可以被前一个表格-问题对的预测 labels
覆盖。同样,更多信息可以在 此笔记本(适用于 PyTorch)和 此笔记本(适用于 TensorFlow)中找到。
资源
TAPAS 特定输出
class transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput
< 来源 >( 损失: typing.Optional[torch.FloatTensor] = None 对数: typing.Optional[torch.FloatTensor] = None 对数聚合: typing.Optional[torch.FloatTensor] = None 隐藏状态: typing.Optional[tuple[torch.FloatTensor]] = None 注意力: typing.Optional[tuple[torch.FloatTensor]] = None )
参数
- 损失 (
torch.FloatTensor
,形状为(1,)
,可选,当提供labels
(可能还有answer
,aggregation_labels
,numeric_values
和numeric_values_scale
) 时返回) — 总损失,作为分层单元格选择对数似然损失和(可选)半监督回归损失以及(可选)聚合监督损失的总和。 - 对数 (
torch.FloatTensor
,形状为(batch_size, sequence_length)
) — 每个 token 的单元格选择头的预测分数。 - 聚合对数 (
torch.FloatTensor
, 可选, 形状为(batch_size, num_aggregation_labels)
) — 聚合头对每个聚合操作符的预测分数。 - 隐藏状态 (
tuple[torch.FloatTensor]
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每层输出处的隐藏状态以及可选的初始嵌入输出。
- 注意力 (
tuple[torch.FloatTensor]
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。在注意力 softmax 之后,用于计算自注意力头中的加权平均值的注意力权重。
TapasForQuestionAnswering 的输出类型。
TapasConfig
class transformers.TapasConfig
< 来源 >( 词汇量 = 30522 隐藏大小 = 768 隐藏层数量 = 12 注意力头数量 = 12 中间大小 = 3072 隐藏激活 = 'gelu' 隐藏dropout概率 = 0.1 注意力probs dropout概率 = 0.1 最大位置嵌入 = 1024 类型词汇量大小 = [3, 256, 256, 2, 256, 256, 10] 初始化范围 = 0.02 层归一化eps = 1e-12 填充token id = 0 正标签权重 = 10.0 聚合标签数量 = 0 聚合损失权重 = 1.0 使用答案作为监督 = None 答案损失重要性 = 1.0 使用归一化答案损失 = False huber损失delta = None 温度 = 1.0 聚合温度 = 1.0 单元格使用gumbel = False 聚合使用gumbel = False 平均近似函数 = 'ratio' 单元格选择偏好 = None 答案损失截止 = None 最大行数 = 64 最大列数 = 32 每个单元格平均对数 = False 选择一列 = True 允许空列选择 = False 初始化单元格选择权重为零 = False 每单元格重置位置索引 = True 禁用每token损失 = False 聚合标签 = None 无聚合标签索引 = None **kwargs )
参数
- 词汇表大小 (
int
,可选,默认为 30522) — TAPAS 模型的词汇表大小。定义了调用 TapasModel 时传入的inputs_ids
可以表示的不同 token 的数量。 - 隐藏层大小 (
int
,可选,默认为 768) — 编码器层和池化层的大小。 - 隐藏层数量 (
int
,可选,默认为 12) — Transformer 编码器中的隐藏层数量。 - 注意力头数量 (
int
,可选,默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。 - 中间大小 (
int
,可选,默认为 3072) — Transformer 编码器中“中间”(通常称为前馈)层的大小。 - hidden_act (
str
或Callable
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,支持"gelu"
、"relu"
、"swish"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可选, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
float
, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。 - max_position_embeddings (
int
, 可选, 默认为 1024) — 此模型可能使用的最大序列长度。通常设置为较大值以防万一(例如 512 或 1024 或 2048)。 - type_vocab_sizes (
list[int]
, 可选, 默认为[3, 256, 256, 2, 256, 256, 10]
) — 调用 TapasModel 时传入的token_type_ids
的词汇表大小。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - layer_norm_eps (
float
, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。 - positive_label_weight (
float
, 可选, 默认为 10.0) — 正面标签的权重。 - num_aggregation_labels (
int
, 可选, 默认为 0) — 要预测的聚合运算符的数量。 - aggregation_loss_weight (
float
, 可选, 默认为 1.0) — 聚合损失的重要性权重。 - use_answer_as_supervision (
bool
, 可选) — 是否将答案作为聚合示例的唯一监督。 - answer_loss_importance (
float
, 可选, 默认为 1.0) — 回归损失的重要性权重。 - use_normalized_answer_loss (
bool
, 可选, 默认为False
) — 是否通过预测值和期望值的最大值来归一化答案损失。 - huber_loss_delta (
float
, 可选) — 用于计算回归损失的 Delta 参数。 - temperature (
float
, 可选, 默认为 1.0) — 用于控制(或改变)单元格逻辑概率偏斜的值。 - aggregation_temperature (
float
, 可选, 默认为 1.0) — 缩放聚合逻辑以控制概率的偏斜。 - use_gumbel_for_cells (
bool
, 可选, 默认为False
) — 是否将 Gumbel-Softmax 应用于单元格选择。 - use_gumbel_for_aggregation (
bool
, 可选, 默认为False
) — 是否将 Gumbel-Softmax 应用于聚合选择。 - average_approximation_function (
string
, 可选, 默认为"ratio"
) — 在弱监督情况下计算单元格预期平均值的方法。可以是"ratio"
、"first_order"
或"second_order"
之一。 - cell_selection_preference (
float
, 可选) — 模糊情况下的单元格选择偏好。仅适用于聚合弱监督(WTQ、WikiSQL)。如果聚合概率(不包括“NONE”运算符)的总质量高于此超参数,则会为示例预测聚合。 - answer_loss_cutoff (
float
, 可选) — 忽略答案损失大于截止值的示例。 - max_num_rows (
int
, 可选, 默认为 64) — 最大行数。 - max_num_columns (
int
, 可选, 默认为 32) — 最大列数。 - average_logits_per_cell (
bool
, 可选, 默认为False
) — 是否对每个单元格的逻辑值取平均。 - select_one_column (
bool
, 可选, 默认为True
) — 是否限制模型只从单列中选择单元格。 - allow_empty_column_selection (
bool
, 可选, 默认为False
) — 是否允许不选择任何列。 - init_cell_selection_weights_to_zero (
bool
, 可选, 默认为False
) — 是否将单元格选择权重初始化为 0,以便初始概率为 50%。 - reset_position_index_per_cell (
bool
, 可选, 默认为True
) — 是否在每个单元格重新开始位置索引(即使用相对位置嵌入)。 - disable_per_token_loss (
bool
, 可选, 默认为False
) — 是否禁用单元格上的任何(强或弱)监督。 - aggregation_labels (
dict[int, label]
, 可选) — 用于聚合结果的聚合标签。例如,WTQ 模型具有以下聚合标签:{0: "NONE", 1: "SUM", 2: "AVERAGE", 3: "COUNT"}
- no_aggregation_label_index (
int
, 可选) — 如果聚合标签已定义且其中一个标签表示“无聚合”,则应将其设置为其索引。例如,WTQ 模型将“NONE”聚合标签设置为索引 0,因此对于这些模型,该值应设置为 0。
这是用于存储 TapasModel 配置的配置类。它用于根据指定参数实例化 TAPAS 模型,定义模型架构。使用默认值实例化配置将产生与 TAPAS google/tapas-base-finetuned-sqa 架构类似的配置。
配置对象继承自 PreTrainedConfig
,可用于控制模型输出。有关这些方法的更多信息,请参阅 PretrainedConfig 的文档。
BERT 之外的超参数取自原始实现的 run_task_main.py 和 hparam_utils.py。原始实现可在 https://github.com/google-research/tapas/tree/master 找到。
示例
>>> from transformers import TapasModel, TapasConfig
>>> # Initializing a default (SQA) Tapas configuration
>>> configuration = TapasConfig()
>>> # Initializing a model from the configuration
>>> model = TapasModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
TapasTokenizer
class transformers.TapasTokenizer
< source >( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' empty_token = '[EMPTY]' tokenize_chinese_chars = True strip_accents = None cell_trim_length: int = -1 max_column_id: typing.Optional[int] = None max_row_id: typing.Optional[int] = None strip_column_names: bool = False update_answer_coordinates: bool = False min_question_length = None max_question_length = None model_max_length: int = 512 additional_special_tokens: typing.Optional[list[str]] = None clean_up_tokenization_spaces = True **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文件。 - do_lower_case (
bool
, 可选, 默认为True
) — 分词时是否将输入转换为小写。 - do_basic_tokenize (
bool
, 可选, 默认为True
) — WordPiece 之前是否执行基本分词。 - never_split (
Iterable
, 可选) — 分词期间永不拆分的标记集合。仅在do_basic_tokenize=True
时有效。 - unk_token (
str
, 可选, 默认为"[UNK]"
) — 未知标记。不在词汇表中的标记不能转换为 ID,而是设置为此标记。 - sep_token (
str
, 可选, 默认为"[SEP]"
) — 分隔符标记,用于从多个序列构建序列时,例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, 可选, 默认为"[PAD]"
) — 用于填充的标记,例如在批处理不同长度的序列时。 - cls_token (
str
, 可选, 默认为"[CLS]"
) — 分类器标记,用于序列分类(整个序列的分类而非逐标记分类)。它是使用特殊标记构建的序列的第一个标记。 - mask_token (
str
, 可选, 默认为"[MASK]"
) — 用于遮盖值的标记。这是使用遮盖语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 - empty_token (
str
, 可选, 默认为"[EMPTY]"
) — 用于表格中空单元格值的标记。空单元格值包括 ""、"n/a"、"nan" 和 "?"。 - tokenize_chinese_chars (
bool
, 可选, 默认为True
) — 是否对中文字符进行分词。对于日语,应禁用此选项(参见此 问题)。 - strip_accents (
bool
, 可选) — 是否去除所有重音符号。如果未指定此选项,则将由lowercase
的值决定(与原始 BERT 相同)。 - cell_trim_length (
int
, 可选, 默认为 -1) — 如果 > 0:修剪单元格,使其长度 <= 此值。同时禁用进一步的单元格修剪,因此应与truncation
设置为True
一起使用。 - max_column_id (
int
, 可选) — 要提取的最大列 ID。 - max_row_id (
int
, 可选) — 要提取的最大行 ID。 - strip_column_names (
bool
, 可选, 默认为False
) — 是否添加空字符串而不是列名。 - update_answer_coordinates (
bool
, 可选, 默认为False
) — 是否根据答案文本重新计算答案坐标。 - min_question_length (
int
, 可选) — 每个问题以标记表示的最小长度(否则将跳过)。 - max_question_length (
int
, 可选) — 每个问题以标记表示的最大长度(否则将跳过)。 - clean_up_tokenization_spaces (
bool
, 可选, 默认为True
) — 解码后是否清理空格,清理包括移除潜在的额外空格等。
构建一个 TAPAS 分词器。基于 WordPiece。将表格和一个或多个相关句子扁平化,供 TAPAS 模型使用。
此分词器继承自 PreTrainedTokenizer,其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。TapasTokenizer 创建多个标记类型 ID 来编码表格结构。更准确地说,它添加了 7 个标记类型 ID,顺序如下:segment_ids
、column_ids
、row_ids
、prev_labels
、column_ranks
、inv_column_ranks
和 numeric_relations
。
- segment_ids:表示标记是属于问题 (0) 还是表格 (1)。特殊标记和填充为 0。
- column_ids:表示标记属于表格的哪一列(从 1 开始)。所有问题标记、特殊标记和填充为 0。
- row_ids:表示标记属于表格的哪一行(从 1 开始)。所有问题标记、特殊标记和填充为 0。列标题的标记也为 0。
- prev_labels:表示标记是否是前一个问题答案的一部分 (1) 或不是 (0)。在对话设置中(如 SQA)很有用。
- column_ranks:如果适用,表示表格标记相对于列的排名。例如,如果列“电影数量”的值为 87、53 和 69,则这些标记的列排名分别为 3、1 和 2。所有问题标记、特殊标记和填充为 0。
- inv_column_ranks:如果适用,表示表格标记相对于列的逆排名。例如,如果列“电影数量”的值为 87、53 和 69,则这些标记的逆列排名分别为 1、3 和 2。所有问题标记、特殊标记和填充为 0。
- numeric_relations:表示问题与表格标记之间的数字关系。所有问题标记、特殊标记和填充为 0。
TapasTokenizer 对表格和相关句子进行端到端分词:标点符号分割和 WordPiece。
__call__
< source >( table: pd.DataFrame queries: typing.Union[str, list[str], list[int], list[list[str]], list[list[int]], NoneType] = None answer_coordinates: typing.Union[list[tuple], list[list[tuple]], NoneType] = None answer_text: typing.Union[list[str], list[list[str]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.models.tapas.tokenization_tapas.TapasTruncationStrategy] = False max_length: typing.Optional[int] = None pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs )
参数
- table (
pd.DataFrame
) — 包含表格数据的表格。请注意,所有单元格值都必须是文本。在 Pandas 数据帧上使用 .astype(str) 将其转换为字符串。 - queries (
str
或list[str]
) — 与要编码的表相关的问题或问题批次。请注意,如果是批次,所有问题必须指向**相同**的表。 - answer_coordinates (
list[Tuple]
或list[list[Tuple]]
, 可选) — 批次中每个表-问题对的答案坐标。如果只提供一个表-问题对,则 answer_coordinates 必须是一个包含一个或多个元组的列表。每个元组必须是一个 (行索引,列索引) 对。第一个数据行(不是列标题行)的索引为 0。第一列的索引为 0。如果提供了一批表-问题对,则 answer_coordinates 必须是一个元组列表的列表(每个列表对应一个表-问题对)。 - answer_text (
list[str]
或list[list[str]]
, 可选) — 批次中每个表-问题对的答案文本。如果只提供一个表-问题对,则 answer_text 必须是一个包含一个或多个字符串的列表。每个字符串必须是相应答案坐标的答案文本。如果提供了一批表-问题对,则 answer_coordinates 必须是一个字符串列表的列表(每个列表对应一个表-问题对)。 - add_special_tokens (
bool
, 可选, 默认为True
) — 是否使用模型相关的特殊标记编码序列。 - padding (
bool
,str
或 PaddingStrategy, 可选, 默认为False
) — 激活并控制填充。接受以下值:True
或'longest'
: 填充到批次中最长的序列(如果只提供一个序列,则不填充)。'max_length'
: 填充到由参数max_length
指定的最大长度,如果未提供该参数,则填充到模型的最大可接受输入长度。False
或'do_not_pad'
(默认): 不填充(即,可以输出长度不同的序列批次)。
- truncation (
bool
,str
或TapasTruncationStrategy
, 可选, 默认为False
) — 激活并控制截断。接受以下值:True
或'drop_rows_to_fit'
: 截断到由参数max_length
指定的最大长度,如果未提供该参数,则截断到模型的最大可接受输入长度。这将逐行截断,从表中删除行。False
或'do_not_truncate'
(默认): 不截断(即,可以输出序列长度大于模型最大允许输入大小的批次)。
- max_length (
int
, 可选) — 控制截断/填充参数使用的最大长度。如果未设置或设置为
None
,在需要最大长度时,这将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则最大长度的截断/填充将被停用。 - is_split_into_words (
bool
, 可选, 默认为False
) — 输入是否已经预分词(例如,按单词拆分)。如果设置为True
,分词器将假定输入已按单词拆分(例如,通过按空格拆分),然后对其进行分词。这对于 NER 或标记分类很有用。 - pad_to_multiple_of (
int
, 可选) — 如果设置,将序列填充到所提供值的倍数。这对于在计算能力>= 7.5
(Volta) 的 NVIDIA 硬件上启用 Tensor Cores 特别有用。 - return_tensors (
str
或 TensorType, 可选) — 如果设置,将返回张量而不是 Python 整数列表。可接受的值为:'tf'
: 返回 TensorFlowtf.constant
对象。'pt'
: 返回 PyTorchtorch.Tensor
对象。'np'
: 返回 Numpynp.ndarray
对象。
用于对一个或多个与表格相关的序列进行分词并为模型准备的主要方法。
convert_logits_to_predictions
< source >( data logits logits_agg = None cell_classification_threshold = 0.5 ) → tuple
包含根据输入而定的各种元素
参数
- data (
dict
) — 将特征映射到实际值的字典。应使用 TapasTokenizer 创建。 - logits (形状为
(batch_size, sequence_length)
的torch.Tensor
或tf.Tensor
) — 包含标记级别逻辑的张量。 - logits_agg (形状为
(batch_size, num_aggregation_labels)
的torch.Tensor
或tf.Tensor
, 可选) — 包含聚合逻辑的张量。 - cell_classification_threshold (
float
, 可选, 默认为 0.5) — 用于单元格选择的阈值。所有概率大于此阈值的表格单元格都将被选中。
返回
tuple
包含根据输入而定的各种元素
- predicted_answer_coordinates (长度为
batch_size
的list[list[[tuple]]
): 预测的答案坐标,表示为元组列表的列表。列表中的每个元素包含批次中单个示例的预测答案坐标,表示为元组列表。每个元组都是一个单元格,即(行索引,列索引)。 - predicted_aggregation_indices (长度为
batch_size
的list[int]
, 可选, 当提供logits_aggregation
时返回): 聚合头部的预测聚合运算符索引。
将 TapasForQuestionAnswering 的逻辑转换为实际的预测答案坐标和可选的聚合索引。
此函数基于的原始实现可在 此处 找到。
TapasModel
class transformers.TapasModel
< source >( config add_pooling_layer = True )
参数
- config (TapasModel) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查阅 from_pretrained() 方法加载模型权重。
- add_pooling_layer (
bool
, 可选, 默认为True
) — 是否添加池化层
输出原始隐藏状态且没有特定顶部的裸 Tapas 模型。
此模型继承自 PreTrainedModel。查阅超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并查阅 PyTorch 文档以了解所有与一般使用和行为相关的事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
, 可选) — 词汇表中输入序列标记的索引。默认情况下将忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
, 可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]
之间:- 1 表示**未被掩盖**的标记,
- 0 表示**被掩盖**的标记。
- token_type_ids (形状为
(batch_size, sequence_length, 7)
的torch.LongTensor
, 可选) — 编码表格结构的标记索引。可以使用 AutoTokenizer 获取索引。有关更多信息,请参阅此类别。 - position_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
, 可选) — 位置嵌入中每个输入序列标记位置的索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。选择范围为[0, config.max_position_embeddings - 1]
。 - head_mask (形状为
(num_heads,)
或(num_layers, num_heads)
的torch.FloatTensor
, 可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]
之间:- 1 表示头部**未被掩盖**,
- 0 表示头部**被掩盖**。
- inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选) — 可选地,除了传递input_ids
,您也可以选择直接传递嵌入表示。如果您希望对input_ids
索引如何转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这会很有用。 - encoder_hidden_states (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选) — 编码器最后一层输出的隐藏状态序列。如果模型配置为解码器,则用于交叉注意力。 - encoder_attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
, 可选) — 掩码,用于避免在编码器输入的填充标记索引上执行注意力。如果模型配置为解码器,则此掩码用于交叉注意力。掩码值选择在[0, 1]
之间:- 1 表示**未被掩盖**的标记,
- 0 表示**被掩盖**的标记。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutputWithPooling 或一个 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包含根据配置(TapasConfig)和输入而定的各种元素。
-
last_hidden_state (
torch.FloatTensor
, 形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 -
pooler_output (形状为
(batch_size, hidden_size)
的torch.FloatTensor
) — 序列中第一个标记(分类标记)的最后一层隐藏状态,经过用于辅助预训练任务的层进一步处理。例如,对于 BERT 家族的模型,这返回经过线性层和 tanh 激活函数处理后的分类标记。线性层权重是在预训练期间通过下一个句子预测(分类)目标进行训练的。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(如果模型有嵌入层,则包括嵌入层的输出,加上每个层的输出)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
此 TapasModel 的 forward 方法,重写了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasModel
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasModel.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
TapasForMaskedLM
class transformers.TapasForMaskedLM
< source >( config )
参数
- config (TapasForMaskedLM) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查阅 from_pretrained() 方法加载模型权重。
带有 language modeling
头部的 Tapas 模型。
此模型继承自 PreTrainedModel。查阅超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并查阅 PyTorch 文档以了解所有与一般使用和行为相关的事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
, 可选) — 词汇表中输入序列标记的索引。默认情况下将忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
, 可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]
之间:- 1 表示**未被掩盖**的标记,
- 0 表示**被掩盖**的标记。
- token_type_ids (形状为
(batch_size, sequence_length, 7)
的torch.LongTensor
, 可选) — 编码表格结构的标记索引。可以使用 AutoTokenizer 获取索引。有关更多信息,请参阅此类别。 - position_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
, 可选) — 位置嵌入中每个输入序列标记位置的索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。选择范围为[0, config.max_position_embeddings - 1]
。 - head_mask (形状为
(num_heads,)
或(num_layers, num_heads)
的torch.FloatTensor
, 可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]
之间:- 1 表示头部**未被掩盖**,
- 0 表示头部**被掩盖**。
- inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选) — 可选地,除了传递input_ids
,您也可以选择直接传递嵌入表示。如果您希望对input_ids
索引如何转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这会很有用。 - encoder_hidden_states (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 编码器最后一层输出的隐藏状态序列。如果模型被配置为解码器,则用于交叉注意力。 - encoder_attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 避免对编码器输入的填充标记索引执行注意力的掩码。如果模型被配置为解码器,则此掩码用于交叉注意力。掩码值选择在[0, 1]
中:- 1 表示**未被掩码**的标记,
- 0 表示**被掩码**的标记。
- labels (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
范围内(参见input_ids
文档字符串)。索引设置为-100
的标记将被忽略(掩码),损失仅针对标签在[0, ..., config.vocab_size]
范围内的标记计算。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.MaskedLMOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置 (TapasConfig) 和输入而定的各种元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 掩码语言建模 (MLM) 损失。 -
logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(如果模型有嵌入层,则包括嵌入层的输出,加上每个层的输出)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TapasForMaskedLM 的前向方法,覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasForMaskedLM
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasForMaskedLM.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table, queries="How many [MASK] has George [MASK] played in?", return_tensors="pt"
... )
>>> labels = tokenizer(
... table=table, queries="How many movies has George Clooney played in?", return_tensors="pt"
... )["input_ids"]
>>> outputs = model(**inputs, labels=labels)
>>> logits = outputs.logits
TapasForSequenceClassification
class transformers.TapasForSequenceClassification
< source >( config )
参数
- config (TapasForSequenceClassification) — 模型配置类,包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
带有序列分类头的 Tapas 模型(池化输出顶部的线性层),例如用于表格蕴涵任务,如 TabFact (Chen et al., 2020)。
此模型继承自 PreTrainedModel。查阅超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并查阅 PyTorch 文档以了解所有与一般使用和行为相关的事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 词汇表中输入序列标记的索引。默认情况下会忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]
中:- 1 表示**未被掩码**的标记,
- 0 表示**被掩码**的标记。
- token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length, 7)
, 可选) — 编码表格结构的标记索引。可以使用 AutoTokenizer 获取索引。有关更多信息,请参阅此类别。 - position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 每个输入序列标记在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。选择范围为[0, config.max_position_embeddings - 1]
。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]
中:- 1 表示头部**未被掩码**,
- 0 表示头部**被掩码**。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对input_ids
索引如何转换为关联向量拥有比模型内部嵌入查找矩阵更多的控制权,这将非常有用。 - labels (
torch.LongTensor
形状为(batch_size,)
, 可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。注意:在原始实现中,这被称为“classification_class_index”。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.SequenceClassifierOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置 (TapasConfig) 和输入而定的各种元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 -
logits (形状为
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(如果模型有嵌入层,则包括嵌入层的输出,加上每个层的输出)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TapasForSequenceClassification 的前向方法,覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasForSequenceClassification
>>> import torch
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> model = TapasForSequenceClassification.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = [
... "There is only one actor who is 45 years old",
... "There are 3 actors which played in more than 60 movies",
... ]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> labels = torch.tensor([1, 0]) # 1 means entailed, 0 means refuted
>>> outputs = model(**inputs, labels=labels)
>>> loss = outputs.loss
>>> logits = outputs.logits
TapasForQuestionAnswering
class transformers.TapasForQuestionAnswering
< source >( config: TapasConfig )
参数
- config (TapasConfig) — 模型配置类,包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
Tapas 模型,带有单元格选择头和可选的聚合头,用于表格上的问答任务(在隐藏状态输出顶部的线性层,用于计算 logits
和可选的 logits_aggregation
),例如用于 SQA、WTQ 或 WikiSQL-supervised 任务。
此模型继承自 PreTrainedModel。查阅超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并查阅 PyTorch 文档以了解所有与一般使用和行为相关的事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None table_mask: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None aggregation_labels: typing.Optional[torch.LongTensor] = None float_answer: typing.Optional[torch.FloatTensor] = None numeric_values: typing.Optional[torch.FloatTensor] = None numeric_values_scale: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 词汇表中输入序列标记的索引。默认情况下会忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]
中:- 1 表示**未被掩码**的标记,
- 0 表示**被掩码**的标记。
- token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length, 7)
, 可选) — 编码表格结构的标记索引。可以使用 AutoTokenizer 获取索引。有关更多信息,请参阅此类别。 - 的
reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。选择范围为[0, config.max_position_embeddings - 1]
。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]
中:- 1 表示头部**未被掩码**,
- 0 表示头部**被掩码**。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对input_ids
索引如何转换为关联向量拥有比模型内部嵌入查找矩阵更多的控制权,这将非常有用。 - table_mask (
torch.LongTensor
形状为(batch_size, seq_length)
, 可选) — 表格的掩码。表示哪些标记属于表格 (1)。问题标记、表格标题和填充为 0。 - labels (
torch.LongTensor
形状为(batch_size, seq_length)
, 可选) — 用于计算分层单元格选择损失的每个标记的标签。这编码了答案在表格中出现的位置。可以使用 AutoTokenizer 获取。- 1 表示**是答案一部分**的标记,
- 0 表示**不是答案一部分**的标记。
- aggregation_labels (
torch.LongTensor
形状为(batch_size, )
, 可选) — 批次中每个示例的聚合函数索引,用于计算聚合损失。索引应在[0, ..., config.num_aggregation_labels - 1]
范围内。仅在需要对聚合进行强监督(WikiSQL-supervised)时才需要。 - float_answer (
torch.FloatTensor
形状为(batch_size, )
, 可选) — 批次中每个示例的浮点答案。对于单元格选择问题,设置为 float('nan')。仅在弱监督(WTQ)情况下计算聚合掩码和回归损失时才需要。 - numeric_values (
torch.FloatTensor
形状为(batch_size, seq_length)
, 可选) — 每个标记的数值,对于非数值标记为 NaN。可以使用 AutoTokenizer 获取。仅在弱监督(WTQ)情况下计算回归损失时才需要。 - numeric_values_scale (
torch.FloatTensor
形状为(batch_size, seq_length)
, 可选) — 每个标记的数值的比例。可以使用 AutoTokenizer 获取。仅在弱监督(WTQ)情况下计算回归损失时才需要。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置 (TapasConfig) 和输入而定的各种元素。
-
loss (
torch.FloatTensor
形状为(1,)
, 可选, 当提供labels
(以及可能的answer
,aggregation_labels
,numeric_values
和numeric_values_scale
) 时返回) — 总损失,是分层单元格选择对数似然损失和(可选的)半监督回归损失以及(可选的)聚合监督损失的总和。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length)
) — 每个标记的单元格选择头的预测分数。 -
logits_aggregation (
torch.FloatTensor
, 可选, 形状为(batch_size, num_aggregation_labels)
) — 聚合头的预测分数,针对每个聚合操作符。 -
hidden_states (
tuple[torch.FloatTensor]
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型有嵌入层,则包括嵌入层的输出,加上每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple[torch.FloatTensor]
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TapasForQuestionAnswering 的前向方法,覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasForQuestionAnswering
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base-finetuned-wtq")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> logits_aggregation = outputs.logits_aggregation
TFTapasModel
class transformers.TFTapasModel
< source >( config: TapasConfig *inputs **kwargs )
参数
- config (TapasConfig) — 模型配置类,包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
裸 Tapas 模型,输出原始隐藏状态,顶部没有任何特定头。
此模型继承自 TFPreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 子类。将其作为常规的 TF 2.0 Keras 模型使用,并参阅 TF 2.0 文档以了解所有与一般用法和行为相关的事项。
transformers
中的 TensorFlow 模型和层接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 所有输入作为第一个位置参数中的列表、元组或字典。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用 model.fit()
等方法时,一切都应该“正常工作”——只需以 model.fit()
支持的任何格式传递您的输入和标签即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,您可以使用三种可能性将所有输入张量收集到第一个位置参数中。
- 只有一个
input_ids
的单个张量,没有其他:model(input_ids)
- 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些问题,因为您可以像传递给任何其他 Python 函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
,且每个示例必须具有形状(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (形状为
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可选) — 用于避免在填充标记索引上执行注意力操作的掩码。在[0, 1]
中选择掩码值:- 1 表示未遮蔽的标记,
- 0 表示已遮蔽的标记。
- token_type_ids (形状为
(batch_size, sequence_length, 7)
的np.ndarray
或tf.Tensor
,可选) — 编码表格结构的标记索引。索引可以使用 AutoTokenizer 获取。有关更多信息,请参阅此类别。 - position_ids (形状为
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可选) — 输入序列标记在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (形状为
(num_heads,)
或(num_layers, num_heads)
的np.ndarray
或tf.Tensor
,可选) — 用于遮蔽自注意力模块选定头部的掩码。掩码值在[0, 1]
中选择:- 1 表示头部未被遮蔽,
- 0 表示头部被遮蔽。
- inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的np.ndarray
或tf.Tensor
,可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递input_ids
。如果你想更精细地控制如何将input_ids
索引转换为相关向量,而不是模型内部的嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是纯元组。此参数可在 eager 模式下使用,在 graph 模式下,其值将始终设置为 True。 - training (
bool
,可选,默认为 `False“) — 是否在训练模式下使用模型(某些模块,如 Dropout 模块,在训练和评估之间具有不同的行为)。
返回
transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tf.Tensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
时),包含根据配置(TapasConfig)和输入而定的各种元素。
-
last_hidden_state (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 -
pooler_output (形状为
(batch_size, hidden_size)
的tf.Tensor
) — 序列第一个标记(分类标记)的最后一层隐藏状态,经过线性层和 Tanh 激活函数进一步处理。线性层权重在预训练期间根据下一个句子预测(分类)目标进行训练。此输出通常不是输入语义内容的良好摘要,通常最好对整个输入序列的隐藏状态进行平均或池化。
-
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于嵌入输出 + 每个层一个输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFTapasModel 的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasModel
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasModel.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
TFTapasForMaskedLM
class transformers.TFTapasForMaskedLM
< source >( config: TapasConfig *inputs **kwargs )
参数
- config (TapasConfig) — 模型的配置类,包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
带有 language modeling
头部的 Tapas 模型。
此模型继承自 TFPreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 子类。将其作为常规的 TF 2.0 Keras 模型使用,并参阅 TF 2.0 文档以了解所有与一般用法和行为相关的事项。
transformers
中的 TensorFlow 模型和层接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 所有输入作为第一个位置参数中的列表、元组或字典。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用 model.fit()
等方法时,一切都应该“正常工作”——只需以 model.fit()
支持的任何格式传递您的输入和标签即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,您可以使用三种可能性将所有输入张量收集到第一个位置参数中。
- 只有一个
input_ids
的单个张量,没有其他:model(input_ids)
- 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些问题,因为您可以像传递给任何其他 Python 函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
,且每个示例必须具有形状(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (形状为
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可选) — 用于避免在填充标记索引上执行注意力操作的掩码。在[0, 1]
中选择掩码值:- 1 表示未遮蔽的标记,
- 0 表示已遮蔽的标记。
- token_type_ids (形状为
(batch_size, sequence_length, 7)
的np.ndarray
或tf.Tensor
,可选) — 编码表格结构的标记索引。索引可以使用 AutoTokenizer 获取。有关更多信息,请参阅此类别。 - position_ids (形状为
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可选) — 输入序列标记在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (形状为
(num_heads,)
或(num_layers, num_heads)
的np.ndarray
或tf.Tensor
,可选) — 用于遮蔽自注意力模块选定头部的掩码。掩码值在[0, 1]
中选择:- 1 表示头部未被遮蔽,
- 0 表示头部被遮蔽。
- inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的np.ndarray
或tf.Tensor
,可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递input_ids
。如果你想更精细地控制如何将input_ids
索引转换为相关向量,而不是模型内部的嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是纯元组。此参数可在 eager 模式下使用,在 graph 模式下,其值将始终设置为 True。 - training (
bool
,可选,默认为 `False“) — 是否在训练模式下使用模型(某些模块,如 Dropout 模块,在训练和评估之间具有不同的行为)。 - labels (形状为
(batch_size, sequence_length)
的tf.Tensor
或np.ndarray
,可选) — 用于计算遮蔽语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
之间(请参阅input_ids
文档字符串)。索引设置为-100
的标记将被忽略(遮蔽),损失仅针对标签在[0, ..., config.vocab_size]
之间的标记计算。
返回
transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tf.Tensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
时),包含根据配置(TapasConfig)和输入而定的各种元素。
-
loss (
tf.Tensor
of shape(n,)
, 可选, 其中 n 是非掩码标签的数量,当提供labels
时返回) — 掩码语言模型 (MLM) 损失。 -
logits (
tf.Tensor
of shape(batch_size, sequence_length, config.vocab_size)
) — 语言模型头部的预测分数(SoftMax 之前每个词汇标记的分数)。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于嵌入输出 + 每个层一个输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFTapasForMaskedLM 的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasForMaskedLM
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasForMaskedLM.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table, queries="How many [MASK] has George [MASK] played in?", return_tensors="tf"
... )
>>> labels = tokenizer(
... table=table, queries="How many movies has George Clooney played in?", return_tensors="tf"
... )["input_ids"]
>>> outputs = model(**inputs, labels=labels)
>>> logits = outputs.logits
TFTapasForSequenceClassification
class transformers.TFTapasForSequenceClassification
< source >( config: TapasConfig *inputs **kwargs )
参数
- config (TapasConfig) — 模型的配置类,包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
带有序列分类头的 Tapas 模型(池化输出顶部的线性层),例如用于表格蕴涵任务,如 TabFact (Chen et al., 2020)。
此模型继承自 TFPreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 子类。将其作为常规的 TF 2.0 Keras 模型使用,并参阅 TF 2.0 文档以了解所有与一般用法和行为相关的事项。
transformers
中的 TensorFlow 模型和层接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 所有输入作为第一个位置参数中的列表、元组或字典。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用 model.fit()
等方法时,一切都应该“正常工作”——只需以 model.fit()
支持的任何格式传递您的输入和标签即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,您可以使用三种可能性将所有输入张量收集到第一个位置参数中。
- 只有一个
input_ids
的单个张量,没有其他:model(input_ids)
- 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些问题,因为您可以像传递给任何其他 Python 函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
,且每个示例必须具有形状(batch_size, num_choices, sequence_length)
) — 词汇表中输入序列标记的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (形状为
(batch_size, num_choices, sequence_length)
的np.ndarray
或tf.Tensor
,可选) — 用于避免在填充标记索引上执行注意力操作的掩码。在[0, 1]
中选择掩码值:- 1 表示未遮蔽的标记,
- 0 表示已遮蔽的标记。
- token_type_ids (形状为
(batch_size, num_choices, sequence_length, 7)
的np.ndarray
或tf.Tensor
,可选) — 编码表格结构的标记索引。索引可以使用 AutoTokenizer 获取。有关更多信息,请参阅此类别。 - position_ids (形状为
(batch_size, num_choices, sequence_length)
的np.ndarray
或tf.Tensor
,可选) — 输入序列标记在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,将使用相对位置嵌入。在[0, config.max_position_embeddings - 1]
范围内选择。 - head_mask (形状为
(num_heads,)
或(num_layers, num_heads)
的np.ndarray
或tf.Tensor
,可选) — 用于遮蔽自注意力模块选定头部的掩码。掩码值在[0, 1]
中选择:- 1 表示头部未被遮蔽,
- 0 表示头部被遮蔽。
- inputs_embeds (形状为
(batch_size, num_choices, sequence_length, hidden_size)
的np.ndarray
或tf.Tensor
,可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递input_ids
。如果你想更精细地控制如何将input_ids
索引转换为相关向量,而不是模型内部的嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是纯元组。此参数可在 eager 模式下使用,在 graph 模式下,其值将始终设置为 True。 - training (
bool
,可选,默认为 `False“) — 是否在训练模式下使用模型(某些模块,如 Dropout 模块,在训练和评估之间具有不同的行为)。 - labels (形状为
(batch_size,)
的torch.LongTensor
,可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
之间。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。注意:在原始实现中,这被称为“classification_class_index”。
返回
transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tf.Tensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
时),包含根据配置(TapasConfig)和输入而定的各种元素。
-
loss (
tf.Tensor
,形状为(batch_size, )
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 -
logits (
tf.Tensor
,形状为(batch_size, config.num_labels)
) — 分类(或回归,如果 config.num_labels==1)分数(SoftMax 之前)。 -
hidden_states (
tuple(tf.Tensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于嵌入输出 + 每个层一个输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFTapasForSequenceClassification 的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasForSequenceClassification
>>> import tensorflow as tf
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> model = TapasForSequenceClassification.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = [
... "There is only one actor who is 45 years old",
... "There are 3 actors which played in more than 60 movies",
... ]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> labels = tf.convert_to_tensor([1, 0]) # 1 means entailed, 0 means refuted
>>> outputs = model(**inputs, labels=labels)
>>> loss = outputs.loss
>>> logits = outputs.logits
TFTapasForQuestionAnswering
class transformers.TFTapasForQuestionAnswering
< source >( config: TapasConfig *inputs **kwargs )
参数
- config (TapasConfig) — 模型的配置类,包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
Tapas 模型,带有单元格选择头和可选的聚合头,用于表格上的问答任务(在隐藏状态输出顶部的线性层,用于计算 logits
和可选的 logits_aggregation
),例如用于 SQA、WTQ 或 WikiSQL-supervised 任务。
此模型继承自 TFPreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 子类。将其作为常规的 TF 2.0 Keras 模型使用,并参阅 TF 2.0 文档以了解所有与一般用法和行为相关的事项。
transformers
中的 TensorFlow 模型和层接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 所有输入作为第一个位置参数中的列表、元组或字典。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用 model.fit()
等方法时,一切都应该“正常工作”——只需以 model.fit()
支持的任何格式传递您的输入和标签即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,您可以使用三种可能性将所有输入张量收集到第一个位置参数中。
- 只有一个
input_ids
的单个张量,没有其他:model(input_ids)
- 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些问题,因为您可以像传递给任何其他 Python 函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None table_mask: np.ndarray | tf.Tensor | None = None aggregation_labels: np.ndarray | tf.Tensor | None = None float_answer: np.ndarray | tf.Tensor | None = None numeric_values: np.ndarray | tf.Tensor | None = None numeric_values_scale: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.models.tapas.modeling_tf_tapas.TFTableQuestionAnsweringOutput
or tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
且每个示例必须具有形状(batch_size, sequence_length)
) — 词汇表中输入序列 token 的索引。索引可以使用 AutoTokenizer 获得。详细信息请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 掩码,用于避免在填充 token 索引上执行注意力。掩码值选择在[0, 1]
中:- 1 表示 token 未被掩盖,
- 0 表示 token 被掩盖。
- token_type_ids (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length, 7)
,可选) — 编码表格结构的 token 索引。索引可以使用 AutoTokenizer 获得。有关更多信息,请参阅此类别。 - position_ids (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 位置嵌入中每个输入序列 token 的位置索引。如果 TapasConfig 的reset_position_index_per_cell
设置为True
,则将使用相对位置嵌入。选择范围为[0, config.max_position_embeddings - 1]
。 - head_mask (
np.ndarray
或tf.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码,用于使自注意力模块的选定头部无效。掩码值选择在[0, 1]
中:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- inputs_embeds (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以直接传入嵌入表示,而不是传入input_ids
。如果您想对如何将input_ids
索引转换为相关向量有更多控制,而不是模型的内部嵌入查找矩阵,这将很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。此参数只能在 eager 模式下使用,在图模式下将使用 config 中的值。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在 eager 模式下使用,在图模式下将使用 config 中的值。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通的元组。此参数可在 eager 模式下使用,在图模式下该值将始终设置为 True。 - training (
bool
,可选,默认为False
) — 是否在训练模式下使用模型(某些模块如 dropout 模块在训练和评估之间有不同的行为)。 - table_mask (
tf.Tensor
,形状为(batch_size, seq_length)
,可选) — 表格的掩码。指示哪些 token 属于表格 (1)。问题 token、表格标题和填充为 0。 - labels (
tf.Tensor
,形状为(batch_size, seq_length)
,可选) — 用于计算分层单元格选择损失的每个 token 的标签。这编码了答案在表格中出现的位置。可以使用 AutoTokenizer 获得。- 1 表示 token 是答案的一部分,
- 0 表示 token 不是答案的一部分。
- aggregation_labels (
tf.Tensor
,形状为(batch_size, )
,可选) — 用于计算聚合损失的批次中每个示例的聚合函数索引。索引应在[0, ..., config.num_aggregation_labels - 1]
范围内。仅在需要对聚合进行强监督(WikiSQL-supervised)时才需要。 - float_answer (
tf.Tensor
,形状为(batch_size, )
,可选) — 批次中每个示例的浮点答案。对于单元格选择问题,设置为 float('nan')。仅在弱监督(WTQ)情况下,才需要计算聚合掩码和回归损失。 - numeric_values (
tf.Tensor
,形状为(batch_size, seq_length)
,可选) — 每个 token 的数值,非数值 token 为 NaN。可以使用 AutoTokenizer 获得。仅在对聚合进行弱监督(WTQ)时才需要,用于计算回归损失。 - numeric_values_scale (
tf.Tensor
,形状为(batch_size, seq_length)
,可选) — 每个 token 数值的比例。可以使用 AutoTokenizer 获得。仅在对聚合进行弱监督(WTQ)时才需要,用于计算回归损失。
返回
transformers.models.tapas.modeling_tf_tapas.TFTableQuestionAnsweringOutput
或 tuple(tf.Tensor)
一个 transformers.models.tapas.modeling_tf_tapas.TFTableQuestionAnsweringOutput
或 tf.Tensor
的元组(如果传入 return_dict=False
或 config.return_dict=False
时),包含根据配置 (TapasConfig) 和输入而定的各种元素。
- loss (
tf.Tensor
,形状为(1,)
,可选,在提供labels
(可能还有answer
、aggregation_labels
、numeric_values
和numeric_values_scale
)时返回) — 总损失,是分层单元格选择对数似然损失与(可选的)半监督回归损失和(可选的)聚合监督损失之和。 - logits (
tf.Tensor
,形状为(batch_size, sequence_length)
) — 单元格选择头部的预测分数,针对每个 token。 - logits_aggregation (
tf.Tensor
,可选,形状为(batch_size, num_aggregation_labels)
) — 聚合头部的预测分数,针对每个聚合操作符。 - hidden_states (
tuple(tf.Tensor)
,可选,当传入output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于嵌入输出,一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出的隐藏状态以及初始嵌入输出。 - attentions (
tuple(tf.Tensor)
,可选,当传入output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头部的加权平均。
TFTapasForQuestionAnswering 的 forward 方法,重写了 __call__
特殊方法。
尽管前向传播的配方需要在此函数中定义,但在此之后应该调用 Module
实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TapasForQuestionAnswering
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base-finetuned-wtq")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> logits_aggregation = outputs.logits_aggregation