Transformers 文档

Perceiver

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

Perceiver

概述

Perceiver IO 模型在 Perceiver IO: A General Architecture for Structured Inputs & Outputs 中提出，作者为 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira。

Perceiver IO 是 Perceiver 的泛化，除了任意输入外，还可以处理任意输出。最初的 Perceiver 仅生成单个分类标签。除了分类标签外，Perceiver IO 还可以生成（例如）语言、光流和带有音频的多模态视频。这是使用与原始 Perceiver 相同的构建块完成的。Perceiver IO 的计算复杂度与输入和输出大小呈线性关系，并且大部分处理发生在潜在空间中，这使我们能够处理比标准 Transformer 可以处理的更大的输入和输出。这意味着，例如，Perceiver IO 可以直接使用字节而不是分词化的输入来完成 BERT 风格的掩码语言建模。

该论文的摘要如下

最近提出的 Perceiver 模型在多个领域（图像、音频、多模态、点云）取得了良好的结果，同时计算和内存与输入大小呈线性比例关系。虽然 Perceiver 支持多种输入类型，但它只能产生非常简单的输出，例如类别分数。Perceiver IO 通过学习灵活地查询模型的潜在空间以产生任意大小和语义的输出，克服了这一限制，同时又不牺牲原始模型的吸引力特性。Perceiver IO 仍然将模型深度与数据大小解耦，并且仍然与数据大小呈线性比例关系，但现在是关于输入和输出大小。完整的 Perceiver IO 模型在具有高度结构化输出空间的任务中取得了出色的结果，例如自然语言和视觉理解、星际争霸 II 以及多任务和多模态领域。作为亮点，Perceiver IO 在 GLUE 语言基准测试中与基于 Transformer 的 BERT 基线相匹配，而无需输入分词，并在 Sintel 光流估计方面实现了最先进的性能。

以下是解释 Perceiver 工作原理的 TLDR

Transformer 的自注意力机制的主要问题是，时间和内存需求与序列长度呈二次方关系。因此，像 BERT 和 RoBERTa 这样的模型被限制为最大序列长度 512 个 tokens。Perceiver 旨在通过不对输入执行自注意力，而是对一组潜在变量执行自注意力，并且仅将输入用于交叉注意力来解决此问题。这样，时间和内存需求不再取决于输入的长度，因为人们使用固定数量的潜在变量，例如 256 或 512。这些变量是随机初始化的，之后使用反向传播进行端到端训练。

在内部，PerceiverModel 将创建潜在变量，这是一个形状为 (batch_size, num_latents, d_latents) 的张量。必须向模型提供 inputs（可以是文本、图像、音频，任何你想得到的！），模型将使用它与潜在变量执行交叉注意力。Perceiver 编码器的输出是相同形状的张量。然后，与 BERT 类似，可以通过沿序列维度平均潜在变量的最后隐藏状态，并在其之上放置一个线性层，将 d_latents 投影到 num_labels，从而将潜在变量的最后隐藏状态转换为分类 logits。

这是最初的 Perceiver 论文的想法。但是，它只能输出分类 logits。在后续工作 PerceiverIO 中，他们对其进行了概括，使模型还可以生成任意大小的输出。您可能会问，如何实现？这个想法实际上相对简单：定义任意大小的输出，然后使用潜在变量的最后隐藏状态应用交叉注意力，使用输出作为查询，潜在变量作为键和值。

因此，假设有人想使用 Perceiver 执行掩码语言建模（BERT 风格）。由于 Perceiver 的输入长度不会影响自注意力层的计算时间，因此可以提供原始字节，为模型提供长度为 2048 的 inputs。如果现在掩盖掉这些 2048 个 tokens 中的某些 tokens，则可以将 outputs 定义为形状：(batch_size, 2048, 768)。接下来，使用潜在变量的最终隐藏状态执行交叉注意力以更新 outputs 张量。在交叉注意力之后，仍然有一个形状为 (batch_size, 2048, 768) 的张量。然后可以在其之上放置一个常规的语言建模头，以将最后一个维度投影到模型的词汇表大小，即创建形状为 (batch_size, 2048, 262) 的 logits（因为 Perceiver 使用 262 字节 ID 的词汇表大小）。

Perceiver IO 架构。摘自原始论文

此模型由 nielsr 贡献。原始代码可以在此处找到。

由于 PyTorch 中的一个 bug，Perceiver 不适用于 torch.nn.DataParallel，请参阅 issue #36035

资源

开始使用 Perceiver 的最快方法是查看教程 notebooks。
如果您想完全理解模型的工作原理以及如何在库中实现，请参阅博客文章。请注意，库中提供的模型仅展示了您可以使用 Perceiver 完成的一些示例。还有更多的用例，包括问答、命名实体识别、对象检测、音频分类、视频分类等。
文本分类任务指南
掩码语言建模任务指南
图像分类任务指南

Transformers

Perceiver

概述

资源

Perceiver 特定输出

class transformers.models.perceiver.modeling_perceiver.PerceiverModelOutput

class transformers.models.perceiver.modeling_perceiver.PerceiverDecoderOutput

class transformers.models.perceiver.modeling_perceiver.PerceiverMaskedLMOutput

class transformers.models.perceiver.modeling_perceiver.PerceiverClassifierOutput

PerceiverConfig

class transformers.PerceiverConfig

PerceiverTokenizer

class transformers.PerceiverTokenizer

__call__

PerceiverFeatureExtractor

class transformers.PerceiverFeatureExtractor

__call__

PerceiverImageProcessor

class transformers.PerceiverImageProcessor

preprocess

PerceiverTextPreprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverTextPreprocessor

PerceiverImagePreprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverImagePreprocessor

PerceiverOneHotPreprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverOneHotPreprocessor

PerceiverAudioPreprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverAudioPreprocessor

PerceiverAudioPreprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverMultimodalPreprocessor

PerceiverProjectionDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverProjectionDecoder

PerceiverBasicDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverBasicDecoder

PerceiverClassificationDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverClassificationDecoder

PerceiverOpticalFlowDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverOpticalFlowDecoder

PerceiverBasicVideoAutoencodingDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverBasicVideoAutoencodingDecoder

PerceiverMultimodalDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverMultimodalDecoder

PerceiverProjectionPostprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverProjectionPostprocessor

PerceiverAudioPostprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverAudioPostprocessor

PerceiverClassificationPostprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverClassificationPostprocessor

PerceiverMultimodalPostprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverMultimodalPostprocessor

PerceiverModel

class transformers.PerceiverModel

前向传播

PerceiverForMaskedLM

类 transformers.PerceiverForMaskedLM

前向传播

PerceiverForSequenceClassification

class transformers.PerceiverForSequenceClassification

前向传播

PerceiverForImageClassificationLearned

class transformers.PerceiverForImageClassificationLearned

前向传播

PerceiverForImageClassificationFourier

class transformers.PerceiverForImageClassificationFourier

前向传播

PerceiverForImageClassificationConvProcessing

class transformers.PerceiverForImageClassificationConvProcessing

前向传播

PerceiverForOpticalFlow

class transformers.PerceiverForOpticalFlow

前向传播

PerceiverForMultimodalAutoencoding

class transformers.PerceiverForMultimodalAutoencoding

前向传播

call

call