Transformers 文档

BigBird

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作开发模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

BigBird

概览

BigBird 模型在 Big Bird: Transformers for Longer Sequences 中被提出，作者是 Zaheer, Manzil 和 Guruganesh, Guru 和 Dubey, Kumar Avinava 和 Ainslie, Joshua 和 Alberti, Chris 和 Ontanon, Santiago 和 Pham, Philip 和 Ravula, Anirudh 和 Wang, Qifan 和 Yang, Li 以及其他人。BigBird 是一种基于稀疏注意力机制的 Transformer 模型，它扩展了基于 Transformer 的模型，例如 BERT，使其能够处理更长的序列。除了稀疏注意力，BigBird 还将全局注意力和随机注意力应用于输入序列。从理论上讲，已经证明，应用稀疏、全局和随机注意力可以近似于完全注意力，同时对于更长的序列而言，计算效率更高。由于能够处理更长的上下文，与 BERT 或 RoBERTa 相比，BigBird 在各种长文档 NLP 任务（例如问答和摘要）上都表现出改进的性能。

该论文的摘要如下：

基于 Transformer 的模型，例如 BERT，一直是 NLP 最成功的深度学习模型之一。不幸的是，它们的核心限制之一是由于其完全注意力机制，对序列长度的二次依赖性（主要是内存方面）。为了解决这个问题，我们提出了 BigBird，一种稀疏注意力机制，可以将这种二次依赖性降低到线性。我们证明 BigBird 是序列函数的通用逼近器，并且是图灵完备的，从而保留了二次完全注意力模型的这些特性。在此过程中，我们的理论分析揭示了拥有 O(1) 个全局令牌（例如 CLS）的一些好处，这些全局令牌作为稀疏注意力机制的一部分，关注整个序列。所提出的稀疏注意力可以处理长度高达先前使用类似硬件可能达到的 8 倍的序列。由于能够处理更长的上下文，BigBird 大大提高了各种 NLP 任务（例如问答和摘要）的性能。我们还提出了基因组数据的新颖应用。

该模型由 vasudevgupta 贡献。原始代码可以在这里找到。

使用技巧

有关 BigBird 注意力机制如何工作的详细解释，请参阅这篇博客文章。
BigBird 带有 2 种实现：original_full 和 block_sparse。对于序列长度 < 1024，建议使用 original_full，因为使用 block_sparse 注意力没有任何好处。
当前代码使用 3 个块的窗口大小和 2 个全局块。
序列长度必须可被块大小整除。
当前实现仅支持 ITC。
当前实现不支持 num_random_blocks = 0
BigBird 是一个带有绝对位置嵌入的模型，因此通常建议在右侧而不是左侧填充输入。

Transformers

BigBird

概览

使用技巧

资源

BigBirdConfig

class transformers.BigBirdConfig

BigBirdTokenizer

class transformers.BigBirdTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

BigBirdTokenizerFast

class transformers.BigBirdTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

get_special_tokens_mask

BigBird 特定输出

class transformers.models.big_bird.modeling_big_bird.BigBirdForPreTrainingOutput

BigBirdModel

class transformers.BigBirdModel

forward

BigBirdForPreTraining

class transformers.BigBirdForPreTraining

forward

BigBirdForCausalLM

class transformers.BigBirdForCausalLM

forward

BigBirdForMaskedLM

class transformers.BigBirdForMaskedLM

forward

BigBirdForSequenceClassification

class transformers.BigBirdForSequenceClassification

forward

BigBirdForMultipleChoice

class transformers.BigBirdForMultipleChoice

forward

BigBirdForTokenClassification

class transformers.BigBirdForTokenClassification

forward

BigBirdForQuestionAnswering

class transformers.BigBirdForQuestionAnswering

forward

FlaxBigBirdModel

class transformers.FlaxBigBirdModel

__call__

FlaxBigBirdForPreTraining

class transformers.FlaxBigBirdForPreTraining

__call__

FlaxBigBirdForCausalLM

class transformers.FlaxBigBirdForCausalLM

__call__

FlaxBigBirdForMaskedLM

class transformers.FlaxBigBirdForMaskedLM

__call__

FlaxBigBirdForSequenceClassification

class transformers.FlaxBigBirdForSequenceClassification

__call__

FlaxBigBirdForMultipleChoice

class transformers.FlaxBigBirdForMultipleChoice

__call__

FlaxBigBirdForTokenClassification

class transformers.FlaxBigBirdForTokenClassification

__call__

FlaxBigBirdForQuestionAnswering

class transformers.FlaxBigBirdForQuestionAnswering

__call__

call

call

call

call

call

call

call

call