Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

FNet

概述

FNet 模型由 James Lee-Thorp、Joshua Ainslie、Ilya Eckstein 和 Santiago Ontanon 在论文 FNet: Mixing Tokens with Fourier Transforms 中提出。该模型用傅里叶变换替换了 BERT 模型中的自注意力层，并且只返回变换的实部。由于参数更少且内存效率更高，该模型比 BERT 模型快得多。在 GLUE 基准测试中，该模型达到了 BERT 对应模型约 92-97% 的准确率，并且训练速度远快于 BERT 模型。论文摘要如下：

我们表明，通过用简单的线性变换来“混合”输入标记（token），可以在有限的准确率损失下加速 Transformer 编码器架构。这些线性混合器，与前馈层中的标准非线性函数一起，证明了在多个文本分类任务中能够有效地建模语义关系。最令人惊讶的是，我们发现用标准的、无参数的傅里叶变换替换 Transformer 编码器中的自注意力子层，在 GLUE 基准测试中能达到 BERT 对应模型 92-97% 的准确率，但在标准 512 输入长度下，其在 GPU 上的训练速度快 80%，在 TPU 上的训练速度快 70%。在更长的输入长度下，我们的 FNet 模型速度明显更快：与 Long Range Arena 基准测试中的“高效”Transformer 相比，FNet 的准确率与最准确的模型相当，同时在所有序列长度的 GPU 上（以及在 TPU 上的相对较短长度上）都超过了最快的模型。最后，FNet 的内存占用小，在较小的模型尺寸下尤其高效；在固定的速度和准确率预算下，小型 FNet 模型优于其 Transformer 对应模型。

此模型由 gchhablani 贡献。原始代码可以在这里找到。

使用技巧

该模型是基于傅里叶变换的，因此在训练时没有使用注意力掩码（attention mask）。模型训练时使用的最大序列长度为 512，其中包括填充标记（pad tokens）。因此，强烈建议在微调和推理时使用相同的最大序列长度。

Transformers

FNet

概述

使用技巧

资源

FNetConfig

class transformers.FNetConfig

FNetTokenizer

class transformers.FNetTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

FNetTokenizerFast

class transformers.FNetTokenizerFast

build_inputs_with_special_tokens

FNetModel

class transformers.FNetModel

forward

FNetForPreTraining

class transformers.FNetForPreTraining

forward

FNetForMaskedLM

class transformers.FNetForMaskedLM

forward

FNetForNextSentencePrediction

class transformers.FNetForNextSentencePrediction

forward

FNetForSequenceClassification

class transformers.FNetForSequenceClassification

forward

FNetForMultipleChoice

class transformers.FNetForMultipleChoice

forward

FNetForTokenClassification

class transformers.FNetForTokenClassification

forward

FNetForQuestionAnswering

class transformers.FNetForQuestionAnswering

forward