Transformers 文档

ALBERT

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

ALBERT

概述

ALBERT 模型由 Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Piyush Sharma 和 Radu Soricut 在 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations 中提出。它提出了两种参数缩减技术，以降低内存消耗并提高 BERT 的训练速度。

将嵌入矩阵拆分为两个较小的矩阵。
使用在组之间拆分的重复层。

论文摘要如下：

预训练自然语言表示时，增加模型大小通常会提高下游任务的性能。然而，由于 GPU/TPU 内存限制、更长的训练时间和意外的模型退化，在某些时候进一步增加模型变得更加困难。为了解决这些问题，我们提出了两种参数缩减技术，以降低内存消耗并提高 BERT 的训练速度。综合实证证据表明，与原始 BERT 相比，我们提出的方法可以更好地扩展模型。我们还使用了一种自监督损失，该损失侧重于建模句子间的连贯性，并表明它始终有助于具有多句输入的下游任务。因此，我们最好的模型在 GLUE、RACE 和 SQuAD 基准测试中建立了新的最先进的结果，同时参数数量少于 BERT-large。

此模型由 lysandre 贡献。此模型的 jax 版本由 kamalkraj 贡献。原始代码可以在这里找到。

使用技巧

ALBERT 是一个带有绝对位置嵌入的模型，因此通常建议在右侧而不是左侧填充输入。
ALBERT 使用重复层，这导致内存占用较小，但是计算成本仍然类似于具有相同隐藏层数的类 BERT 架构，因为它必须迭代相同数量的（重复）层。
嵌入大小 E 与隐藏大小 H 不同，这是合理的，因为嵌入是上下文无关的（一个嵌入向量代表一个 token），而隐藏状态是上下文相关的（一个隐藏状态代表一个 token 序列），因此 H >> E 更符合逻辑。此外，嵌入矩阵很大，因为它的大小为 V x E（V 是词汇表大小）。如果 E < H，则参数较少。
层被分成共享参数的组（以节省内存）。下一个句子预测被句子排序预测取代：在输入中，我们有两个句子 A 和 B（它们是连续的），我们或者输入 A 后面跟着 B，或者输入 B 后面跟着 A。模型必须预测它们是否被交换过。

使用缩放点积注意力 (SDPA)

PyTorch 包含一个原生缩放点积注意力 (SDPA) 运算符，作为 torch.nn.functional 的一部分。此函数包含多个实现，可以根据输入和正在使用的硬件应用。有关更多信息，请参阅官方文档或 GPU 推理页面。

当实现可用时，torch>=2.1.1 默认使用 SDPA，但您也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 以显式请求使用 SDPA。

from transformers import AlbertModel
model = AlbertModel.from_pretrained("albert/albert-base-v1", torch_dtype=torch.float16, attn_implementation="sdpa")
...

为了获得最佳加速，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

在本地基准测试（GeForce RTX 2060-8GB，PyTorch 2.3.1，操作系统 Ubuntu 20.04）中使用 float16，我们在训练和推理期间看到了以下加速。

训练 100 次迭代

batch_size	seq_len	每次批处理的时间（eager - s）	每次批处理的时间（sdpa - s）	加速 (%)	Eager 峰值内存 (MB)	sdpa 峰值内存 (MB)	内存节省 (%)
2	256	0.028	0.024	14.388	358.411	321.088	11.624
2	512	0.049	0.041	17.681	753.458	602.660	25.022
4	256	0.044	0.039	12.246	679.534	602.660	12.756
4	512	0.090	0.076	18.472	1434.820	1134.140	26.512
8	256	0.081	0.072	12.664	1283.825	1134.140	13.198
8	512	0.170	0.143	18.957	2820.398	2219.695	27.062

推理 50 个批次

batch_size	seq_len	每个 token 的延迟 eager (ms)	每个 token 的延迟 SDPA (ms)	加速 (%)	内存 eager (MB)	内存 BT (MB)	内存节省 (%)
4	128	0.083	0.071	16.967	48.319	48.45	-0.268
4	256	0.148	0.127	16.37	63.4	63.922	-0.817
4	512	0.31	0.247	25.473	110.092	94.343	16.693
8	128	0.137	0.124	11.102	63.4	63.66	-0.409
8	256	0.271	0.231	17.271	91.202	92.246	-1.132
8	512	0.602	0.48	25.47	186.159	152.564	22.021
16	128	0.252	0.224	12.506	91.202	91.722	-0.567
16	256	0.526	0.448	17.604	148.378	150.467	-1.388
16	512	1.203	0.96	25.365	338.293	271.102	24.784

此模型由 lysandre 贡献。此模型的 jax 版本由 kamalkraj 贡献。原始代码可以在这里找到。

资源

以下部分提供的资源包括一系列官方 Hugging Face 和社区（标有 🌎）资源，以帮助您开始使用 ALBERT。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！该资源最好展示一些新的东西，而不是重复现有的资源。

文本分类

此示例脚本支持 AlbertForSequenceClassification。

此示例脚本支持 TFAlbertForSequenceClassification。
此示例脚本和notebook 支持 FlaxAlbertForSequenceClassification。
查看文本分类任务指南，了解如何使用该模型。

Token 分类

此示例脚本支持 AlbertForTokenClassification。

此示例脚本和notebook 支持 TFAlbertForTokenClassification。

此示例脚本支持 FlaxAlbertForTokenClassification。
Token 分类章节，来自 🤗 Hugging Face 课程。
查看Token 分类任务指南，了解如何使用该模型。

填充掩码

此示例脚本和notebook 支持 AlbertForMaskedLM。
此示例脚本和notebook 支持 TFAlbertForMaskedLM。
此示例脚本和notebook 支持 FlaxAlbertForMaskedLM。
掩码语言建模章节，来自 🤗 Hugging Face 课程。
查看掩码语言建模任务指南，了解如何使用该模型。

问题解答

此示例脚本和notebook 支持 AlbertForQuestionAnswering。
此示例脚本和notebook 支持 TFAlbertForQuestionAnswering。
此示例脚本支持 FlaxAlbertForQuestionAnswering。
问题解答章节，来自 🤗 Hugging Face 课程。
查看问题解答任务指南，了解如何使用该模型。

多项选择

此示例脚本和notebook 支持 AlbertForMultipleChoice。
此示例脚本和notebook 支持 TFAlbertForMultipleChoice。
查看多项选择任务指南，了解如何使用该模型。

Transformers

ALBERT

概述

使用技巧

使用缩放点积注意力 (SDPA)

训练 100 次迭代

推理 50 个批次

资源

AlbertConfig

class transformers.AlbertConfig

AlbertTokenizer

class transformers.AlbertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

AlbertTokenizerFast

class transformers.AlbertTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

Albert 特定输出

class transformers.models.albert.modeling_albert.AlbertForPreTrainingOutput

class transformers.models.albert.modeling_tf_albert.TFAlbertForPreTrainingOutput

AlbertModel

class transformers.AlbertModel

forward

AlbertForPreTraining

class transformers.AlbertForPreTraining

forward

AlbertForMaskedLM

class transformers.AlbertForMaskedLM

forward

AlbertForSequenceClassification

class transformers.AlbertForSequenceClassification

forward

AlbertForMultipleChoice

class transformers.AlbertForMultipleChoice

forward

AlbertForTokenClassification

class transformers.AlbertForTokenClassification

forward

AlbertForQuestionAnswering

class transformers.AlbertForQuestionAnswering

forward

TFAlbertModel

class transformers.TFAlbertModel

call

TFAlbertForPreTraining

class transformers.TFAlbertForPreTraining

call

TFAlbertForMaskedLM

class transformers.TFAlbertForMaskedLM

call

TFAlbertForSequenceClassification

class transformers.TFAlbertForSequenceClassification

call

TFAlbertForMultipleChoice

class transformers.TFAlbertForMultipleChoice

call

TFAlbertForTokenClassification

class transformers.TFAlbertForTokenClassification

call

TFAlbertForQuestionAnswering

class transformers.TFAlbertForQuestionAnswering

call

FlaxAlbertModel

class transformers.FlaxAlbertModel

__call__

FlaxAlbertForPreTraining

class transformers.FlaxAlbertForPreTraining

__call__

FlaxAlbertForMaskedLM

class transformers.FlaxAlbertForMaskedLM

__call__

FlaxAlbertForSequenceClassification

class transformers.FlaxAlbertForSequenceClassification

__call__

FlaxAlbertForMultipleChoice

class transformers.FlaxAlbertForMultipleChoice

__call__

call

call

call

call

call

call

call