Transformers

加入 Hugging Face 社区

并获得增强的文档体验

协作开发模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

T5v1.1

T5v1.1 由 Colin Raffel 等人在 google-research/text-to-text-transfer-transformer 仓库中发布。它是原始 T5 模型的改进版本。此模型由 patrickvonplaten 贡献。原始代码可以在这里找到。

可以将 T5v1.1 的权重直接插入到 T5 模型中，就像这样

>>> from transformers import T5ForConditionalGeneration

>>> model = T5ForConditionalGeneration.from_pretrained("google/t5-v1_1-base")

与原始 T5 模型相比，T5 Version 1.1 包括以下改进

前馈隐藏层中使用 GEGLU 激活函数，而不是 ReLU。请参阅本文。
预训练中关闭了 Dropout（提高了质量）。微调期间应重新启用 Dropout。
仅在 C4 上进行预训练，不混合下游任务。
嵌入层和分类器层之间没有参数共享。
“xl” 和 “xxl” 取代了 “3B” 和 “11B”。模型形状略有不同 - 更大的 d_model 和更小的 num_heads 和 d_ff。

注意：T5 Version 1.1 仅在 C4 上进行预训练，不包括任何监督训练。因此，与原始 T5 模型不同，此模型必须先进行微调才能在下游任务中使用。由于 t5v1.1 是无监督预训练的，因此在单任务微调期间使用任务前缀没有实际优势。如果您正在进行多任务微调，则应使用前缀。

Google 发布了以下变体

有关所有 API 参考、技巧、代码示例和笔记本，请参阅 T5 的文档页面。