Transformers 文档
T5v1.1
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
T5v1.1
概述
T5v1.1 由 Colin Raffel 等人在 google-research/text-to-text-transfer-transformer 仓库中发布。它是原始 T5 模型的改进版本。此模型由 patrickvonplaten 贡献。原始代码可以在这里找到。
使用提示
可以直接将 T5v1.1 的权重加载到 T5 模型中,就像这样:
>>> from transformers import T5ForConditionalGeneration
>>> model = T5ForConditionalGeneration.from_pretrained("google/t5-v1_1-base")
与原始 T5 模型相比,T5 版本 1.1 包含以下改进:
在前馈隐藏层中使用 GEGLU 激活函数,而不是 ReLU。请参阅这篇论文。
在预训练期间关闭了 Dropout(质量提升)。在微调期间应重新启用 Dropout。
仅在 C4 数据集上进行预训练,没有混合下游任务。
嵌入层和分类器层之间没有参数共享。
“xl”和“xxl”取代了“3B”和“11B”。模型形状略有不同——更大的 `d_model` 和更小的 `num_heads` 和 `d_ff`。
注意:T5 版本 1.1 仅在 C4 数据集上进行预训练,不包括任何监督训练。因此,该模型必须在下游任务上进行微调后才能使用,这与原始 T5 模型不同。由于 t5v1.1 是在无监督方式下预训练的,因此在单任务微调期间使用任务前缀没有真正的优势。如果进行多任务微调,则应使用前缀。
Google 发布了以下变体:
请参阅 T5 的文档页面,以获取所有 API 参考、提示、代码示例和笔记本。