Transformers 文档
UL2
并获得增强的文档体验
开始使用
UL2
概述
T5 模型在 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 的 Unifying Language Learning Paradigms 中提出。
论文摘要如下:
现有的预训练模型通常针对特定类别的问题。迄今为止,对于正确的架构和预训练设置应该是什么,似乎仍未达成共识。本文提出了一个统一的框架,用于预训练在不同数据集和设置中普遍有效的模型。我们首先将架构原型与预训练目标解耦——这两个概念通常是混淆的。接下来,我们提出了自然语言处理中自监督的广义统一视角,并展示了不同的预训练目标如何相互转换,以及在不同目标之间进行插值如何有效。然后,我们提出了 Mixture-of-Denoisers (MoD),这是一种结合了多种预训练范式的预训练目标。此外,我们引入了模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验,比较了多个预训练目标,发现我们的方法通过在多种不同设置中优于 T5 和/或 GPT 类模型,从而推动了帕累托前沿。最后,通过将我们的模型扩展到 20B 参数,我们在 50 个成熟的监督 NLP 任务上实现了 SOTA 性能,这些任务涵盖了语言生成(包括自动和人工评估)、语言理解、文本分类、问答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型还在情境学习中取得了显著成果,在零样本 SuperGLUE 上优于 175B GPT-3,并在单样本摘要中将 T5-XXL 的性能提高了三倍。
此模型由 DanielHesslow 贡献。原始代码可在此处找到。
使用技巧
- UL2 是一个编码器-解码器模型,预训练了一系列去噪函数,并在一系列下游任务上进行了微调。
- UL2 的架构与 T5v1.1 相同,但使用 Gated-SiLU 激活函数代替 Gated-GELU。
- 作者发布了一个架构的检查点,可以在此处查看
由于 UL2 的架构与 T5v1.1 相同,请参阅T5 的文档页面以获取 API 参考、提示、代码示例和笔记本。