Transformers 文档
UL2
并获取增强的文档体验
开始使用
UL2
概述
T5 模型在 Unifying Language Learning Paradigms 这篇论文中被提出,作者是 Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, Donald Metzler。
论文摘要如下:
现有的预训练模型通常针对特定类型的问题。迄今为止,对于正确的架构和预训练设置似乎仍未达成共识。本文提出了一个统一的框架,用于预训练在各种数据集和设置中普遍有效的模型。我们首先将架构原型与预训练目标区分开来——这两个概念通常被混淆。接下来,我们为 NLP 中的自监督提供了一个通用且统一的视角,并展示了如何将不同的预训练目标相互转换,以及在不同目标之间进行插值如何有效。然后,我们提出了混合去噪器 (MoD),这是一种将多种不同的预训练范式结合在一起的预训练目标。我们进一步介绍了一种模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验,以比较多种预训练目标,并发现我们的方法通过在多种不同的设置中优于 T5 和/或类似 GPT 的模型来推动 Pareto 前沿。最后,通过将我们的模型扩展到 200 亿参数,我们在 50 个成熟的监督 NLP 任务上实现了 SOTA 性能,范围从语言生成(通过自动和人工评估)、语言理解、文本分类、问题解答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在上下文学习方面也取得了优异的成果,在零样本 SuperGLUE 上优于 1750 亿参数的 GPT-3,并在单样本摘要上实现了 T5-XXL 三倍的性能。
此模型由 DanielHesslow 贡献。原始代码可以在这里找到。
使用技巧
- UL2 是一个编码器-解码器模型,它在去噪函数的混合上进行了预训练,并在各种下游任务上进行了微调。
- UL2 具有与 T5v1.1 相同的架构,但使用 Gated-SiLU 激活函数代替 Gated-GELU。
- 作者发布了一个架构的检查点,可以在这里看到
由于 UL2 具有与 T5v1.1 相同的架构,有关 API 参考、技巧、代码示例和笔记本,请参阅 T5 的文档页面。