UL2
概述
T5 模型在 统一语言学习范式 中提出,由 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 撰写。
论文摘要如下
现有的预训练模型通常针对特定类别的问题。迄今为止,关于正确的架构和预训练设置应该是什么,似乎还没有达成共识。本文提出了一种统一的框架,用于预训练在各种数据集和设置中普遍有效的模型。我们首先将架构原型与预训练目标解耦——这两个概念通常被混淆。接下来,我们展示了 NLP 中自监督学习的通用且统一的视角,并展示了如何将不同的预训练目标相互转换以及如何在不同的目标之间进行插值可以提高效果。然后,我们提出了混合降噪器 (MoD),这是一种将不同的预训练范式结合在一起的预训练目标。我们还介绍了模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验来比较多个预训练目标,发现我们的方法通过在多个不同的设置中超越 T5 和/或 GPT 类模型来推动帕累托前沿。最后,通过将我们的模型扩展到 200 亿个参数,我们在 50 个成熟的监督 NLP 任务中取得了 SOTA 性能,这些任务涵盖从语言生成(使用自动和人工评估)到语言理解、文本分类、问答、常识推理、长文本推理、结构化知识接地和信息检索。我们的模型在上下文学习中也取得了很好的效果,在零样本 SuperGLUE 中超越了 1750 亿参数的 GPT-3,并在单样本摘要中将 T5-XXL 的性能提高了三倍。
此模型由 DanielHesslow 贡献。原始代码可以在 此处 找到。
使用技巧
- UL2 是一个编码器-解码器模型,在混合降噪函数上进行预训练,并在各种下游任务上进行微调。
- UL2 与 T5v1.1 具有相同的架构,但使用 Gated-SiLU 激活函数而不是 Gated-GELU。
- 作者发布了一个架构的检查点,可以在 此处 查看。
由于 UL2 与 T5v1.1 具有相同的架构,请参考 T5 的文档页面 获取 API 参考、提示、代码示例和笔记本。