Transformers 文档

UL2

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

UL2

PyTorch TensorFlow Flax

概述

T5 模型在 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 的 Unifying Language Learning Paradigms 中提出。

论文摘要如下:

现有的预训练模型通常针对特定类别的问题。迄今为止,对于正确的架构和预训练设置应该是什么,似乎仍未达成共识。本文提出了一个统一的框架,用于预训练在不同数据集和设置中普遍有效的模型。我们首先将架构原型与预训练目标解耦——这两个概念通常是混淆的。接下来,我们提出了自然语言处理中自监督的广义统一视角,并展示了不同的预训练目标如何相互转换,以及在不同目标之间进行插值如何有效。然后,我们提出了 Mixture-of-Denoisers (MoD),这是一种结合了多种预训练范式的预训练目标。此外,我们引入了模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验,比较了多个预训练目标,发现我们的方法通过在多种不同设置中优于 T5 和/或 GPT 类模型,从而推动了帕累托前沿。最后,通过将我们的模型扩展到 20B 参数,我们在 50 个成熟的监督 NLP 任务上实现了 SOTA 性能,这些任务涵盖了语言生成(包括自动和人工评估)、语言理解、文本分类、问答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型还在情境学习中取得了显著成果,在零样本 SuperGLUE 上优于 175B GPT-3,并在单样本摘要中将 T5-XXL 的性能提高了三倍。

此模型由 DanielHesslow 贡献。原始代码可在此处找到。

使用技巧

  • UL2 是一个编码器-解码器模型,预训练了一系列去噪函数,并在一系列下游任务上进行了微调。
  • UL2 的架构与 T5v1.1 相同,但使用 Gated-SiLU 激活函数代替 Gated-GELU。
  • 作者发布了一个架构的检查点,可以在此处查看

由于 UL2 的架构与 T5v1.1 相同,请参阅T5 的文档页面以获取 API 参考、提示、代码示例和笔记本。

< > 在 GitHub 上更新