Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

UL2

概述

T5 模型在 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 的 Unifying Language Learning Paradigms 中提出。

论文摘要如下：

现有的预训练模型通常针对特定类别的问题。迄今为止，对于正确的架构和预训练设置应该是什么，似乎仍未达成共识。本文提出了一个统一的框架，用于预训练在不同数据集和设置中普遍有效的模型。我们首先将架构原型与预训练目标解耦——这两个概念通常是混淆的。接下来，我们提出了自然语言处理中自监督的广义统一视角，并展示了不同的预训练目标如何相互转换，以及在不同目标之间进行插值如何有效。然后，我们提出了 Mixture-of-Denoisers (MoD)，这是一种结合了多种预训练范式的预训练目标。此外，我们引入了模式切换的概念，其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验，比较了多个预训练目标，发现我们的方法通过在多种不同设置中优于 T5 和/或 GPT 类模型，从而推动了帕累托前沿。最后，通过将我们的模型扩展到 20B 参数，我们在 50 个成熟的监督 NLP 任务上实现了 SOTA 性能，这些任务涵盖了语言生成（包括自动和人工评估）、语言理解、文本分类、问答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型还在情境学习中取得了显著成果，在零样本 SuperGLUE 上优于 175B GPT-3，并在单样本摘要中将 T5-XXL 的性能提高了三倍。

此模型由 DanielHesslow 贡献。原始代码可在此处找到。

使用技巧

UL2 是一个编码器-解码器模型，预训练了一系列去噪函数，并在一系列下游任务上进行了微调。
UL2 的架构与 T5v1.1 相同，但使用 Gated-SiLU 激活函数代替 Gated-GELU。
作者发布了一个架构的检查点，可以在此处查看

由于 UL2 的架构与 T5v1.1 相同，请参阅T5 的文档页面以获取 API 参考、提示、代码示例和笔记本。

< > 在 GitHub 上更新

←Transformer XL UMT5→