Transformers 文档

UL2

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

该模型于 2022-05-10 发布,并于 2023-06-20 添加到 Hugging Face Transformers。

UL2

PyTorch

概述

T5 模型在 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 的论文 《Unifying Language Learning Paradigms》 中提出。

论文摘要如下:

现有的预训练模型通常针对特定类别的问乐。迄今为止,关于正确的架构和预训练设置是什么,似乎仍然没有共识。本文提出了一种用于预训练模型的统一框架,该框架在各种数据集和设置中都普遍有效。首先,我们将架构原型与预训练目标分开——这两个概念通常被混淆。接下来,我们提出了自然语言处理中自监督学习的通用统一视角,并展示了不同的预训练目标如何可以相互转化,以及如何通过在不同目标之间进行插值来提高效率。然后,我们提出了一种名为“Mixture-of-Denoisers”(MoD)的预训练目标,它将各种预训练范式结合在一起。我们进一步引入了一种“模式切换”的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验来比较多种预训练目标,发现我们的方法通过在多个不同的设置中超越 T5 和/或 GPT 类模型来推动帕累托前沿。最后,通过将我们的模型扩展到 20B 参数,我们在 50 个成熟的监督式 NLP 任务上实现了 SOTA 性能,涵盖语言生成(通过自动和人工评估)、语言理解、文本分类、问答、常识推理、长文本推理、结构化知识接地和信息检索。我们的模型在上下文学习方面也取得了优异的成绩,在零样本 SuperGLUE 上超越了 175B GPT-3,在单样本摘要方面将 T5-XXL 的性能提高了三倍。

此模型由 DanielHesslow 贡献。原始代码可在 此处 找到。

使用技巧

  • UL2 是一个编码器-解码器模型,它在多种降噪函数上进行预训练,并在各种下游任务上进行微调。
  • UL2 具有与 T5v1.1 相同的架构,但使用了 Gated-SiLU 激活函数,而不是 Gated-GELU。
  • 作者发布了一个架构的检查点,可以在 此处 查看。

由于 UL2 具有与 T5v1.1 相同的架构,请参阅 T5 的文档页面以获取 API 参考、技巧、代码示例和笔记本。

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.