Transformers

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

FLAN-UL2

概述

Flan-UL2 是一个基于 T5 架构的编码器-解码器模型。它使用与去年早些时候发布的 UL2 模型相同的配置。它使用 “Flan” 提示调优和数据集集合进行了微调。与 Flan-T5 类似，可以直接使用 FLAN-UL2 权重，而无需对模型进行微调

根据原始博客，以下是显着的改进

最初的 UL2 模型仅使用 512 的感受野进行训练，这使其不适用于 N-shot 提示，其中 N 很大。
Flan-UL2 检查点使用 2048 的感受野，这使其更适用于少样本上下文学习。
最初的 UL2 模型还具有模式切换令牌，这对于获得良好的性能是相当必要的。但是，它们有点麻烦，因为这通常需要在推理或微调期间进行一些更改。在此更新/更改中，我们继续训练 UL2 20B 额外 10 万步（小批量），以便在应用 Flan 指令调优之前忘记“模式令牌”。此 Flan-UL2 检查点不再需要模式令牌。Google 发布了以下变体

原始检查点可以在这里找到。

在低资源设备上运行

该模型相当大（半精度下约为 40GB），因此如果您只想运行该模型，请确保以 8 位加载您的模型，并使用 device_map="auto" 以确保您不会遇到 OOM 问题！

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-ul2", load_in_8bit=True, device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("google/flan-ul2")

>>> inputs = tokenizer("A step by step recipe to make bolognese pasta:", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['In a large skillet, brown the ground beef and onion over medium heat. Add the garlic']

请参阅 T5 的文档页面以获取 API 参考、提示、代码示例和笔记本。

< > 更新 on GitHub

←FLAN-T5 FlauBERT→