Transformers 文档

FLAN-T5

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

该模型于 2022-10-20 发布在 HF papers 上,并于 2023-06-20 贡献给 Hugging Face Transformers。

FLAN-T5

概述

FLAN-T5 在论文 Scaling Instruction-Finetuned Language Models 中发布 —— 它是 T5 的增强版本,经过了混合任务的微调。

用户可以直接使用 FLAN-T5 的权重而无需对模型进行微调

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer


model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")

inputs = tokenizer("A step by step recipe to make bolognese pasta:", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Pour a cup of bolognese into a large bowl and add the pasta']

FLAN-T5 包含与 T5 1.1 版本相同的改进(关于模型改进的完整详情请参阅此处)。

Google 发布了以下变体:

原始权重检查点可以在这里找到。

有关所有 API 参考、代码示例和 Notebook,请参阅 T5 的文档页面。关于 FLAN-T5 训练和评估的更多详情,请参阅模型卡片(model card)。

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.