Transformers 文档
FLAN-T5
开始使用
基类
模型
预处理器
推理
Pipeline API
生成 API
优化
与模型聊天
服务
训练
量化
生态系统集成
资源
API
主要类别
模型
文本模型
AFMoEALBERTApertusArceeBambaBARTBARThezBARTphoBERTBertGenerationBertJapaneseBERTweetBigBirdBigBirdPegasusBioGptBitNetBlenderbotBlenderbot SmallBLOOMBLTByT5CamemBERTCANINECodeGenCodeLlamaCohereCohere2Cohere2MoeConvBERTCPMCPMANTCTRLDBRXDeBERTaDeBERTa-v2DeepSeek-OCR-2DeepSeek-V2DeepSeek-V3DeepSeek-V4DialoGPTDiffLlamaDistilBERTDogedots1DPRELECTRAEncoder Decoder ModelsERNIEErnie4_5Ernie4_5_MoEESMEuroBERTEXAONE-4.0EXAONE-4.5EXAONE-MoEFalconFalcon3FalconH1FalconMambaFLAN-T5FLAN-UL2FlauBERTFlexOlmoFNetFSMTFunnel TransformerFuyuGemmaGemma2GLM-4GLM-4-0414GLM-4.5, GLM-4.6, GLM-4.7GLM-4.7-FlashGLM-ImageGlmMoeDsaGPTGPT NeoGPT NeoXGPT NeoX JapaneseGPT-JGPT2GPTBigCodeGptOssGPTSw3GraniteGraniteMoeGraniteMoeHybridGraniteMoeSharedHeliumHerBERTHRM-TextHunYuanDenseV1HunYuanMoEV1HyperCLOVAXHYV3I-BERTJais2JambaJetMoejina_embeddings_v3LagunaLEDLFM2LFM2MoeLLaMALlama2Llama3LongCatFlashLongformerLongT5LUKEM2M100MADLAD-400MambaMamba2MarianMTMarkupLMMBart and MBart-50MegatronBERTMegatronGPT2MellumMiniMaxMiniMax-M2MinistralMinistral3MistralMixtralmLUKEMobileBERTModernBertModernBERTDecoderModernVBertMPNetMPTMRAMT5MVPmyt5NanoChatNemotronNemotronHNLLBNLLB-MoENomicBERTNyströmformerOLMoOLMo2Olmo3OLMoEOlmoHybridOpenAI Privacy FilterOPTPegasusPEGASUS-XPersimmonPhiPhi-3PhiMoEPhoBERTPLBartProphetNetQwen2Qwen2MoEQwen3Qwen3.5Qwen3.5 MoeQwen3MoEQwen3NextRAGRecurrentGemmaReformerRemBERTRoBERTaRoBERTa-PreLayerNormRoCBertRoFormerRWKVSeed-OssSolarOpenSplinterSqueezeBERTStableLmStarcoder2SwitchTransformersT5T5GemmaT5Gemma2T5v1.1UL2UMT5VaultGemmaX-MODXGLMXLMXLM-RoBERTaXLM-RoBERTa-XLXLM-VXLNetxLSTMYOSOYoutu-LLMZambaZamba2
视觉模型
音频模型
视频模型
多模态模型
强化学习模型
时间序列模型
内部帮助程序
参考
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
该模型于 2022-10-20 发布在 HF papers 上,并于 2023-06-20 贡献给 Hugging Face Transformers。
FLAN-T5
概述
FLAN-T5 在论文 Scaling Instruction-Finetuned Language Models 中发布 —— 它是 T5 的增强版本,经过了混合任务的微调。
用户可以直接使用 FLAN-T5 的权重而无需对模型进行微调
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")
inputs = tokenizer("A step by step recipe to make bolognese pasta:", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Pour a cup of bolognese into a large bowl and add the pasta']FLAN-T5 包含与 T5 1.1 版本相同的改进(关于模型改进的完整详情请参阅此处)。
Google 发布了以下变体:
原始权重检查点可以在这里找到。
在 GitHub 上更新有关所有 API 参考、代码示例和 Notebook,请参阅 T5 的文档页面。关于 FLAN-T5 训练和评估的更多详情,请参阅模型卡片(model card)。