NLP 课程文档

序列到序列模型 sequence-to-sequence-models

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

序列到序列模型 sequence-to-sequence-models

Ask a Question

编码器-解码器模型(也称为序列到序列模型)使用了 Transformer 架构的两个部分。在每个阶段,编码器的注意力层可以访问初始句子中的所有单词,而解码器的注意力层只能访问输入中给定单词之前的单词。

这些模型的预训练可以使用编码器或解码器模型的目标来完成,但通常涉及更复杂的内容。例如,T5 通过用单个掩码特殊单词替换文本的随机跨度(可以包含多个单词)进行预训练,目标是预测此掩码单词替换的文本。

序列到序列模型最适合用于围绕根据给定输入生成新句子(例如摘要、翻译或生成式问答)的任务。

此类模型的代表包括