序列到序列模型 sequence-to-sequence-models

编码器-解码器模型（也称为序列到序列模型）使用了 Transformer 架构的两个部分。在每个阶段，编码器的注意力层可以访问初始句子中的所有单词，而解码器的注意力层只能访问给定单词之前输入中的单词。

这些模型的预训练可以通过使用编码器或解码器模型的目标来完成，但通常会涉及一些更复杂的东西。例如，T5 通过用单个掩码特殊词替换文本的随机跨度（可以包含多个词）进行预训练，然后目标是预测此掩码词替换的文本。

序列到序列模型最适合用于围绕根据给定输入生成新句子（例如摘要、翻译或生成式问答）的任务。

此模型系列的代表包括

NLP 课程