2023，开放式大型语言模型之年

发布于2023年12月18日

2023年，公众对大型语言模型（LLMs）的兴趣激增，现在大多数人已经了解它们是什么以及能做什么，关于开放与闭源的公开辩论也触及了广泛的受众。在Hugging Face，我们对开放模型抱有极大的兴趣，因为它们允许研究可复现，赋能社区参与AI模型的开发，便于更轻松地审查模型偏见和局限性，并通过优先复用检查点来降低我们领域整体的碳影响（以及许多其他好处）。

所以，让我们回顾一下开放式LLM的这一年！

为了控制本文篇幅，我们不探讨代码模型。

🍜 预训练大型语言模型配方

首先，如何获得一个大型语言模型？(如果您已经知道，请随意跳过本节！)

模型**架构**（其代码）描述了其具体的实现和数学形态：它是一个包含所有参数及其与输入交互方式的列表。目前，大多数高性能LLM都是“仅解码器”Transformer架构的变体（更多细节请参阅原始Transformer论文）。

**训练数据集**包含了模型训练（即参数学习）所用的所有示例和文档，因此，也包含了所学到的特定模式。大多数情况下，这些文档包含文本，可以是自然语言（例如：法语、英语、中文）、编程语言（例如：Python、C），或任何可以用文本表达的结构化数据（例如：markdown或latex中的表格、方程等）。

**分词器（tokenizer）**定义了如何将训练数据集中的文本转换为数字（因为模型是一个数学函数，需要数字作为输入）。分词通过将文本转换为称为“标记”（token）的子单元来完成（根据分词方法，这些子单元可以是单词、子词或字符）。分词器的词汇量表示它知道多少种不同的标记，通常在3.2万到20万之间。数据集的大小通常以其包含的**标记数量**来衡量，一旦这些文本被分割成一系列独立的“原子”单元，这些标记数量现在从数千亿到数万亿不等！

**训练超参数**随后定义了模型的训练方式。为了适应每个新示例，参数应该改变多少？模型应该多快进行更新？

一旦这些参数被选中，您只需要1) 大量的计算能力来训练模型，2) 有能力（且友善）的人员来运行和监控训练。训练本身包括实例化架构（在用于训练的硬件上创建矩阵）并使用上述超参数在训练数据集上运行训练算法。结果是一组模型**权重**。这些是学习后的模型参数，也是大多数人讨论开放预训练模型访问时所指的。这些权重随后可以用于**推理**，即对新输入进行预测，例如生成文本。

预训练的LLM在预训练后也可以针对特定任务进行专门化或调整，尤其是在权重公开发布的情况下。它们通过称为**微调**的过程作为用例和应用程序的起点。微调涉及在模型上应用额外的训练步骤，使用不同（通常更专业和更小）的数据集来优化它以适应特定应用。尽管此步骤需要计算能力，但其成本通常远低于从头开始训练模型，无论是经济上还是环境上。这是高质量开源预训练模型非常有吸引力的原因之一，因为即使从业者只拥有有限的计算预算，社区也可以免费使用和在此基础上进行开发。

🗝️ 2022，从规模竞赛到数据竞赛

2023年之前，社区有哪些开放模型可用？

直到2022年初，机器学习的趋势是模型越大（即参数越多），其性能越好。特别是，模型似乎在超过特定规模阈值时能力会跃升，这两个概念被称为“涌现能力”和“缩放定律”。2022年发布的预训练开源模型系列大多遵循这一范式。

BLOOM（BigScience大型开放科学开放获取多语言语言模型）BLOOM 是由BigScience发布的模型家族，BigScience是一个由Hugging Face协调，与法国组织GENCI和IDRIS合作，汇集了来自60个国家250个机构的1000名研究人员的合作项目。这些模型使用仅解码器Transformer，并进行了少量修改（嵌入后归一化[^1]和ALiBi位置嵌入[^2]）。该家族中最大的模型是一个拥有176B参数的模型，在46种人类语言和13种编程语言的350B多语言数据上进行了训练。大部分训练数据已发布，其来源、管理和处理的详细信息也已公布。它是迄今为止最大的开源大规模多语言模型。
OPT（Open Pre-trained Transformer）OPT 模型家族由Meta发布。这些模型采用仅解码器Transformer架构，遵循GPT-3论文的技巧（特定的权重初始化、预归一化），并对注意力机制进行了一些改动（交替使用密集和局部带状注意力层）。该家族中最大的模型是一个拥有175B参数的模型，在180B标记的数据上进行训练，数据主要来自公共来源（书籍、通过Reddit获取的社交数据、新闻、维基百科和其他各种互联网来源）。该模型家族的性能与GPT-3模型相当，并使用代码优化使其计算密集度更低。
GLM-130B (通用语言模型) GLM-130B 由清华大学和智谱AI发布。它采用完整的 Transformer 架构，并进行了一些修改（使用 DeepNorm 的层后归一化、旋转嵌入）。这个 130B 参数的模型在 400B 英文和中文互联网数据（The Pile, Wudao Corpora 和其他中文语料库）上进行了训练。其性能也与 GPT-3 模型相当。
更小或更专业的开放式LLM 也有更小的开源模型发布，主要用于研究目的：Meta 发布了 Galactica 系列，LLM 最多 120B 参数，在 106B 科学文献标记上预训练；EleutherAI 发布了 GPT-NeoX-20B 模型，这是一个完全开源（包括架构、权重、数据）的解码器 Transformer 模型，在 500B 标记上训练（使用 RoPE 和对注意力和初始化的一些修改），为科学研究提供了一个完整的工件。

这些庞大的模型令人兴奋，但运行成本也十分高昂！进行推理（从模型计算预测结果）时，模型需要加载到内存中，而一个100B参数的模型通常需要220GB内存才能加载（我们将在下文解释此过程），这非常庞大，大多数组织和从业者都无法承受！

然而，在2022年3月，DeepMind发表了一篇新论文，研究了在给定计算预算下，令牌与模型参数的最佳比例。换句话说，如果您只有X金额的资金可用于模型训练，那么相应的模型和数据大小应该如何确定？作者发现，总体而言，对于LLMs的平均计算预算，模型应该更小，但要在更多的 (“多得多的”) 数据上进行训练。他们自己的模型Chinchilla（非开源）是一个70B参数的模型（是上述模型大小的三分之一），但却在1.4T令牌的数据上进行了训练（数据量是其3到4倍）。它的性能与开放和闭源的更大模型相当或更优。

这种范式转变，虽然可能在封闭实验室中早已为人所知，但却在开放科学社区中掀起了轩然大波。

🌊 2023，开放发布之年

小型大型语言模型的兴起

2023年，解码器风格的Transformer模型如雨后春笋般涌现，新的预训练模型每月发布，很快变成每周甚至每天都有：2月有Meta的LLaMA，4月有StabilityAI的StableLM和Eleuther AI的Pythia，5月有MosaicML的MPT，6月有Salesforce的X-GEN和TIIUAE的Falcon，7月有Meta的Llama 2，8月有StabilityAI的StableLM v2，9月有阿里巴巴的Qwen和Mistral.AI的Mistral，11月有01-ai的Yi，12月有Deci的DeciLM、Phi-2和Upstage的SOLAR。

所有这些发布都：a) 包含了模型权重（在不同开放程度的许可证下），b) 在较小模型尺寸（3B到70B参数之间）上表现良好，因此，它们立即被社区采用。几乎所有这些模型都使用了解码器Transformer架构，并进行了各种调整（ALiBi或RoPE、RMS预归一化、SwiGLU），以及对注意力函数的一些改变（Flash-Attention、GQA、滑动窗口）和不同的代码库实现以优化训练或推理速度。这些调整可能会在一定程度上影响性能和训练速度；然而，由于所有架构都已与权重一起公开发布，因此核心区别仍然在于训练数据和模型的许可。

此系列中的第一个模型家族是 Meta AI 发布的 LLaMA 家族。研究人员的明确目标是训练一组不同尺寸的模型，以在给定计算预算下达到最佳性能。这是首次，研究团队明确决定不仅考虑训练预算，还考虑推理成本（对于给定的性能目标，使用模型进行推理的成本是多少）。在此视角下，他们决定在更多数据上训练更小的模型，并进行比通常更多的步骤，从而在更小的模型尺寸下获得更高的性能（权衡是训练计算效率）。Llama 1 家族中最大的模型是一个 65B 参数的模型，在 1.4T tokens 上进行训练，而较小的模型（分别为 6B 和 13B 参数）在 1T tokens 上进行训练。小型的 13B LLaMA 模型在大多数基准测试中超越了 GPT-3，而最大的 LLaMA 模型在发布时达到了最先进水平。然而，其权重以非商业许可证发布，限制了社区的采用。

Pythia 模型由开源非营利实验室 Eleuther AI 发布，是一系列不同大小的LLM，在完全公开的数据上进行训练，旨在帮助研究人员理解LLM训练的不同步骤。

几个月后，MosaicML 发布了 MPT 模型，其性能相近，但拥有允许商业使用的许可证，并详细说明了其训练混合。第一个 MPT 模型是一个 7B 模型，随后在 6 月发布了 30B 版本，两者都在 1T 个英语和代码标记（使用来自 C4、CommonCrawl、The Stack、S2ORC 的数据）上进行了训练。

MPT 模型发布后不久，TIIUAE 又发布了 7B 和 30B 的 Falcon 系列模型（Falcon 系列），这些模型在 1 到 1.5T 的英语和代码标记（RefinedWeb、Project Gutemberg、Reddit、StackOverflow、Github、arXiv、Wikipedia 等来源）上进行了训练——在今年晚些时候，还发布了一个巨大的 180B 模型。Falcon 模型、数据和训练过程在技术报告和随后的研究论文中进行了详细介绍。

继承了 GPT-Neo-X 模型，StabilityAI 发布了 StableLM-Base-Alpha 模型，这是一个小型（3B 和 7B）预训练系列，使用了基于 ThePile 构建的 1.5T 实验数据集，随后是 v2 系列，其数据混合包括 RefinedWeb、RedPajama、ThePile 和未公开的内部数据集，最后是一个非常小的 3B 模型，即 StableLM-3B-4e1T，并附有详细的技术报告。

之前的模型大部分数据是公开的，从那时起，随后的发布几乎没有提供任何关于训练模型所用数据的信息，其努力也无法复现——然而，它们通过发布的权重为社区提供了起点。

夏初，Salesforce发布了X-Gen 模型，这是一个7B参数的模型，在1.5T“自然语言和代码”标记上分多步训练，遵循数据调度系统（并非所有数据同时引入模型）。

X-Gen 多少被 Meta 公司发布的高度可见的全新 LLaMA-2 系列模型所掩盖，该系列模型包含 7B 到 70B 的模型，在 2T 从“公开可用来源”获取的 tokens 上进行训练，拥有宽松的社区许可证，并通过人工偏好 (RLHF) 进行了广泛的微调，即所谓的对齐过程。

几个月后，新成立的 Mistral 创业公司发布了其首个模型，即 Mistral-7B，该模型在数量未公开的“从开放网络提取”的数据上进行了训练。2023 年底，模型发布活动频繁，Mistral 又发布了第二个更大的模型（Mixtral 8x7B），Deci.AI 也发布了第一个令人印象深刻的模型，名为 DeciLM，以及 Upstage 合并的更大模型 SOLAR，同样在未公开的数量和来源的数据上进行训练。所有这些模型都在排行榜和开放基准测试中稳步提升。

与此同时，2023 年底一个值得关注的事件是，中国训练并公开发布的模型性能和数量都有所提升。两个中英双语模型系列发布：阿里巴巴的 Qwen，模型参数从 7B 到 70B，在 2.4T 标记上训练；以及 01-AI 的 Yi，模型参数从 6B 到 34B，在 3T 标记上训练。这些模型的性能在 Open LLM 排行榜等开放排行榜以及 Skill-Mix 等一些最难的基准测试中都领先于之前的模型。2023 年末另一个强劲的竞争者是来自 DeepSeek AI 的 DeepSeek 编码模型，该模型从头开始在 2T 标记上训练，其中 87% 为代码，13% 为自然语言，涵盖英语和中文（主要是一个代码模型）。

对话模型无处不在

与2022年相比，2023年发布的所有预训练模型几乎都附带了预训练版本和对话微调版本，使用了几种现有方法之一。虽然适应聊天设置的模型方法在2022年及之前就已经开发，但这些技术的广泛采用在2023年真正兴起，这强调了公众对这些聊天模型的日益增长的使用，以及通过与它们聊天（“氛围检查”评估）对模型进行日益增长的人工评估。我们在这里详细介绍了最著名的一些将预训练模型适应聊天的方法，但还存在许多变体！

**基于聊天的微调**是监督式微调的一种变体，其中带注释的数据是聊天数据（多轮对话式数据，很像您在社交媒体上会找到的那种），您可以使用它来微调您的模型。您使用与训练模型时相同的技术：对于解码器Transformer，您教模型逐个预测下一个单词（称为自回归方法）。

**指令微调**（IFT）采用相同的方法，但使用指令数据集，其中包含一系列查询式提示和答案（如果需要，可选择额外的输入）。这些数据集教模型如何遵循指令，可以是人工生成或LLM生成的。使用大规模模型输出合成数据集（由模型生成组成的数据集，例如，GPT-4的生成，无论是来自指令还是用户与所述模型之间的交互）是实现指令和聊天微调的方法之一。这通常被称为**蒸馏**，因为它涉及从高性能模型中获取知识来训练或微调较小的模型。

这两种方法都相对容易实现：您只需要找到或生成相关数据集，然后使用与训练时相同的技术微调您的模型。去年发布了大量的指令数据集，提高了模型在对话式设置中的性能。有关此主题的更多信息，您可以阅读此处的入门博客。然而，尽管模型有所改进，但它们仍然无法满足人类的期望。

**从人类反馈中进行强化学习**（RLHF）是一种特定的方法，旨在使模型预测与人类最喜欢的（根据特定标准）内容对齐。它（在年初）是一种新的微调技术。给定一个提示，模型会生成几个可能的答案；人类对这些答案进行排名；这些排名用于训练一个偏好模型（它学习给出反映人类对答案偏好的分数）；然后偏好模型用于使用强化学习微调语言模型。有关更详细的信息，请参阅这篇博客文章、原始RLHF论文，或Anthropic关于RLHF的论文。这是一种成本高昂的方法（注释/排名+训练新模型+微调非常昂贵），主要用于将模型与安全目标对齐。这种方法的一种成本较低的变体已经开发出来，它使用高质量的LLM来对模型输出进行排名，而不是人类：**从AI反馈中进行强化学习**（RLAIF）。

**直接偏好优化**（DPO）是RLHF的另一种变体，但不需要训练和使用单独的偏好模型——该方法需要相同的人工或AI排名数据集，但使用此数据通过查看其原始策略（预测方式）与最优策略（将预测最佳排名答案）之间的差异来直接更新模型。换句话说，对齐的模型也是偏好模型，这使得优化过程更加简单，同时提供看似等效的最终性能。

所以，回到我们（主要是）私营公司发布的小型开放权重模型浪潮，其中许多都发布了经过微调的对应版本：MPT-7B 也提供了指令和聊天版本，Falcon 和 XGen 模型的指令微调版本在年底发布，Llama-2、Qwen 和 Yi 发布了聊天版本，DeciLM 发布了指令版本。Llama-2 的发布尤其值得关注，因为它在预训练和微调模型中都强烈关注安全性。

社区怎么样了？

虽然聊天模型和指令微调模型通常是随着新模型发布而直接提供的，但社区和研究人员并未止步于此：在这些基础模型提供的肥沃土壤上，一个广泛而健康的模型微调社区蓬勃发展，讨论自发地在Reddit、Discord、Hugging Face Hub和Twitter上进行。社区模型发布频繁，同时伴随着新的有趣数据集的创建（也用于微调模型以确保其良好的性能和质量）。

2023 年初，一些用于指令/聊天微调的数据集已经发布。例如，对于人类偏好，OpenAI 的 WebGPT 数据集、Anthropic 的 HH-RLHF 数据集和 OpenAI 的 Summarize 在这方面是先驱。指令数据集的例子有 BigScience 的 Public Pool of Prompts、Google 的 FLAN 1 和 2、AllenAI 的 Natural Instructions、Self Instruct（一个由不同机构研究人员开发的自动生成指令的框架）、SuperNatural instructions（一个专家创建的指令基准，有时用作微调数据）、Unnatural instructions（特拉维夫大学和 Meta 自动生成的指令数据集）等等。

❄️ 2022/2023冬季：今年1月，由中国多所机构研究人员发布的人类ChatGPT指令语料库（HC3），其中包含人类与模型对各种问题的回答。3月充满了发布：斯坦福大学开放了Alpaca模型，这是第一个遵循指令的LLaMA模型（7B），以及相关的52K指令数据集，这些指令由LLM生成。LAION（一个非营利开源实验室）发布了开放指令通用模型（OIG）数据集，包含了43M条通过数据增强创建并从其他现有数据源编译的指令。同月，LMSYS org（加州大学伯克利分校）发布了Vicuna，也是一个LLaMA微调模型（13B），这次是在聊天数据上：用户与ChatGPT之间的对话，由用户自己在ShareGPT上公开分享。Guanaco数据集，作为Alpaca数据集的扩展（增加了500K条多语言条目），也随之发布，以及相关的LLaMA-7B微调模型。

🌱 春季：4月，BAIR（伯克利人工智能研究实验室）发布了Koala，一个聊天调优的LLaMA模型，使用了几个先前的Guanaco数据集（Alpaca、HH-RLHF、WebGPT、ShareGPT），DataBricks发布了Dolly数据集，这是一个由15K手动生成指令的伟大人类努力，以及相关的模型，一个Pythia微调模型。5月，清华大学发布了UltraChat，一个包含指令的1.5M对话数据集，以及UltraLLaMA，一个在该数据集上微调的模型。然后微软发布了GPT4-LLM数据集/框架，用GPT4生成指令，6月，微软研究部门分享了一种新方法，Orca，通过使用大型模型的推理轨迹（解释其逐步推理）来构建指令数据集——它很快被社区（特别是Alignmentlab.ai）复现，他们创建了Open Orca数据集，数百万条条目，然后用于微调许多模型（Llama、Mistral等）。在5月和6月，Camel-AI发布了许多关于不同主题的指令或聊天数据集（每个领域超过20K个示例，物理、生物、化学等），这些数据集是用GPT4获得的。同样在6月，Airoboros框架被发布，用于使用模型生成数据（遵循自指令方法）微调模型，同时还发布了许多指令数据集。

🌻夏季：8月，中国非营利组织OpenBMB发布了UltraLM（LLaMA的高性能聊天微调版本），9月，他们发布了相关的偏好数据集UltraFeedback，一个由GPT4进行比较（带有注释）的输入反馈数据集。整个夏天，NousResearch这个集体发布了几个基于多个私有和公共指令数据集的微调版本（特别是Hermes和Capybara系列）。9月，清华大学的学生团队发布了OpenChat，一个使用新RL微调策略的LLaMA微调版本，英特尔发布了Orca风格的DPO数据集。

🍂 秋季：10 月，Hugging Face 发布了 Zephyr，这是一个使用 UltraChat 和 UltraFeedback 上的 DPO 和 AIF 的 Mistral 微调版本，社区成员发布了 OpenHermes 2，一个在 90 万条来自网络或通过 Axolotl 生成的条目上微调的 Mistral-7B 模型。Lmsys 发布了 LMSYS-Chat-1M，包含与 25 个 LLM 的真实用户对话。11 月，OpenBuddy 发布了 OpenBuddy-Zephyr，一个在多轮对话数据上微调的 Zephyr 模型，Argilla 发布了 Notus，一个 Zephyr 的 DPO 微调版本。NVIDIA 发布了 HelpSteer，一个对齐微调数据集，提供提示、相关的模型响应以及对这些答案在多个标准上的评分，而微软研究院发布了 Orca-2 模型，一个在新的合成推理数据集上微调的 Llama 2 模型，以及 Intel 的 Neural Chat，一个在 Orca 和 DPO 上微调的 Mistral 模型。12 月，伯克利发布了 Starling，一个 Open-Chat 的 RLAIF 微调版本，以及相关的 Nectar 数据集，包含 20 万条比较数据。

正如我们所见，今年的整个发展都依赖于通过使用高质量的预训练LLM创建新的数据集，以及社区发布的所有开放模型，使得该领域突飞猛进！如果您现在在模型名称中看到这些名称之一，您就能大致了解它的来源了 🤗

注意：一些更专业的数据集（例如 MetaMath 或 MathInstruct 数学问题微调数据集，Evol-Instruct，数学和代码指令，CodeAlpaca 和 CodeCapybara 代码指令）也已发布，但我们在此不详细介绍它们，尽管它们也已用于提高模型在特定任务上的性能。您还可以查看 awesome instructions dataset 以获取其他相关数据集的汇编。

民主化访问

注意：还涌现了许多工具来支持更初级用户的推理和部署，例如 llama.cpp、ollama、text-generation-inference、vllm 等。它们超出了本文档的范围。

模型合并：极致定制

以典型的开源方式，社区的一个里程碑是模型/数据合并。随着每一次合并/提交，跟踪所用数据（因为许多已发布的数据集是其他数据集的汇编）和模型的历史可能会变得更加困难，因为高性能模型是相似模型经过多次微调的版本（参阅 Mistral 的“子模型树”此处）。在本摘要中，我们还没有时间讨论这种令人惊叹的技术，所以让我们最后花几句话来谈谈它。

那么，合并模型意味着什么呢？

**模型合并**是一种将不同模型的权重融合到单个模型中的方法，目的是（理想情况下）将每个模型各自的优势组合到一个统一的单个模型中。存在一些技术可以实现这一点，这些技术已得到扩展，并且主要在社区论坛中发布，这是一个引人注目的案例，充分体现了实践者、研究人员和业余爱好者社区在全球范围内进行的完全去中心化的研究。其中最简单的已发布方法是平均一组共享共同架构的模型的参数（示例 1，示例 2），但存在更复杂的参数组合，例如确定在给定任务中每个模型中最具影响力的参数（加权平均），或者在合并时考虑模型之间的参数干扰以选择保留哪些参数（Ties merging）。有关文献的良好概述，您可以查看这个精彩论文集！

这些技术使得任何人都可以轻松生成模型的组合，并且由于现在大多数模型都是相同架构的变体，因此这变得特别容易。这就是为什么提交给开放LLM排行榜的一些模型具有诸如llama2-zephyr-orca-ultra之类的名称。这个特殊的例子很可能是llama2和zephyr模型的合并，并在orca和ultra数据集上进行了微调。通常，更多细节可以在Hugging Face hub上的相应模型卡中找到。

PEFT：指尖上的个性化

有时，您可能希望进行更受控的个性化设置，但却没有足够的内存来将整个模型加载到内存中进行微调。您知道在微调时不需要使用整个模型吗？

您可能希望使用所谓的**参数高效微调**（PEFT）。这项技术首先冻结您感兴趣的预训练模型的参数，然后在其之上添加一些新的参数，这些参数称为适配器。您随后在任务上微调的只有（轻量级的）适配器权重，它们比原始模型小得多。然后您只需要共享您的小适配器权重（和基础模型）！您可以在这里找到一些有趣的PEFT方法列表。

量化：模型随处运行

我们已经看到，高性能模型现在有各种形状和大小……但即便如此，它们也并非对所有人开放！一个30B参数的模型仅加载到内存中就可能需要超过66G的RAM（甚至还没开始使用），而社区中并非每个人都拥有必要的硬件来实现这一点。

这就是量化发挥作用的地方！量化是一种特殊技术，通过改变模型参数的精度来减小模型大小。

这意味着什么？

在计算机中，数字以给定的精度（例如 `float32`、`float16`、`int8` 等）存储。精度指示了数字类型（是浮点数还是整数）以及数字存储所需的内存量：`float32` 以 32 位存储浮点数。有关更深入的解释，请参见此链接。因此，精度越高，数字占用的物理内存就越多，因为它将存储在更多的位上。

所以，如果你降低精度，你就减少了每个模型参数在存储中所占用的内存，从而减小了模型大小！这也意味着你降低了……实际计算的精度，这可能会降低模型的性能。然而，我们发现对于较大的模型，这种性能下降实际上非常有限。

回到我们上面的例子，我们的30B参数模型如果采用`float16`精度，需要大约66G的RAM；如果采用`8bit`，只需要一半，即33G的RAM；如果采用`4bit`，甚至可以再减半，大约16G的RAM，这使得它更容易被访问。

从一种精度转换到另一种精度有许多方法，存在许多不同的“翻译”方案，每种方案都有其优点和缺点。流行的方法包括 bitsandbytes、GPTQ 和 AWQ。一些用户，例如 TheBloke，甚至将流行模型转换为方便社区访问。所有这些方法都非常新颖且仍在发展中，我们希望随着时间的推移能看到更多进展。

接下来是什么？

今年还没结束呢！而最后的~~几个月~~几天几小时已经带来了意想不到的惊喜：一种新的架构能否最终超越简单高效的Transformer？

新版本包括

专家混合模型
- Mixtral，该模型由 8 个子模型（Transformer 解码器）组成，对于每个输入，路由器会选择 2 个最佳子模型并将其输出求和。
几种状态空间模型（通过潜在空间将输入映射到输出的模型，根据任务可以表示为RNN或CNN，如果您想了解更多信息，此资源在解释状态模型方面非常出色）
- Mamba，一个带有选择机制的状态空间模型
- Striped Hyena，一个具有快速卷积核的状态空间模型

现在说这些新方法是否会取代Transformer还为时过早，但状态空间模型非常有前景！