超越巨石:LLM 中建设性、逐层学习的案例
当 LLM 的组成部分——单个字符标记“w”、“R”、“i”——没有语义内容时,它如何理解“wRiTe”的含义?这个简单的问题挑战了现代 AI 的基础。它成为两篇研究论文(https://arxiv.org/abs/2507.04886, https://arxiv.org/abs/2507.07129)以及一个构建这些复杂系统更结构化、高效和自然方式的提案的起点。
这项工作认为高级语义不包含在标记嵌入中,而是由 Transformer 架构构建的。为了验证这一点,我们引入了一个激进的约束:用一个完全冻结的层替换标准可训练嵌入,该层源自 Unicode 字形的原始视觉结构。结果令人着迷。模型不仅收敛了,而且在推理基准测试中,它们相对于架构相同的模型显示出令人惊讶的优势。
关于规模和意图的说明
在深入探讨之前,需要进行一项重要的澄清。这些实验是在小规模(小型数据集 9B 标记)下进行的,主要在一块 GPU 上(偶尔通过数据并行进行加速),并且从未旨在超越巨大、单片训练模型的 SOTA 性能。在低分(约 25%)的 MMLU 上观察到的两倍优势可能是一种局部效应,其主要价值不在于具体数字。
真正的目标是将资源限制作为一种科学工具。通过消除大规模的暴力选项,我们被迫专注于架构的第一性原理。关键的发现不是小模型可以击败大模型,而是即使在资源受限的情况下,更智能的学习范式也显示出清晰、积极的信号。
建设性 AI 的蓝图
这种基于冻结基质的“建设性”范式,为当今 AI 中一些最紧迫的问题提供了切实可行的解决方案
乐高式模型的通用“对接端口”:冻结的、基于 Unicode 的嵌入层充当通用标准。这可以解决冷启动问题,更重要的是,使我们能够在训练后像乐高积木一样合并专业模型。
“增长”知识以驾驭复杂性:当前训练万亿参数模型的范式是一场优化噩梦,需要难以想象的数据集来约束指数增长的解决方案空间。我们展示了一种更易于管理的替代方案:逐层(或一次 N 层)增长模型。这提供了一个结构化的课程,其中每一新层都建立在稳定、称职的基础之上。
向大自然的剧本学习
大自然通过数十亿年的进化,从未凭空产生一个完全形成的复杂大脑。智能是不断增长的。神经发生是循序渐进的,在现有结构的基础上构建复杂性。我们目前训练 LLM 的方法——初始化一个万亿参数的随机网络,并希望它在一个单一的过程中正确收敛——没有已知的生物学类似物。
我们的工作表明,我们应该向大自然学习。与其试图一次性冻结整个湖泊——一个需要巨大能量的混沌过程——我们应该首先形成一层坚实的冰壳。然后,深度冻结可以逐层进行,从一个简单的基础构建一个稳定的、单一的结构。这就是深度学习如何驾驭复杂性。
思维的更广泛转变
这种思维方式并非凭空出现。研究界日益形成的共识表明,AI 扩展的未来不能是单一的。最近对概念的探索,它有效地创建了嵌套表示,或者向组合架构的转变清楚地表明了这一点。这些方法旨在从更小、可重用、更高效的组件构建智能。我们的工作提供了一种实用、经过验证的方法,带有通用“对接端口”——冻结的嵌入层——直接为这一新兴且至关重要的趋势做出贡献。
未来的道路
当前对规模的竞赛有一个可预见的结局。数据是有限的。电力是有限的。单一方法将触及硬天花板。
我们认为前进的道路必须是建设性的。即使我们特定实现的冻结视觉嵌入不是最终答案,它也指向了必要的思维转变。AI 的未来在于模块化、组合系统以及允许我们智能地构建复杂性而不仅仅是蛮力的方法。这是火车头的原理:你不需要无限的动力来移动一列重得不可能的火车。你只需要一次征服一节车厢的惯性。
这项工作是一个概念验证、一个蓝图,也是一个邀请,邀请社区与我们一起探索这条道路。让我们开始更具建设性地构建 AI。