超越巨石:LLM 中建设性、逐层学习的案例

社区文章 2025年7月17日发布

当 LLM 的组成部分——单个字符标记“w”、“R”、“i”——没有语义内容时,它如何理解“wRiTe”的含义?这个简单的问题挑战了现代 AI 的基础。它成为两篇研究论文(https://arxiv.org/abs/2507.04886, https://arxiv.org/abs/2507.07129)以及一个构建这些复杂系统更结构化、高效和自然方式的提案的起点。

这项工作认为高级语义不包含在标记嵌入中,而是由 Transformer 架构构建的。为了验证这一点,我们引入了一个激进的约束:用一个完全冻结的层替换标准可训练嵌入,该层源自 Unicode 字形的原始视觉结构。结果令人着迷。模型不仅收敛了,而且在推理基准测试中,它们相对于架构相同的模型显示出令人惊讶的优势。

关于规模和意图的说明

在深入探讨之前,需要进行一项重要的澄清。这些实验是在小规模(小型数据集 9B 标记)下进行的,主要在一块 GPU 上(偶尔通过数据并行进行加速),并且从未旨在超越巨大、单片训练模型的 SOTA 性能。在低分(约 25%)的 MMLU 上观察到的两倍优势可能是一种局部效应,其主要价值不在于具体数字。

真正的目标是将资源限制作为一种科学工具。通过消除大规模的暴力选项,我们被迫专注于架构的第一性原理。关键的发现不是小模型可以击败大模型,而是即使在资源受限的情况下,更智能的学习范式也显示出清晰、积极的信号。

建设性 AI 的蓝图

这种基于冻结基质的“建设性”范式,为当今 AI 中一些最紧迫的问题提供了切实可行的解决方案

乐高式模型的通用“对接端口”:冻结的、基于 Unicode 的嵌入层充当通用标准。这可以解决冷启动问题,更重要的是,使我们能够在训练后像乐高积木一样合并专业模型。

“增长”知识以驾驭复杂性:当前训练万亿参数模型的范式是一场优化噩梦,需要难以想象的数据集来约束指数增长的解决方案空间。我们展示了一种更易于管理的替代方案:逐层(或一次 N 层)增长模型。这提供了一个结构化的课程,其中每一新层都建立在稳定、称职的基础之上。

向大自然的剧本学习

大自然通过数十亿年的进化,从未凭空产生一个完全形成的复杂大脑。智能是不断增长的。神经发生是循序渐进的,在现有结构的基础上构建复杂性。我们目前训练 LLM 的方法——初始化一个万亿参数的随机网络,并希望它在一个单一的过程中正确收敛——没有已知的生物学类似物。

我们的工作表明,我们应该向大自然学习。与其试图一次性冻结整个湖泊——一个需要巨大能量的混沌过程——我们应该首先形成一层坚实的冰壳。然后,深度冻结可以逐层进行,从一个简单的基础构建一个稳定的、单一的结构。这就是深度学习如何驾驭复杂性。

思维的更广泛转变

这种思维方式并非凭空出现。研究界日益形成的共识表明,AI 扩展的未来不能是单一的。最近对概念的探索,它有效地创建了嵌套表示,或者向组合架构的转变清楚地表明了这一点。这些方法旨在从更小、可重用、更高效的组件构建智能。我们的工作提供了一种实用、经过验证的方法,带有通用“对接端口”——冻结的嵌入层——直接为这一新兴且至关重要的趋势做出贡献。

未来的道路

当前对规模的竞赛有一个可预见的结局。数据是有限的。电力是有限的。单一方法将触及硬天花板。

我们认为前进的道路必须是建设性的。即使我们特定实现的冻结视觉嵌入不是最终答案,它也指向了必要的思维转变。AI 的未来在于模块化、组合系统以及允许我们智能地构建复杂性而不仅仅是蛮力的方法。这是火车头的原理:你不需要无限的动力来移动一列重得不可能的火车。你只需要一次征服一节车厢的惯性。

这项工作是一个概念验证、一个蓝图,也是一个邀请,邀请社区与我们一起探索这条道路。让我们开始更具建设性地构建 AI。

社区

无可争议的是,当前 AI 产业的模型训练过程倾向于专注于资源消耗,以利于计算硬件巨头:更多资源 = 更大模型 = 更好质量。但事实上,这与学习过程的能源效率无关。完全同意所提出的方法可以改变范式,将我们带到模型进化的下一个质量水平。
期待此类真正具有科学意义的开创性研究。

注册登录 发表评论