超越巨石：LLM 中建设性、逐层学习的案例

社区文章 2025年7月17日发布

当 LLM 的组成部分——单个字符标记“w”、“R”、“i”——没有语义内容时，它如何理解“wRiTe”的含义？这个简单的问题挑战了现代 AI 的基础。它成为两篇研究论文（https://arxiv.org/abs/2507.04886, https://arxiv.org/abs/2507.07129）以及一个构建这些复杂系统更结构化、高效和自然方式的提案的起点。

这项工作认为高级语义不包含在标记嵌入中，而是由 Transformer 架构构建的。为了验证这一点，我们引入了一个激进的约束：用一个完全冻结的层替换标准可训练嵌入，该层源自 Unicode 字形的原始视觉结构。结果令人着迷。模型不仅收敛了，而且在推理基准测试中，它们相对于架构相同的模型显示出令人惊讶的优势。

关于规模和意图的说明

在深入探讨之前，需要进行一项重要的澄清。这些实验是在小规模（小型数据集 9B 标记）下进行的，主要在一块 GPU 上（偶尔通过数据并行进行加速），并且从未旨在超越巨大、单片训练模型的 SOTA 性能。在低分（约 25%）的 MMLU 上观察到的两倍优势可能是一种局部效应，其主要价值不在于具体数字。

真正的目标是将资源限制作为一种科学工具。通过消除大规模的暴力选项，我们被迫专注于架构的第一性原理。关键的发现不是小模型可以击败大模型，而是即使在资源受限的情况下，更智能的学习范式也显示出清晰、积极的信号。

建设性 AI 的蓝图

这种基于冻结基质的“建设性”范式，为当今 AI 中一些最紧迫的问题提供了切实可行的解决方案

乐高式模型的通用“对接端口”：冻结的、基于 Unicode 的嵌入层充当通用标准。这可以解决冷启动问题，更重要的是，使我们能够在训练后像乐高积木一样合并专业模型。

“增长”知识以驾驭复杂性：当前训练万亿参数模型的范式是一场优化噩梦，需要难以想象的数据集来约束指数增长的解决方案空间。我们展示了一种更易于管理的替代方案：逐层（或一次 N 层）增长模型。这提供了一个结构化的课程，其中每一新层都建立在稳定、称职的基础之上。

向大自然的剧本学习

大自然通过数十亿年的进化，从未凭空产生一个完全形成的复杂大脑。智能是不断增长的。神经发生是循序渐进的，在现有结构的基础上构建复杂性。我们目前训练 LLM 的方法——初始化一个万亿参数的随机网络，并希望它在一个单一的过程中正确收敛——没有已知的生物学类似物。

我们的工作表明，我们应该向大自然学习。与其试图一次性冻结整个湖泊——一个需要巨大能量的混沌过程——我们应该首先形成一层坚实的冰壳。然后，深度冻结可以逐层进行，从一个简单的基础构建一个稳定的、单一的结构。这就是深度学习如何驾驭复杂性。

思维的更广泛转变

这种思维方式并非凭空出现。研究界日益形成的共识表明，AI 扩展的未来不能是单一的。最近对概念的探索，它有效地创建了嵌套表示，或者向组合架构的转变清楚地表明了这一点。这些方法旨在从更小、可重用、更高效的组件构建智能。我们的工作提供了一种实用、经过验证的方法，带有通用“对接端口”——冻结的嵌入层——直接为这一新兴且至关重要的趋势做出贡献。

未来的道路

当前对规模的竞赛有一个可预见的结局。数据是有限的。电力是有限的。单一方法将触及硬天花板。

我们认为前进的道路必须是建设性的。即使我们特定实现的冻结视觉嵌入不是最终答案，它也指向了必要的思维转变。AI 的未来在于模块化、组合系统以及允许我们智能地构建复杂性而不仅仅是蛮力的方法。这是火车头的原理：你不需要无限的动力来移动一列重得不可能的火车。你只需要一次征服一节车厢的惯性。

这项工作是一个概念验证、一个蓝图，也是一个邀请，邀请社区与我们一起探索这条道路。让我们开始更具建设性地构建 AI。

社区

trand1k

10 天前

无可争议的是，当前 AI 产业的模型训练过程倾向于专注于资源消耗，以利于计算硬件巨头：更多资源 = 更大模型 = 更好质量。但事实上，这与学习过程的能源效率无关。完全同意所提出的方法可以改变范式，将我们带到模型进化的下一个质量水平。
期待此类真正具有科学意义的开创性研究。

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论