偶然建立一个AI推理研究生态系统（或者：AI能停止思考吗？）

社区文章发布于2025年6月26日

大约三年前，我创建了 Can-Ai-Code，旨在回答一个看似简单的问题：“大型语言模型（LLM）甚至能生成语法有效的代码吗？”

那还是2022年的“黑暗时代”，LLM 就像青少年——难以预测，经常犯错，而且没人知道如何正确地与它们交流。那时候还没有聊天模板。我们必须手动找出 EOS 令牌，并决定 Alpaca 或 Vicuna 模板哪个表现更好。早期的模型甚至连一个基本的 for 循环都写不好，就会陷入“存在主义危机”，并拒绝执行参数名为“banana”的函数，因为它被认为是种族歧视（真实故事——向 Llama2 致敬，这大概是史上审查最严格的指令模型）。

当时语法错误比比皆是，甚至能让 Python 函数中的空格恰好正确以至于能够**运行**都是一件难得的乐事，更不用说持续生成正确的代码了。

时光流逝。大约一年后，我发现即使是微小的 8B 模型也击败了我的“初级开发者”测试。我毫不气馁，又制作了一个“高级开发者”测试！这个测试持续了几个月，直到再次被一个 8B 模型击败。每次我把测试难度提高，模型最终都会再次聚集到 100% 的水平。我陷入了一场与人工智能的军备竞赛，而且我正在输掉。

大约在那时，我明白了根本原因：公开我的结果意味着测试代码都在 GitHub 上。而 GitHub 作为互联网生态系统中的一个负责任的成员，会像谷物工厂里的吸尘器一样，不加分辨地被抓取用于 AI 训练数据。这些模型并不是在我的测试上变得更聪明了——它们只是在重复记忆的解决方案。这实际上不是一场与智能的军备竞赛；而是一场与在我的测试集上进行训练的模型供应商的军备竞赛。

我投入了大量时间的测试套件躺在地上，鲜血淋漓，被击败，被污染。而它所提出的问题甚至不再相关——到2025年，大型语言模型（LLM）的表现已经非常出色，我们甚至创造了一个术语“氛围编程”（vibe coding），用来描述完全放手让它们操作，甚至自己都不去查看它们生成的代码的情况。

推理模型也猛烈来袭。它们承诺提供神奇的运行时扩展，全面提升提示性能，作为交换则需要“少量”额外令牌。

所以，面对我工作的彻底过时，我做了任何一个理智的人都会做的事情：我转向了一个更难的问题。

如果“AI会写代码吗？”这个争论已经尘埃落定，那么“AI会思考吗？”肯定还在激烈讨论中。

因此，我定义了13个全新的、极其困难的、需要推理的任务。我构建了抗污染生成器，每隔几个月就能生成这些任务的新示例（你不可能记住尚不存在的测试！）。这做到了一石二鸟：我需要成千上万的测试用例才能获得具有统计意义的结果，而我的新生成器可以合成所需数量的测试，以达到我期望的置信区间，然后通过轮换来生成新测试，以避免污染。

查看布尔型和多项选择题（在我之前的编程测试中没有出现）的早期结果：模型“解决”了它们显然不理解的多项选择题。结果发现这个问题有一个名称——过度准确性。一个在真/假问题上得分60%的模型，并不是60%的智能——它只有10%的知识，和50%的随机猜测。我必须构建过度准确性校正来区分真正的理解和统计噪声，然后天空突然打开，数据中出现了分离！

这一切看起来都是一个明智的转变，直到我意识到运行**数千个**思维测试比几百个编程测试要昂贵得多。当一个模型编写一个函数时，它可能输出500个令牌。当一个模型思考一个难题时，它很容易消耗4000个令牌，仅仅是为了告诉你它很困惑。这就像是让一个人写下自己的名字，与要求他们解释写名字的整个思考过程，包括他们所有次质疑自己笔迹的时刻之间的区别。

我每天晚上都在生成数千万个令牌，我的 RTX3090 显卡已经跳闸两次了，我妻子也开始因为用电量而对我投来担忧的目光。

然后，一天早上，我突然明白了：也许这个成本就是关键。

如果**推理效率**——每消耗一个令牌的正确答案数量——比仅仅是判断对错更重要呢？问题从“AI能思考吗？”演变为“AI思考的效率如何？”，再日益变为“AI能否请停止思考，在我收到电费账单前给我一个答案？”

看着数千个提示撞上上下文限制，我产生了一个危险的想法：如果令牌效率是真正的游戏，那么我能不能尝试引导推理过程本身呢？于是我构建了 **Ruminate**，一个代理服务器，它能为任何使用 `` 标签的模型提供可配置、多阶段的“思考时间”预算。你希望你的 AI 精确思考400个令牌，然后总结200个，再回答300个吗？这一切都应该由你来选择，而不是模型！Ruminate 不仅会强制执行令牌预算，还会在转换时注入引导性思考，帮助模型完成任务。

对数百万个生成的令牌（大部分是错误答案）所产生的分布进行分析，揭示了人工智能推理的一个美丽悲剧：模型遵循我称之为**推理失败的三重高斯分布**。它们要么

思考不足，过早放弃，或者
过度思考，把自己绕进逻辑死胡同，或者
进入“哎呀”区域，它们思考得刚刚好，却犯了错误，结果自信满满地错了。

这就像看着人工智能意识同时发现了焦虑、拖延症和邓宁-克鲁格效应！这些效应并非相互排斥，它们在任务和难度不同时，会以各种有趣的方式同时发生并相互作用——这本身就可以写一篇完整的文章。

从最初的**“我的本地LLM能写一个简单的函数吗？”**，到现在已经演变成一个完整的推理研究生态系统，包含了自我进化的基准、抗污染评估、统计严谨性、效率优化以及可控的推理基础设施。我从未计划过这一切。每个解决方案都只是揭示了下一个问题，就像打开一套俄罗斯套娃，里面装满了关于难度定义和人工智能思维本质的日益复杂的存在主义问题。

事实证明，真正的问题不是**“AI会思考吗？”**——它介于**“AI如何思考？”**和**“AI能停止思考吗？”**之间。因为显然，如果任由它们发展，大多数现代开源推理模型都会乐此不疲地耗尽你所有的令牌预算，来思考热狗是否是三明治的哲学含义（然后自信地得出结论，这实际上是因为全球变暖）。

有时，最好的研究发生在你随问题所引导的方向前行，即使它们意外地让你构建了你从未知道自己需要的东西，去回答你从未知道自己在提出的问题。

我目前正在编写文档并处理3亿多个令牌的结果，请在 HuggingFace 和 GitHub 上关注我：https://github.com/the-crypt-keeper/ChatBench

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论