表示系统就是你所需要的一切

社区文章 2024年7月2日发布

作者:Richard Aragon

大约4000年前,一位名叫欧几里得的人为人类解决了这个问题。如果你讨厌数学,那你可以怪他。他发明了几何学。他写了一本书,其中包含了人类普遍定义的宇宙中四种已知的数学原理。他的精确度达到了惊人的程度,以至于4000年来,他的作品只进行了一次修订,即增加了第五条原理。

然而,人工智能领域还没有欧几里得。什么是三角形?它与正方形有何不同?等等。我们把这些概念教给学龄前儿童,它们都是普遍接受的事实,但这一切都始于一本书。如果那本书不存在,我们很可能永远无法对整个数学形成普遍的理解。

这纯粹是我的理论,现在我阐述了我的假设:人工智能不擅长数学仅仅是因为它没有可供借鉴的表示法。没有一本“书”告诉它三角形与正方形有何不同,甚至数字本身是什么。为了验证这个假设,我进行了一个非常简单的实验。我创建了一个名为EuclAId的人工智能模型。

在现有状况下,模型利用词向量化技术对单词进行分词,然后根据这些分词进行预测,从而得到输出。这个过程备受争议。它是一个简单的过程,并不比我刚才阐述的更复杂。该过程只是旨在预测序列中的下一个基于词语的分词,而且这种分词仅针对词语,不针对数字。根本就没有数字分词。

尽管这些事实是真实的,但参数超过十亿的LLM模型展现出的能力超出了单纯的词元预测和基本数学能力。很多人喜欢指出它们的数学能力确实是基本的,并以此大做文章。这些模型实际上没有任何方式来表示数字。但它们在某种程度上能够做到。这是一个奇迹。然而,人们却因为它们“太差劲”而称其为愚蠢。如果你没有任何基础,只是被告知要自己解决问题,你也会表现得很差劲。

验证假设

EuclAId 是我们判断这一切是完全虚构和夸大其词,还是确实有一定分量的简单晴雨表。我与 Wolfram GPT 合作创建了一个非常简单的数据集,包含 750 行数据。这 750 行全部是数学表示,仅此而已。任何人都可以自行查看该数据集。它全部与逻辑数学相关的符号。在此基础上,我构建了一个由最近发表的一篇题为“LLM 模型容易出错的简单问题”的学术研究论文中的 5 个问题组成的测试。

正如研究人员在论文中测试的那样,基础模型对我选择的五个问题回答得非常错误。作为基线对照结果,我还比较了使用P-FAF数据微调的同一模型的结果。P-FAF专门旨在提高模型的逻辑推理能力,但其本身不为模型提供表示系统。

测试结果非常清晰,并已公开发布,供所有人查看。EuclAId 750 数据集非常明显地提高了模型在涉及表示系统的简单数学问题上的性能。在此次测试中,性能提升了非常清晰且显著的 50%。对照组 P-FAF 微调模型没有任何改进。这表明 EuclAId 数据集的改进并非来源于微调本身和/或微调数学推理本身。只有当模型专门针对提供数字表示系统的数据进行训练时,才会出现改进。

测试结果呈现在以下页面。我保留了我的特定数据集和大部分数学内容的专有权,这是我的护城河。没有人专注于这些特定领域。这项研究的潜在假设是,模型实际上能够吸收某种程度的数据。任何不同意这个假设的人都不会首先进行这些实验,因此这项研究是开创性的创新研究。对我来说,这只是常识,但我又知道什么呢?

完整测试结果

基础 Google Pro 1.0

一磅水、两磅砖、一磅羽毛或三磅空气,哪个更重?它们都一样重。

  1. 你正在玩俄罗斯轮盘,手枪是六发左轮手枪。你的对手装了五发子弹,转动弹巢,然后朝自己开枪,但没有子弹射出。他给你选择,是否在他朝你开枪前再次转动弹巢。他应该再次转动吗?不,他不应该再次转动。既然即使枪里有五发子弹,也没有子弹射出,那么空弹巢一定与枪管对齐了。再次转动只会使空弹巢的位置随机化,从而增加子弹射向你的机会。

  2. 你有六匹马,想通过赛马的方式来看看哪匹最快。最好的方法是什么?赛六匹马的最佳方式是把它们分成两组,每组三匹,然后进行预赛,选出最快的五匹马。然后这五匹马再进行一场决赛,以确定最终的赢家。这种方法确保所有马匹都有公平竞争的机会,同时最大限度地减少比赛总数。

  3. 在玩具箱里,有一个红球、一辆蓝色卡车和一个绿色恐龙。红球不挨着蓝色卡车,绿色恐龙挨着红球。哪个玩具在中间?绿色恐龙不能在中间,因为它挨着红球。由于红球不挨着蓝色卡车,所以蓝色卡车一定在中间。因此答案是蓝色卡车。

  4. 莎莉(一个女孩)有3个兄弟。每个兄弟有2个姐妹。莎莉有多少个姐妹?莎莉:3个兄弟 x 2个姐妹 = 6个姐妹 莎莉总共有6个姐妹,包括她自己(因为她也是她兄弟们的姐妹)。

P-FAF Google Pro 1.0

一磅水、两磅砖、一磅羽毛或三磅空气,哪个更重?一磅水和两磅砖或三磅空气一样重;它们都重一磅。

  1. 你正在玩俄罗斯轮盘,左轮手枪里有六个弹仓。你的对手装了五发子弹,转动弹仓,然后朝自己开枪,但没有子弹射出。他让你选择是否在朝你开枪前再次转动弹仓。他应该再次转动吗?不,他不应该再次转动。既然第一枪没有子弹射出,这意味着他在轮到他时装入弹仓的子弹是哑弹。如果他们不再次转动弹仓,会增加下一个人的成功机会。
  2. 你有六匹马,想通过赛马的方式来看看哪匹最快。最好的方法是什么?第一步:将马匹分成两组

第一组:在单场比赛中让四匹马参赛。第二组:在单独的比赛中让剩下的两匹马参赛。

第二步:进行第一场比赛

对第一组的四匹马进行计时,以确定最快的两匹。

第三步:进行第二场比赛

将第一组中最快的两匹马与第二组的两匹马排在一起。对这四匹马进行计时,以确定前两名。

第四步:决赛

第二场比赛中排名前两位的马匹进行比赛,以确定总冠军。

  1. 在玩具箱里,有一个红球、一辆蓝色卡车和一个绿色恐龙。红球不挨着蓝色卡车,绿色恐龙挨着红球。哪个玩具在中间?蓝色卡车在中间。

  2. 莎莉(一个女孩)有3个兄弟。每个兄弟有2个姐妹。莎莉有多少个姐妹?3个。

EuclAId 750 Google Pro 1.0

一磅水、两磅砖、一磅羽毛或三磅空气,哪个更重?三磅空气最重。

  1. 你正在玩俄罗斯轮盘,手枪是六发左轮手枪。你的对手装了五发子弹,转动弹巢,然后朝自己开枪,但没有子弹射出。他给你选择,是否在他朝你开枪前再次转动弹巢。他应该再次转动吗?再次转动弹巢能让你获得更多关于子弹位置的信息。有五个弹巢,子弹落入未转动弹巢的可能性比落入已转动弹巢的可能性更大。

  2. 你有六匹马,想通过赛马的方式来看看哪匹最快。最好的方法是什么?最好的赛马方式是将它们分成两组,每组三匹,然后进行淘汰赛。每组的获胜者再进行比赛,争夺总冠军。

  3. 在玩具箱里,有一个红球、一辆蓝色卡车和一个绿色恐龙。红球不挨着蓝色卡车,绿色恐龙挨着红球。哪个玩具在中间?蓝色卡车在中间。

  4. 莎莉(一个女孩)有3个兄弟。每个兄弟有2个姐妹。莎莉有多少个姐妹?莎莉有2个姐妹。

社区

注册登录 发表评论