麻将:奶奶们打败最强LLM的地方

人们越来越担心我们正在耗尽真正的挑战性问题,无法对最先进的语言模型进行有意义的评估。为了应对这一问题,人类的终极考试(Humanity’s Last Exam)被创建——一个旨在将AI推向极限的基准。然而,这套问题往往过于复杂和专业,只有小众领域的专家才能回答。
在这里,我有一个更具吸引力和可访问性的替代方案:一个数据集,其中的问题对于普通人来说很容易回答,但对于最复杂的语言模型来说仍然很困难。
而这个数据集就是……(请鼓掌!)🥁🥁🥁
麻将和牌牌数据集! 🎉🎴🐉
没错!对于我的岳母(她向我介绍了这个游戏,每次我们玩的时候她都会把我打得落花流水)来说,这是一个看似简单的任务,但对于最强大的LLM来说,这绝对是一个噩梦。
等等……麻将到底是什么? 🤔
对于不熟悉的人来说,麻将是一种经典的四人牌类游戏,起源于中国,在中国老年人中非常流行。(所以,不,我不是在说你在特斯拉和App Store中找到的带麻将牌的单人纸牌游戏,那不是麻将!)它就像是扑克、拉米和四维象棋的结合体——但是有精美的牌和更多的争论。
游戏使用136张牌(或更多,有很多变体),其中包括三套牌(筒、索和万)、字牌(风和龙)以及花牌(花和季节,取决于变体)。每套牌的数字范围从1到9。每个玩家开始时有13张牌,轮流摸牌和打牌以组成一副完整的牌。一个标准的和牌手牌由四组(刻子或顺子)和一对组成——但相信我,规则的变体比科幻电影的多元宇宙还要多。
关键是什么?知道哪张牌能完成你的手牌对于经验丰富的玩家来说是超级直观的,但对于AI来说却异常棘手。LLM在这方面遇到困难,因为它不仅仅是记忆规则——它还需要识别模式、预测可能性,并处理牌组合的纯粹复杂性。
数据集详情
每个麻将牌都有其自己的Unicode符号(是的,是真的!),为了简化起见,我在此数据集中使用它们各自的Unicode表示所有牌。每个示例都包含一副13张牌的手牌,以及一份和牌牌列表——即能使手牌完成和牌的牌。该数据集包含100个示例,使用基于规则的系统生成。为了确保多样性,这些示例根据每副手牌可能和牌牌的数量均匀分布。无论是一张牌的简单等待,还是复杂的多张牌情景,这个数据集都包含了所有情况!
请注意,我可以使用我的脚本轻松生成数百万个示例,但我认为一个包含100个示例的均衡数据集足以衡量LLM的性能。我还包含了一个更大的训练集,以防有人感兴趣。
数据集中的一个示例显示如下。有关数据集的更多详细信息,请查看其数据集卡片:mahjong-winning-tiles。
{
"hand": ["🀇", "🀈", "🀉", "🀊", "🀋", "🀌", "🀍", "🀎", "🀏", "🀙", "🀚", "🀛", "🀜"],
"winning_tiles": ["🀙", "🀜"]
}
顶级LLM的表现如何
最后是结果
直接回答 | 思维链 | |
---|---|---|
GPT-4o | 9% | 4% |
Claude 3.5 Sonnet | 1% | 9% |
DeepSeek R1 | - | 21% |
o1 | - | 31% |
o3-mini | - | 22% |
无论有没有CoT,GPT-4o和Claude 3.5 Sonnet都无法解决这个任务。(GPT-4o在没有CoT的情况下得到了9%的准确率,因为它在76%的时间里选择预测一个空列表;由于有10%的数据没有和牌牌,它正确地预测了大部分这种情况。)
DeepSeek R1、o3-mini和o1等推理模型显示出显著的改进,准确率分别达到21%、22%和31%。然而,这与普通人类的表现仍相去甚远。更糟糕的是,每个答案需要超过100秒。这比在休闲游戏之夜中最犹豫不决的奶奶还要慢。
而且这甚至还没有触及麻将真实复杂性的表面!我们甚至没有考虑
- 已经打出的牌——这对于做出明智的决定至关重要。
- 特殊和牌手牌,如十三幺(一副看起来纯粹混乱但实际上是天才的手牌)或七对(适合喜欢对称的人)。
- 计分系统——因为并非所有和牌手牌都生来平等!基本和牌很好,但真正的麻将大师追求的是高分、令人崩溃、掀翻牌桌的和牌。如果AI在问题的最简单版本上都如此挣扎,那么引入真实世界的规则可能会让它崩溃。
结论
作为一个偶尔和朋友打麻将的人,这是一个非常有趣的副业项目,最初只是出于好奇,想知道LLM玩麻将能玩得怎么样。
结果有些令人惊讶,因为LLM在竞技编程和数学方面表现出色。我认为这项任务对LLM如此具有挑战性的原因在于:(1)关于麻将的语料库不多,尤其不是Unicode格式。(2)除了某些递归算法之外,没有非常简单的有效算法可以数学计算和牌牌。(3)可能的组合呈指数级增长,这使得LLM无法记住。但所有这些都使其成为测试LLM推理能力的完美基准。
顺便说一下,对于我计算机视觉领域的朋友们来说,有一个潜在的新项目/论文想法:大多数VLM似乎很难识别图片中我手上的麻将牌——如果这个问题解决了,我就可以戴上VR头盔来帮助我在麻将游戏中作弊,我可能最终能打败我的岳母。
引用
@misc{mahjong-winning-tiles,
author = {Silei Xu},
title = {Mahjong: Where Grandmas Beat The Best LLMs},
year = {2025},
journal = {Hugging Face Blog},
howpublished = {\url{https://huggingface.co/blog/sileixu/mahjong}},
}
免责声明:本帖表达的观点是我个人的观点,不一定反映我雇主的观点