ZebraLogic:基准测试语言模型的逻辑推理能力


大型语言模型 (LLM) 在信息检索和创意写作任务中表现出色。它们在数学和编程方面也有显著进步。但它们在逻辑推理方面的表现如何呢?
为了评估 LLM 的逻辑推理能力,我们创建了一个名为 ZebraLogic 的基准。每个示例都是一个逻辑网格谜题,也称为斑马谜题。在每个谜题中,我们给定 N 栋房子(从左到右编号为 1 到 N)以及每栋房子的 M 个特征。每个特征有 N 个不同的值,并且每栋房子在每个特征上必须具有唯一的值。给定线索列表,人们应该能够推导出一个唯一的正确值分配。逻辑网格谜题是一个典型的约束满足问题 (CSP),并常用于测试人类在法学院入学考试 (LSAT) 等考试中的逻辑推理能力。
链接
- 🤗 排行榜:https://huggingface.co/spaces/allenai/ZebraLogic
- 🦓 数据:https://huggingface.co/datasets/allenai/ZebraLogicBench
- 💻 评估代码:https://github.com/yuchenlin/ZeroEval
ZebraLogic 数据示例 🦓
这是一个 2x3 谜题(2 栋房子 x 3 个特征)的示例
ZebraLogic 基准示例;id=[lgp-test-2x3-1]: ⬇️
There are 2 houses, numbered 1 to 2 from left to right.
Each house is occupied by a different person.
Each house has a unique attribute for each of the following characteristics:
- Each person has a unique name: **Arnold, Eric**
- People own unique car models: **ford f150, tesla model 3**
- The people keep unique animals: **cat, horse**
**Clues**:
1. Eric is directly left of the person who owns a Tesla Model 3.
2. The person who keeps horses is in the first house.
推理步骤
- 根据线索 1,我们知道埃里克在某个人的左边,所以他一定是 1 号房子的主人,因为 2 号房子是最右边的房子。
- 此外,我们知道 2 号房子里的人一定是阿诺德,他拥有一辆特斯拉 Model 3。因此,埃里克拥有一辆福特 F150。
- 根据线索 2,我们知道埃里克在 1 号房子里养马,这意味着另一栋房子里养猫。最终,我们得到了这个谜题的唯一解。
解决方案以表格形式呈现
房子 | 名称 | 汽车型号 | 动物 |
---|---|---|---|
1 | 埃里克 | 福特 F150 | 马 |
2 | 阿诺德 | 特斯拉 Model 3 | 猫 |
评估方法 📏
我们以编程方式创建了 1,000 个此类谜题,大小从 2x2 到 6x6 不等,每个大小有 40 个谜题。我们通过提供一个包含推理步骤和 JSON 格式解决方案的单次示例来测试大型语言模型 (LLM)。我们指示 LLM 首先输出其推理,然后以与上下文示例中所示相同的格式呈现其答案。
指标
我们有两个主要指标:谜题级准确率和单元格级准确率。对于每个大小为 NxM 的谜题,有 NxM 个单元格需要填写,我们将单元格级准确率计算为正确填充单元格的比例。只有当所有单元格都填充了正确值时,谜题才算作谜题级成功。此外,我们根据谜题的大小将 1000 个谜题分为两个子集:简单谜题和困难谜题。
简单与困难谜题
对于 NxM 大小的斑马谜题(N 栋房子和 M 个特征),随机猜测每个特征赋值的正确概率为 。因此,随机猜测所有单元格都正确的概率是 。对数值取对数后,结果如下表所示:
N ⬇️ | M=2 | M=3 | M=4 | M=5 | M=6 |
---|---|---|---|---|---|
2 | -0.602060 | -0.903090 | -1.204120 | -1.505150 | -1.806180 |
3 | -1.556303 | -2.334454 | -3.112605 | -3.890756 | -4.668908 |
4 | -2.760422 | -4.146634 | -5.520845 | -6.901056 | -8.281267 |
5 | -4.158362 | -6.237544 | -8.316725 | -10.395906 | -12.475087 |
6 | -5.714665 | -8.571997 | -11.429330 | -14.286662 | -17.143995 |
我们为对数值设定了一个阈值,并认为所有比 3x3 谜题更简单的谜题为简单谜题,而其他则为困难谜题。
结果 📈
人类可以通过策略性地推理线索中给出的约束来解决谜题,例如使用归谬法和排除法等深思熟虑的思维方式。然而,LLM 在此类逻辑推理任务中仍然较弱。表现最好的 LLM,Claude 3.5 Sonnet,只能解决所有谜题的 33.4%,而对于困难谜题,仅能解决 12.4%。表现最好的开源 LLM 是 🐳 DeepSeek-v2-Chat (0628),它显著优于 Llama-3-70B-Instruct。参数量为 70 亿到 100 亿的小型语言模型在解决困难谜题时表现不佳(例如,解决率低于 1%),在简单谜题上的准确率也较低。
我们的结果表明,LLM 仍然缺乏复杂逻辑推理所需的几项能力:反事实思维、反思性推理、结构化记忆和组合泛化等。
查看我们排行榜上的所有结果:https://huggingface.co/spaces/allenai/ZebraLogic
贪婪解码与采样
最近的研究表明,贪婪解码通常在困难推理任务中表现更好。然而,在我们的案例中,一些模型在生成推理步骤时可能会退化(例如,开始重复解码相同的句子)。因此,我们也对某些模型使用温度为 0.5 的采样。少数模型在采样时获得更高的准确率,但大多数模型在贪婪解码中表现更好。
Gemini-1.5 的意外结果
我们发现 Gemini-1.5-Pro 的性能与其精简版 Gemini-1.5-Flash 相似,尽管后者有更多的生成失败。在采样模式下(温度=0.5),我们发现 Gemini-1.5-Flash 的性能大幅下降,而 Gemini-1.5-Pro 的性能略有提升。
人类表现
定义和估算人类表现可能具有挑战性。根据我自己的测试,以下是我解决不同谜题大小的平均时间:
- 2x2 谜题:约 15 秒
- 3x3 谜题:约 1 分 30 秒
- 4x4 谜题:10 到 15 分钟
欢迎分享您的经验!我们已在 HuggingFace 排行榜空间设置了演示,供您探索和使用我们的数据。
谜题生成 🏭
斑马谜题可以通过程序合成生成。
- 我们首先定义一组特征及其可能的值(例如,特征
汽车型号
可能包含特斯拉 Model 3
、福特 F150
等值)。 - 接下来,我们建立线索类型及其语言模板,其中包含要填充的值的占位符。每种线索类型都经过逻辑结构化,以描述可以涉及多个变量的约束类型。
- 为了创建一个 ZebraLogic 示例,我们随机将值分配到一个采样网格上作为解决方案。然后,我们枚举所有可能描述变量之间关系的线索。
- 通过加权采样迭代删除线索,我们不断检查剩余的线索集是否可以唯一地导致上述解决方案。
- 最后,我们使用提示模板表示谜题,以形成 LLM 的输入。
线索类型如下:
Found_At
:喝茶的人住在 3 号房子Not_At
:音乐家不喝茶Same_House
:音乐家喝茶Direct_Left/Right
:温室在白房子的正左/右边Side_By_Side
:喝咖啡的人和喝茶的人相邻。Left/Right_Of
:A 在 B 的左/右某处One/Two_between
:A 和 B 之间有一/两栋房子。
未来方向 🔜
- 更多推理方法:我们对评估 LLM 代理(例如,ReAct、Reflexion、SwiftSage)很感兴趣。此外,我们还将探索高级提示和微调方法,如思维树 (Tree of Thoughts)、推理流 (Flow of Reasoning)等。
- 更多评估方法:我们正在考虑尝试选择题格式以加快评估速度。此外,线索的语言可以进一步润色,使其更自然和多样化。
- 使用逻辑谜题进行微调:使用合成逻辑推理任务进行微调是否能提高 LLM 的通用能力?
- 分析 LLM 的内部推理机制:LLM 如何正确和不正确地进行推理?
- 更多任务:我们将在评估中添加更多类型的逻辑谜题,这些谜题需要更多样化的推理能力。
引用
@misc{zebralogic2024,
title={ZebraLogic: Benchmarking the Logical Reasoning Ability of Language Models},
author={Bill Yuchen Lin and Ronan Le Bras and Yejin Choi},
url={https://huggingface.co/spaces/allenai/ZebraLogic},
year={2024}
}
@article{dziri2024faith,
title={Faith and fate: Limits of transformers on compositionality},
author={Nouha Dziri and Ximing Lu and Melanie Sclar and Xiang Lorraine Li and Liwei Jian and Bill Yuchen Lin and Peter West and Chandra Bhagavatula and Ronan Le Bras and Jena D. Hwang and Soumya Sanyal and Sean Welleck and Xiang Ren and Allyson Ettinger and Za{\"i}d Harchaoui and Yejin Choi},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}