推出开放式思维链排行榜
思维链提示正在成为 LLM 应用程序和代理的一种强大而有效的设计模式。思维链提示的基本思想是让模型在回答问题或做出决策之前生成一步一步的解决方案(“推理轨迹”)。通过开放式思维链排行榜(Open CoT Leaderboard),我们正在追踪 LLM 在具有挑战性的推理任务中生成有效思维链轨迹的能力。
与大多数基于性能的排行榜不同,我们不衡量模型在给定任务上实现的绝对准确性,而是衡量有无思维链提示时的准确性差异。
accuracy gain Δ = accuracy with CoT – accuracy w/o CoT.
这使我们能够真正检查思维链对模型准确性的影响。
注意:在没有 CoT 提示的情况下,我们使用对数似然准确性来评估模型在多项选择评估中的表现。
设立这样一个思维链排行榜的动机是什么?
思维链提示是一种普遍适用的提示策略,可以提高基于 LLM 的应用程序和代理的可解释性和准确性(例如,参见此集合了解最新研究和实现)。借助 Langchain 或 LMQL 等框架,在您的应用程序中插入复杂的推理链变得简单。但即使您以前从未听说过思维链,在使用聊天机器人时,您可能已经注意到它倾向于在回答您的查询之前一步一步地进行。因此,对 LLM 生成有效思维链轨迹的能力进行系统、最新的比较,可以为开发者和用户选择模型时提供参考。
随着时间的推移,静态的“基于准确性”的基准测试可能会变得信息量不足:模型得分高是因为其卓越的技能,还是因为它在训练期间看到了正确答案,抑或是因为它是在受此基准测试指导的竞争环境中开发的?这些广为人知的问题通过最近的评估方法得到解决,例如聊天机器人竞技场、使用 LLM 作为评判者或使用程序化生成任务的动态基准测试。我们希望开放式思维链排行榜能为这些努力做出贡献,特别是通过对训练数据污染的更强健性:知道一个问题的答案并不能确保一个人能够有效地对其进行推理。
使用了哪些任务?
开放式思维链排行榜评估 LLM 生成有效思维链推理轨迹的能力,用于以下任务:
除了 LogiQA 的原始版本外,所有这些任务都是 AGIEval 基准测试的一部分,并已作为 logikon-bench 重新发布。
我们选择这些任务是因为它们
- 通用,即可以通过推理解决,并且只需要常识知识;
- 即使对于最强大的 LLM 来说仍然相对困难(为通过思维链改进留下了足够的空间);
- 以前曾作为 AI 基准测试引入(在 AGIEval 中),并被广泛使用(例如,在 Nous 基准测试套件中)。
所有任务都以多项选择题的形式呈现,答案选项在提示中列出。
我们使用以下提示模板来评估基线和 CoT 准确性——推理轨迹(以 Reasoning
开头)仅在“使用 CoT”的情况下添加
Answer the following question about the given passage. Base your answer on the reasoning below.
Passage: <passage>
Question: <question>
A. <choice1>
B. <choice2>
…
Reasoning: <reasoning>
Answer:
思维链轨迹是如何生成的?
[#cot-generation]
关于思维链提示的文献在过去一年中呈爆炸式增长,CoT 的提示策略之丰富(例如,涉及解码、提示措辞、提示链、分解、聚合和推理轨迹的修订)已经令人难以置信。
为了应对这种多样性,开放式思维链排行榜背后的评估流水线通过模块化且易于扩展的提示链实现了 CoT 的生成。到目前为止,我们已经实现了两种相当简单的提示策略:
- 经典:问题呈现后,跟着“让我们一步一步思考”的指令。
- 反思:问题呈现后,指令要求在逐步解决问题之前对问题进行一般性反思。
让我们看一个例子。以下问题来自 LSAT 逻辑推理基准测试。
Editorial: The structure of the present school calendar was established to satisfy the requirements of early-twentieth-century agricultural life. In those days, farmers needed their children to have long breaks during which they could remain at home and help with the harvest. The contemporary school year is thus made up of periods of study interspersed with long breaks. But agricultural life no longer occupies most of our citizens, so we can now make changes that serve the interests of children. Therefore, long breaks should be removed from the school calendar.
Which one of the following is an assumption on which the editorial's argument depends?
A) A change in the present school calendar that shortened breaks would serve the interests of agricultural life.
B) Children of farmers need to continue observing a school calendar made up of periods of study interspersed with long breaks.
C) Long breaks in the school calendar should be replaced with breaks that are no longer than workers' average vacations.
D) A school calendar made up of periods of study without long breaks would serve the interests of children more than a school calendar with long breaks.
E) During long breaks children have a tendency to forget what they have learned.
Mixtral-8x7B-Instruct-v0.1 在生成以下思维链轨迹方面表现相当不错:
采用经典提示策略 | 采用反思提示策略 |
---|---|
社论认为,当前的学校日历,带有长假期,是为了适应农业生活而设计的,但现在应该改变,因为农业生活不再占据我们大多数公民。它得出结论,长假期应该从学校日历中删除。 该论证所依赖的假设是,从学校日历中取消长假期会比现有日历更符合儿童的利益。这在社论中没有明确说明,但这是支持拟议改变的潜在假设。 因此,正确答案是:D)由不带长假期的学习时期组成的学校日历会比带有长假期的学校日历更符合儿童的利益。 |
抽象的决策问题是识别社论论证所依赖的假设。
这类问题的常见错误包括
解决这个问题的计划可以是:
按照计划一步一步解决问题
因此,社论论证所依赖的假设是D) 由不带长假期的学习时期组成的学校日历会比带有长假期的学校日历更符合儿童的利益。 |
我们的两种提示策略——经典和反思——都结合并运行了多个解码参数:
- 贪婪解码。
- 集束搜索 (n=2)。
- 采样 (T=.3)。
这使我们总共获得了六种“CoT 生成模式”。当我们评估一个模型时,我们会让它为测试数据集中的每个示例,在每种模式下生成一个思维链轨迹。然后,生成的轨迹会被插入到上面所示的提示模板中,我们用它来给模型评分。相应地,我们获得了六个不同的带思维链的准确性数值分数(即每种模式一个)。在开放式思维链排行榜中,我们报告(针对每个模型/任务)在任何模式下实现的最佳边际准确性增益。
目前的主要发现是什么?
我们正在通过评估越来越多的模型来逐步扩展开放式思维链排行榜,但目前的结果(模型数量=30)已经提供了一些有趣的见解。
- 强大的“小巨人”:我们非常高兴地看到,相对较小的(7B)开源 LLM 能够进行有效的、即能提高准确性的思维链推理,在某些情况下甚至比大型模型表现更好。🎉 例如,像 Phi-2 这样的小型模型从添加的 CoT 轨迹中受益比 Mixtral 模型更多。
- 指令微调和聊天微调有所帮助:经过微调的模型比其对应的基础模型得分高得多。更具体地说,微调可以提高没有 CoT 的基线准确性,也可以提高通过 CoT 实现的边际准确性增益。
- CoT 的可变和模糊效应:深入研究后,我们发现没有单一的首选或卓越的 CoT 生成模式。对一个模型和一项任务最有效的方法可能对另一个模型或另一项任务无效。有时 CoT 会降低准确性而不是提高准确性。我们将其视为一个提醒,即寻找一种普遍有效、可靠和稳健的 CoT 实现仍然是一个具有挑战性的问题。
接下来有哪些步骤?——以及如何贡献。
我们计划在不同方向上前进。欢迎对所有这些努力做出贡献。
首先,我们很乐意评估您的模型!您可以使用“提交”选项卡,在开放式思维链排行榜空间上📬提交任何开源 LLM 进行评估!
然后,我们希望在以下编码和数据分析任务上获得帮助。
- 对完整的评估结果进行深入分析。例如,对生成的 CoT 轨迹进行定性分析,以检查它们是否实际指向了正确的答案选项。我们创建了一个笔记本,展示了如何访问和探索支持开放式思维链排行榜的评估结果和推理轨迹。您可以在此基础上构建,并在相应的 repo(当然也可以在其他地方)分享您自己的分析。欢迎提出建议或问题。如果您计划将数据用于研究项目并希望获得反馈,请给我们留言。
- 创建开放式 CoT 控制面板。开放式 CoT 排行榜旨在根据边际准确性增益对模型进行排名。它不显示基线准确性、方差、不同 CoT 生成模式的得分、生成推理轨迹的属性(例如,长度)等。我们认为,用一个控制面板(例如,作为额外的选项卡或独立的 HF 空间)来补充排行榜将非常有信息量,该控制面板可以呈现所有这些信息并供用户交互式探索。如果您有兴趣(与我们合作或独立)构建这样的开放式 CoT 控制面板,请与我们联系。
- 更多 CoT 链。我们正在考虑实现进一步的 CoT 生成模式。有希望的候选方案包括自洽性、思维树、自检或辩论。想帮助我们吗?请联系我们!(🤫:为什么不选择这样的项目作为您的硕士或学士论文呢?)
- 更多任务和测试数据集。开放式 CoT 排行榜可以说建立在相对狭窄的基准集上。一旦我们有空闲的计算资源,我们希望纳入更多具有挑战性的推理任务。我们很高兴能了解您希望在开放式 CoT 排行榜中看到哪些任务。
我们可以在这里交流想法并进行合作
期待您的来信!