语言模型的解题能力

社区文章发布于 2025 年 2 月 2 日

引言

自我修正

推理步骤验证

任务分解

推理任务可能需要推理模板

提高通用推理性能

程序辅助语言模型

推理步骤的忠实性

推理成本

参考文献

引言

分而治之的方法被公认为行之有效。这种策略自然也适用于大型语言模型（LLMs）。例如，思维链（CoT；Wei et al. (2022)）表明，逐步解决问题可以显著提高性能。在此成功的基础上，许多工作提出了不同的变体和改进，例如思维树（ToT；Yao et al. (2023)）和思维图（GoT；Besta et al. (2024)）等。在本篇博文中，我们将对使用语言模型解决推理问题的不同方法进行高层概述，重点关注一些非常新的论文（主要是2024年），而非对所有新作品进行详尽的审查。

自我修正

所有这些方法的一个常见问题是，中间步骤可能包含错误，这些错误可能会对推理链产生负面影响并得出错误的结论。许多研究试图让大型语言模型纠正其推理链中的错误（Shinn et al. 2024; Madaan et al. 2023; Pan et al. 2023; Kim, Baldi, and McAleer 2024; Weng et al. 2023; W. Jiang et al. 2023; Du et al. 2024; Paul et al. 2024; Saunders et al. 2022; Akyurek et al. 2023; Welleck et al. 2023; Estornell et al. 2024）。然而，Huang et al. (2024) 认为，这些研究大多实际上使用某种外部反馈或黄金标签。由于修正并非源于参数知识与输入输出上下文的逻辑推理，这些方法并未进行自我修正。此外，这可能会限制它们在无法获得此类外部反馈的场景中的应用。此外，Hong et al. (2024) 表明，大型语言模型无法识别逻辑谬误；因此，预计大型语言模型目前还无法进行自我修正。

推理步骤验证

语言模型缺乏自我修正能力可能意味着一种替代方法来纠正中间步骤中潜在的错误：将专门生成推理步骤的代理与为每个步骤提供反馈的代理相结合。例如，Paul et al. (2024) 提出了这样一个系统。为了构建它，他们训练了两个语言模型。评论者在包含不合理假设和修复推理错误的反馈的合成数据集上进行训练。生成器在生成推理步骤、接收来自冻结评论模型的反馈以及纠正理由或生成下一个理由方面进行训练。尽管这种方法显示出显著的性能提升，但没有实验证明显著更小的评论模型是否可以为更大的模型（例如，小于1B的评论模型与大于1B的生成器配对）提供有意义的反馈，从而使验证步骤的计算成本更低。

任务分解

这些问题可能因需要长上下文等挑战性任务而加剧。在这种情况下，多智能体方法来分解任务可能会有所帮助。例如，Zhang et al. (2024) 将非常大的输入上下文分解成 k 个块，并由智能体进行处理。他们建议利用智能体之间的通信通道来促进对上下文的理解。然后，最终智能体将所有其他智能体的输出组合起来，给出问题的最终解决方案。这种方法非常有吸引力，因为它不需要训练，并且与任务无关、可解释且具有成本效益。

推理任务可能需要推理模板

Yang et al. (2024) 认为，像 CoT 这样的单查询方法缺乏通用性，因为它们需要针对特定输入任务的推理过程进行示例。另一方面，像 ToT 和 GoT 这样的多查询方法由于其扩展推理路径的递归性质而显著昂贵。为了解决这些限制，他们提出了思维缓冲区（BoT）。这种方法包含一个元缓冲区，用于存储解决各种问题的模板。然后，给定一个输入问题，系统检索最相关的模板并用给定数据实例化它。如果任务是新任务，系统将使用通用模板，实例化问题，创建解决此类任务的新通用模板，并用新任务模板更新元缓冲区。这种方法使得 BoT 比多查询方法更便宜，并能产生更好的性能。此外，它不需要训练。

提高通用推理性能

为了提高大型语言模型生成逐步推理链的能力，我们可以旨在提高整体推理能力或提高每一步的生成。对于前者，Ranaldi 和 Freitas (2024) 提出通过添加第二步应用偏好优化来引导模型生成正确的 CoT 答案，从而改进从大型语言模型到小型语言模型的推理链蒸馏。J. C.-Y. Chen et al. (2024) 认为，大多数工作都专注于前向推理，即生成可以推断问题答案的推理步骤，并提出人类可以从逆向思维中受益，即从答案开始，推理以重建问题。因此，他们提出了一种用反向推理增强推理数据集的方法。通过这种方法，他们建议进行知识蒸馏，并使用多任务损失来教导学生模型生成前向和反向推理。通过这种方式训练，他们表明学生模型比仅训练前向推理取得了更好的性能。

关于每个推理步骤的生成，Lai et al. (2024) 提出对单个步骤而非完整链进行偏好优化。通过这种方式，可以提供细粒度的监督。此外，他们表明这种方法是数据高效的。类似地，Xu et al. (2024) 提出使用偏好优化与正确步骤和步骤中的细微错误，以减少算术运算等小错误的生成。

程序辅助语言模型

然而，保证每一步的正确性仍然具有挑战性。幸运的是，可以让大型语言模型调用外部工具，这可以提供确定性和正确性保证（针对工具输入），例如计算器或代码解释器（Schick et al. 2023; Lyu et al. 2023; W. Chen et al. 2023; Gao et al. 2023）。这种方法面临的挑战之一是如何在运行时扩展工具集。Mekala et al. (2024) 通过将工具调用生成分解为两个子任务来解决这个问题：i) 工具选择和 ii) 参数生成。此外，每个子任务之后都跟着一个验证步骤，以减少选择错误工具的可能性。然而，Y. Shen, Zhu, and Chen (2024) 表明，大型语言模型倾向于过度使用某些工具，并且通过校准工具使用，可以实现性能提升。使用工具与大型语言模型的另一个限制是，大多数工作都局限于特定场景。Shi et al. (2024) 通过提出自动工具链来解决这个限制。这种方法使大型语言模型能够通过代码使用工具链。具体来说，给定工具的输入-输出模式，大型语言模型会生成一个程序，该程序调用工具链，解析其输出，并得出问题的解决方案。最后，由于小型语言模型的大小，用工具增强它们仍然具有挑战性。W. Shen et al. (2024) 提出了一种用于工具学习的多大型语言模型代理框架。该框架首先在用于解决问题的工具数据集上对大型语言模型进行微调。然后，它复制这个训练过的大型语言模型的三份副本，并继续对每个副本进行微调，以完成三个互补的子任务：i) 规划器，ii) 调用器和 iii) 摘要器。因此，工具的使用是通过这三个大型语言模型之间的协作进行的。然而，这也增加了内存成本。使用 LoRA (Hu et al. 2022) 的小型实验表明性能低于完全微调，但仍具有竞争力甚至优于基线。

推理步骤的忠实性

关于所有这些针对大型语言模型的多步推理方法，一个重要的问题是它们是否忠实于大型语言模型的内部机制。Kudo et al. (2024) 通过分析训练好的分类器是否可以预测算术任务中变量的值来研究这个问题。他们表明，大型语言模型在生成思维链之前就得出了简单问题的答案，而对于更复杂的多步任务，大型语言模型在生成思维链之后才内部决定答案。因此，对于简单问题，思维链可能不忠实于内部达到答案的机制，而对于更复杂的问题，它可能更忠实。

推理成本

最后，考虑这些方法的推理成本也很重要，尤其是考虑到它们通常需要比常规思维链方法生成更多的 token。Y. Jiang et al. (2024) 提出根据每个 token 的重要性动态决定 Transformer 层面的执行。通过这种方式，文章等无信息 token 可以快速计算，而重要 token 可以进行完全计算。得益于此，他们可以显著降低计算成本。然而，跳过某些层可能导致 KV 缓存未命中。因此，他们提出动态修改注意力掩码以跳过这些 token 的缓存。

本次简要调查分析了大型语言模型问题解决中紧迫主题的最新研究，包括自我修正、逐步推理、工具和多智能体系统等主题。

参考文献

Akyurek, Afra Feyza, Ekin Akyurek, Ashwin Kalyan, Peter Clark, Derry Tanti Wijaya, and Niket Tandon. 2023. “RL4F: 生成带有强化学习的自然语言反馈以修复模型输出。”在由 Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki 编辑的第 61 届计算语言学协会年会论文集 (第一卷: 长论文), 7716–33. 加拿大, 多伦多: 计算语言学协会. https://doi.org/10.18653/v1/2023.acl-long.427。
Besta, Maciej, Nils Blach, Ales Kubicek, Robert Gerstenberger, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, 等人. 2024. “思维图: 用大型语言模型解决复杂问题。”人工智能协会会议论文集 38 (16): 17682–90. https://doi.org/10.1609/aaai.v38i16.29720。
Chen, Justin Chih-Yao, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, 等人. 2024. “逆向思维让大型语言模型更强大的推理者。”https://arxiv.org/abs/2411.19865。
Chen, Wenhu, Xueguang Ma, Xinyi Wang, and William W. Cohen. 2023. “思维程序提示: 分离数值推理任务的计算和推理。”机器学习研究学报. https://openreview.net/forum?id=YfZ4ZPt8zd。
Du, Yilun, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, and Igor Mordatch. 2024. “通过多智能体辩论提高语言模型的真实性和推理能力。”在 Ruslan Salakhutdinov, Zico Kolter, Katherine Heller, Adrian Weller, Nuria Oliver, Jonathan Scarlett, and Felix Berkenkamp 编辑的第 41 届国际机器学习会议论文集, 235:11733–63. 机器学习研究论文集. PMLR. https://proceedings.mlr.press/v235/du24e.html。
Estornell, Andrew, Jean-Francois Ton, Yuanshun Yao, and Yang Liu. 2024. “ACC-Debate: 一种多智能体辩论的行动者-评论家方法。”https://arxiv.org/abs/2411.00053。
Gao, Luyu, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, and Graham Neubig. 2023. “PAL: 程序辅助语言模型。”在第 40 届国际机器学习会议论文集. ICML’23. 美国夏威夷火奴鲁鲁: JMLR.org。
Hong, Ruixin, Hongming Zhang, Xinyu Pang, Dong Yu, and Changshui Zhang. 2024. “深入审视大型语言模型在逻辑推理中的自我验证能力。”在由 Kevin Duh, Helena Gomez, and Steven Bethard 编辑的 2024 年北美计算语言学协会章节会议: 人类语言技术 (第一卷: 长论文) 论文集, 900–925. 墨西哥城, 墨西哥: 计算语言学协会. https://doi.org/10.18653/v1/2024.naacl-long.52。
Hu, Edward J, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. “LoRA: 大型语言模型的低秩适应。”在国际学习表征大会. https://openreview.net/forum?id=nZeVKeeFYf9。
Huang, Jie, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, and Denny Zhou. 2024. “大型语言模型尚无法自我修正推理。”在第十二届国际学习表征大会. https://openreview.net/forum?id=IkmD3fKBPQ。
Jiang, Weisen, Han Shi, Longhui Yu, Zhengying Liu, Yu Zhang, Zhenguo Li, and James T. Kwok. 2023. “大型语言模型在数学验证中的前向-后向推理。”https://arxiv.org/abs/2308.07758。
Jiang, Yikun, Huanyu Wang, Lei Xie, Hanbin Zhao, Chao Zhang, Hui Qian, and John C. S. Lui. 2024. “D-LLM: 大型语言模型的令牌自适应计算资源分配策略。”在第三十八届神经网络信息处理系统年度会议。 https://openreview.net/forum?id=UIOjGTKHQG。
Kim, Geunwoo, Pierre Baldi, and Stephen McAleer. 2024. “语言模型可以解决计算机任务。”神经网络信息处理系统进展 36. https://arxiv.org/pdf/2303.17491。
Kudo, Keito, Yoichi Aoki, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Ana Brassard, Keisuke Sakaguchi, and Kentaro Inui. 2024. “是先思考后表达还是先表达后思考？大型语言模型何时在多步推理中得出答案。”https://arxiv.org/abs/2412.01113。
Lai, Xin, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, and Jiaya Jia. 2024. “Step-DPO: 大型语言模型长链推理的逐步偏好优化。”https://arxiv.org/abs/2406.18629。
Lyu, Qing, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, and Chris Callison-Burch. 2023. “忠实的思维链推理。”在由 Jong C. Park, Yuki Arase, Baotian Hu, Wei Lu, Derry Wijaya, Ayu Purwarianti, and Adila Alfa Krisnadhi 编辑的第 13 届国际计算语言学联合会议和亚太计算语言学协会第 3 届会议 (第一卷: 长论文) 论文集, 305–29. 努沙杜瓦, 巴厘岛: 计算语言学协会. https://doi.org/10.18653/v1/2023.ijcnlp-main.20。
Madaan, Aman, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, 等人. 2023. “Self-Refine: 通过自我反馈进行迭代改进。”在第三十七届神经网络信息处理系统大会. https://openreview.net/forum?id=S37hOerQLB。
Mekala, Dheeraj, Jason E Weston, Jack Lanchantin, Roberta Raileanu, Maria Lomeli, Jingbo Shang, and Jane Dwivedi-Yu. 2024. “TOOLVERIFIER: 通过自我验证实现工具泛化。”在计算语言学协会论文集: EMNLP 2024, Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen 编辑, 5026–41. 美国佛罗里达州迈阿密: 计算语言学协会. https://doi.org/10.18653/v1/2024.findings-emnlp.289。
Pan, Liangming, Michael Saxon, Wenda Xu, Deepak Nathani, Xinyi Wang, and William Yang Wang. 2023. “自动纠正大型语言模型: 调查多样自我纠正策略的现状。”arXiv 预印本 arXiv:2308.03188. https://arxiv.org/abs/2308.03188。
Paul, Debjit, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, and Boi Faltings. 2024. “REFINER: 中间表示上的推理反馈。”在由 Yvette Graham and Matthew Purver 编辑的第 18 届欧洲计算语言学协会会议 (第一卷: 长论文) 论文集, 1100–1126. 马耳他圣朱利安斯: 计算语言学协会. https://aclanthology.org/2024.eacl-long.67。
Ranaldi, Leonardo, and Andre Freitas. 2024. “自改进指令调优以对齐语言模型中的推理。”在由 Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen 编辑的 2024 年自然语言处理经验方法会议论文集, 2325–47. 美国佛罗里达州迈阿密: 计算语言学协会. https://doi.org/10.18653/v1/2024.emnlp-main.139。
Saunders, William, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, and Jan Leike. 2022. “用于协助人工评估的自批评模型。”arXiv 预印本 arXiv:2206.05802. https://arxiv.org/abs/2206.05802。
Schick, Timo, Jane Dwivedi-Yu, Roberto Dessi, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. 2023. “Toolformer: 语言模型可以自学使用工具。”在第三十七届神经网络信息处理系统大会. https://openreview.net/forum?id=Yacmpz84TH。
Shen, Weizhou, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, and Fei Huang. 2024. “小型语言模型是弱工具学习者：一个多语言模型代理。”在 Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen 编辑的 2024 年自然语言处理经验方法会议论文集, 16658–80. 美国佛罗里达州迈阿密: 计算语言学协会. https://doi.org/10.18653/v1/2024.emnlp-main.929。
Shen, Yuanhao, Xiaodan Zhu, and Lei Chen. 2024. “SMARTCAL: 一种自我感知工具使用评估和校准的方法。”在由 Franck Dernoncourt, Daniel Preoţiuc-Pietro, and Anastasia Shimorina 编辑的 2024 年自然语言处理经验方法会议：工业轨迹论文集, 774–89. 美国佛罗里达州迈阿密: 计算语言学协会. https://doi.org/10.18653/v1/2024.emnlp-industry.59。
Shi, Zhengliang, Shen Gao, Xiuyi Chen, Yue Feng, Lingyong Yan, Haibo Shi, Dawei Yin, Zhumin Chen, Suzan Verberne, and Zhaochun Ren. 2024. “工具链: 大型语言模型是一个自动多工具学习者。”https://arxiv.org/abs/2405.16533。
Shinn, Noah, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. 2024. “Reflexion: 带有口头强化学习的语言智能体。”神经网络信息处理系统进展 36. https://openreview.net/pdf?id=vAElhFcKW6。
Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed H. Chi, Quoc V Le, and Denny Zhou. 2022. “思维链提示引发大型语言模型的推理能力。”在神经网络信息处理系统进展中，由 Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho 编辑。 https://openreview.net/forum?id=_VjQlMeSB_J。
Welleck, Sean, Ximing Lu, Peter West, Faeze Brahman, Tianxiao Shen, Daniel Khashabi, and Yejin Choi. 2023. “通过学习自我修正生成序列。”在第十一届国际学习表征大会. https://openreview.net/forum?id=hH36JeQZDaO。
Weng, Yixuan, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Shengping Liu, Bin Sun, Kang Liu, and Jun Zhao. 2023. “大型语言模型通过自我验证成为更好的推理者。”在计算语言学协会论文集: EMNLP 2023, 由 Houda Bouamor, Juan Pino, and Kalika Bali 编辑, 2550–75. 新加坡: 计算语言学协会. https://doi.org/10.18653/v1/2023.findings-emnlp.167。
Xu, Kaishuai, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, and Wenjie Li. 2024. “微小错误很重要: 通过注入错误进行偏好学习的自我编辑。”ArXiv abs/2410.06638。
Yang, Ling, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, and Bin CUI. 2024. “思维缓冲区：带有大型语言模型的思维增强推理。”在第三十八届神经网络信息处理系统年度会议。 https://openreview.net/forum?id=ANO1i9JPtb。
Yao, Shunyu, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, and Karthik R Narasimhan. 2023. “思维树：用大型语言模型深思熟虑地解决问题。”在第三十七届神经网络信息处理系统大会。 https://openreview.net/forum?id=5Xc1ecxO1h。
Zhang, Yusen, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, and Sercan O Arik. 2024. “智能体链：大型语言模型在长上下文任务上的协作。”在第三十八届神经网络信息处理系统年度会议。 https://openreview.net/forum?id=LuCLf4BJsr。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论