🦸🏻#11: 智能体如何规划和推理？

社区文章发布于 2025 年 2 月 24 日

我们将探讨推理领域的最新突破（DeepSeek！），以及实现精确性和适应性的主要规划技术

上周，我们探讨了生成式AI是否能够真正推理，并对人类思维模式进行了分类以评估AI的推理能力。今天，我们将讨论推理和规划。孤立的推理通常是不够的——AI还需要一个计划，说明如何应用该推理来实现目标。规划为推理过程提供了结构、顺序和目标导向。没有规划，即使是非常智能的模型也可能在复杂任务上表现不佳，产生部分或无组织的回应。大型语言模型（LLM）已经开始与规划机制进行接口，无论是内部（通过模拟规划的提示技术）还是外部（通过与专门的规划模块或工具API协作）。结果是AI智能体可以推断问题，然后以有组织的方式执行这些推理步骤。这种结合正在开启从个人助理到自主机器人的现实世界应用，其中推理指导行动的计划——这与人类智能中思想和行动并驾齐驱的方式非常相似。

例如，我们考察了DeepSeek为提升其模型推理能力所做的努力。本文篇幅较长，在文章末尾，您将找到一个关于推理和规划的详尽探索列表。随着该领域的快速发展，我们预计将出现新的突破，使AI智能体和系统能够更有效地推理，并以更高的自主性和精确度进行规划。这些进步可能导致AI不仅能够理解复杂场景，还能无缝执行多步骤任务，并随着新信息的出现而动态调整。潜在的应用？无穷无尽。

🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注！

本期内容包括什么？

简要历史概览
理解AI推理
推理领域的最新突破
没有规划，推理是不可能的
实现精确性和适应性的主要规划技术
总结
资源

对于本文中散布的拟人化术语，我们深表歉意——让我们同意它们都在““中。

简要历史概览

早期的人工智能研究将推理视为机器智能的关键，但通用推理的规模化在几十年来被证明是一个无法解决的挑战。从20世纪50年代到80年代末，符号AI试图明确地编码逻辑和规则，产生了能够进行定理证明和医学诊断的系统。然而，这些系统在现实世界的模糊性面前举步维艰，并且缺乏适应性。

接着是专家系统。虽然它们在狭窄的任务中表现出色——例如医学诊断（MYCIN）和计算机配置（XCON）——但它们依赖于手工制作的规则，无法泛化或适应新情况。

到了20世纪90年代，许多人工智能研究人员转向机器学习和统计方法，这些方法在模式识别方面表现出色，但在很大程度上避开了显式推理。像视觉和语音这样曾经被认为更难的问题，随着神经网络的出现取得了进展，而抽象推理和常识仍然未解决。这个时代突出了一个悖论（被称为“莫拉维克悖论”）：需要形式推理的任务（如下棋或解方程）对计算机来说比日常推理更容易。经典的深层推理有时可以通过暴力破解（深蓝通过探索数百万步击败了人类下棋）来解决，但复制人类儿童灵活的、知识驱动的推理则遥不可及。

这些年来，AI经历了多次寒冬（这是我们最喜欢的关于所有四个AI寒冬的文章），其中符号AI遭受了特别沉重的打击。然而，早期的符号推理努力奠定了重要的基础，现在正在混合方法中重新浮现，例如神经符号AI和检索增强生成（RAG）。这些方法将基于规则的推理与现代数据驱动技术相结合，突显了在开放世界中通用推理的难度（关于开放性的章节）。

理解AI推理

AI推理（关于推理和思维模式的更详细定义，请参考我们之前的文章）涉及根据事实、规则或证据得出结论。传统的关键类型包括：

演绎推理：将一般规则应用于具体案例（例如，“所有鸟都有翅膀；麻雀是鸟，所以它有翅膀”）。
归纳推理：从示例中推断出一般模式。
溯因推理：从不完整数据中做出有根据的猜测，例如诊断症状。
概率推理：使用概率管理不确定性，如贝叶斯推理。

AI涵盖了从严格逻辑到灵活模式识别的范围。虽然LLM并不能像人类一样真正“推理”，但它们在正确的提示下可以表现良好。多年来，纯粹的神经网络被认为缺乏高级推理能力，但最近的突破改变了这一点。像OpenAI的o1、o3和DeepSeek R1这样的模型展示了令人印象深刻的推理能力，使其成为一个热门话题。哪些创新和研究推动了这一进展？让我们深入探讨 →

推理领域的最新突破

思维链提示

一项重大突破是思维链（CoT）提示的使用，其中模型被引导在给出最终答案之前产生一系列中间推理步骤。LLM不再立即回答，而是在其输出中一步一步地解决问题（很像展示其工作过程）。例如，如果被问及一个复杂的数学应用题，模型会首先列出计算或逻辑步骤。这种方法显著提高了需要多步推理的任务的性能。实验表明，思维链提示使大型语言模型在处理复杂的算术、常识和符号推理任务方面远优于直接给出答案。本质上，提示“让我们一步一步地思考这个问题”鼓励模型分解问题，减少错误并使其推理过程透明化。这是一个令人惊讶的发现：尽管模型没有明确训练来推理，但仅凭提示就解锁了训练期间学到的潜在能力。CoT提示现在是许多LLM高级用途的基础，从数学问题求解器到逻辑谜题。它强调了提示的格式可以引发更“理性”的行为。（请也查阅这篇文章，其中我们探讨了其他推理方法，如Auto-CoT、Multimodal-CoT、Tree-of-Thoughts (ToT)、Graph-of-Thoughts (GoT)、Algorithm-of-Thoughts (AoT)、Skeleton-of-Thought (SoT)）。

自我反思和自我一致性

在CoT的基础上，研究人员引入了让LLM反思或完善其自身推理的技术。其中一种方法是自洽解码。模型不信任单一的思维链，而是生成多个不同的推理路径（通过采样不同的可能链），然后评估哪个答案在其中最一致。这减少了运气不好的错误路径导致错误答案的可能性。实际上，模型可能会为一道谜题产生例如五种不同的解决方案路径，然后查看哪个答案出现频率最高。这种对其自身推理的“多数投票”通常会产生更准确的结果。自我反思的另一个角度是让模型批判或检查其答案。在得出初始答案后，LLM可以被提示一步一步地检查解决方案是否存在错误（就像老师批改作业一样），然后尝试纠正发现的任何错误。这种迭代式的反思-改进循环已被证明可以提高诸如数学应用题和编码等任务的性能。其核心思想是通过允许模型重新考虑并收敛到更可靠的答案来弥补模型一次性处理的局限性。这种元推理技术使LLM的行为更像一个能够核对自己工作的人类推理者。基于CoT的研究是广泛的，并且每天都在带来新的改进（请参阅“资源”部分以深入了解）。

少样本和情境学习

推理领域的另一个飞跃是大型模型能够进行情境学习。通过少样本提示，我们提供一些任务示例（包括这些示例中的推理过程），模型无需任何参数更新即可推广到新问题。里程碑式的GPT-3论文《语言模型是少样本学习者》证明，一个足够大的模型（拥有超过1000亿个参数）可以仅通过示例来执行新任务。对于推理而言，这意味着我们可以在提示中向模型展示几个逻辑演绎或类比推理的演示。然后模型会掌握这种模式并加以应用。这是开创性的，因为它是一种元学习形式：模型实际上是即时地弄清楚如何对任务进行推理。例如，给定几个涉及地理推理的问答对（“问：如果X在Y的北方，Y在Z的北方，那么X在Z的北方吗？答：……（带解释）”），模型可以推断出推理模式。少样本示例通常包含中间步骤（很像思维链），这引导模型为查询生成类似的步骤。本质上，情境学习无需显式重新训练即可解锁推理——模型利用其大规模训练期间吸收的模式。这种能力是LLM被称为基础模型的原因之一：它们可以通过条件化上下文来适应许多任务（包括推理密集型任务）。

神经符号方法

近期研究的一个重要趋势是符号推理元素的复兴，并将其与神经网络结合，通常被称为神经符号AI。研究人员不再将符号（基于逻辑的）和神经网络方法视为对立，而是找到方法将它们整合起来，以利用各自的优势。现代LLM提供了神经部分——灵活的模式识别、对原始语言的理解以及从数据中学习到的知识。符号部分则通过引入形式规则、离散规划算法或知识图谱来确保逻辑一致性和事实基础。例如，LLM可能会生成一个候选推理路径，但符号逻辑引擎会检查其有效性，或者知识库提供要使用的事实断言。这种混合方法旨在实现更可靠的推理。神经符号系统可以，例如，通过让神经组件解释谜题的语言并提出动作，而符号求解器严格确保这些动作遵循游戏规则来解决谜题。我们在视觉推理（神经网络解释图像，符号程序对场景进行推理）和复杂问答等领域看到了这一点。神经符号AI的吸引力在于它结合了神经网络的灵活性和学习能力与符号逻辑的精确性和严谨性。最近的项目（如IBM的神经符号系统或将LLM与Cyc常识数据库连接的努力）表明，在单独使用任何一种方法都无法解决的任务上，性能得到了提升。在LLM的背景下，神经符号方法可能意味着使用LLM将问题转换为求解器可以处理的形式表示，或者反过来使用逻辑规则来限制LLM的输出。这种混合推理的复苏使我们更接近于能够解释其决策（归因于符号组件）并处理新颖、非结构化问题（归因于神经组件）的AI。这是实现鲁棒AI推理的一条有前景的道路。

没有规划，推理是不可能的

推理和规划是智能行为的两个方面。有效的推理需要一个结构化的计划，特别是对于复杂的、多步骤的问题。如果推理是关于弄清楚事情，那么规划就是关于弄清楚如何去做。在人工智能中，任何非平凡的推理任务——无论是证明定理、解决谜题还是回答多部分问题——都受益于规划方法。没有规划，推理过程可能会变得随意、停滞不前或遗漏考虑。人类问题解决者对此心知肚明：为了解决一个难题，我们通常会勾勒一个计划（“首先，我要做X，然后考虑Y……”）。这同样适用于AI系统；计划为推理步骤提供了支架。

传统上，AI规划指的是找到一系列动作来实现目标。当目标是“得出正确答案”或“证明一个陈述”时，这些动作就是推理步骤。例如，自动定理证明器会规划以何种顺序应用哪些引理或公理——这是在逻辑推理空间中进行搜索（证明的计划）。一个更日常的例子：考虑一个语言模型，其任务是回答“如何不坐飞机从纽约到波士顿？”。该模型应该规划一个思维链：它可能会首先考虑地面交通选项，然后一步步地推理火车与自驾的优劣，最后得出答案。如果它直接跳到答案而不勾勒这个内部计划，它可能会忽略约束（例如，它可能会建议乘坐汽车，但忘记考虑时间或成本）。因此，即使在LLM的内部，规划推理路径也能带来更好的结果。

现代LLM越来越多地被用作智能体，这意味着它们不仅仅是孤立地生成文本——它们在环境中采取行动或调用工具，规划一系列操作以满足用户的请求。在这种设置中，LLM的推理循环与规划交织在一起。一个突出的例子是ReAct框架（推理+行动），其中模型交替进行思考和行动。在这里，LLM可能会推理“我需要更多关于X的信息”（推理），然后计划下一步“所以我应该调用一个网络搜索工具”（行动）。在获得结果后，它再次推理结果如何融入解决方案，然后计划另一步。这个循环持续进行，有效地说明了推理驱动规划，而规划指导推理。根据研究人员的说法，这种方法使LLM智能体能够解决纯粹基于文本的模型无法解决的决策问题，通过将推理与显式行动规划相结合。

实际应用展示了推理和规划的紧密结合。例如，在机器人领域，控制机器人的AI必须推理目标，并规划一系列运动动作来实现这些目标。以PaLM-SayCan为例，这是一个使用大型语言模型（PaLM）帮助机器人在厨房中规划“给我拿一杯饮料”等任务的系统。LLM推理需要哪些步骤（去冰箱、打开、拿罐子等），而低级规划器/执行器则检查哪些动作对机器人是可行的并执行它们。短语“将语言基于机器人能力”描述了这一点：语言模型的高级推理由一个了解机器人能力的规划器所支持，从而实现了成功完成物理任务的长期规划。如果没有结构化的规划组件，语言模型可能会提出机器人无法执行的动作，或者尽管抽象推理正确，但却弄错了顺序。因此，规划是将推理转化为成功执行的支柱。

另一个例子是复杂的流程自动化。想象一个AI助手管理你的日历和电子邮件。如果你让它“下周与Alice安排一次会议，并准备我们上一个项目的摘要”，助手（由LLM驱动）必须推断出需要什么——查找Alice的可用时间、回忆项目详情等等——而且至关重要的是，规划一系列步骤：检查日历、起草电子邮件、检索项目笔记、撰写摘要。像HuggingGPT这样的高级系统通过使用LLM（ChatGPT）作为控制器来规划调用哪些专业模型或工具来完成每个子任务，从而展示了这一原则。在HuggingGPT中，LLM将一个复杂的请求分解成多个部分（规划），将每个部分委托给适当的工具或模型（例如，用于图像任务的视觉模型，用于计算的数学求解器），然后整合结果。这种规划驱动的协调是解决多方面任务的关键。LLM本身可以推理请求，但它需要一个计划来协调所有步骤来完成它。

实现精确性和适应性的主要规划技术

为了构建既能精确运行又能适应变化的AI智能体（包括那些使用LLM的智能体），研究人员借鉴了丰富的规划技术。每种技术在智能体如何决策和执行其行动方面都有其优势。让我们探讨一些关键的规划方法以及它们如何与基于LLM的系统集成：

经典AI规划（审慎规划）

经典规划通过搜索一系列动作来解决问题，这些动作将初始状态转换为目标状态。这些规划器依赖于预定义的世界模型（状态、动作和效果），使用STRIPS或PDDL等框架进行问题描述。深度优先搜索、广度优先搜索和A*等算法用于探索可能的动作序列。当条件满足时，经典规划器能够高效地生成精确、最优的计划，从而实现诸如仓库机器人等任务。

在基于LLM的系统中，经典规划增加了结构和可靠性。一种方法，即LLM-to-planner，让LLM将自然语言请求翻译成形式化的规划问题（例如，PDDL），然后由经典规划器解决。输出——一系列动作——可以被执行或转换回自然语言。最近的研究表明，将LLM的灵活性与符号规划的严谨性结合可以改善结果：LLM处理开放式请求，而规划器确保逻辑正确性。

主要限制是依赖于正确的动作模型——如果世界发生变化或模型不完整，计划可能会失败。在动态环境中，需要重新规划或学习。

强化学习（通过奖励学习规划）

强化学习（RL）采用不同的方法：智能体通过与环境交互并以奖励形式接收反馈来学习决策序列。随着时间的推移，智能体学习一种策略（从状态到动作的映射），从而最大化累积奖励。实际上，智能体通过试错隐式地进行规划，而不是使用显式世界模型。RL对于我们没有完美环境模型或环境过于复杂无法进行分析规划的问题非常强大（例如在许多游戏、机器人或经济模拟中）。RL在规划方面的经典成功案例是DeepMind的AlphaGo，它掌握了围棋。AlphaGo将深度神经网络与规划算法（蒙特卡罗树搜索MCTS）相结合，并从自我对弈中学习。神经网络通过预测有希望的移动和位置来指导搜索（从而减少搜索空间），而MCTS算法则明确地提前规划几步，评估潜在结果。这种学习和规划的协同作用实现了超人的表现，说明了强化学习如何与规划算法携手合作以实现精确性。

在LLM的背景下，强化学习以几种方式出现。一种是来自人类反馈的强化学习（RLHF），用于微调像ChatGPT这样的模型。在这里，“规划”体现在参数更新而不是实时决策——模型学习如何选择其词语（动作）以取悦用户（奖励）。但更具体地说，可以使用RL来训练一个将LLM作为其决策过程一部分的智能体。例如，智能体可以使用LLM来想象一个行动的后果（一种心理模拟），然后使用RL来决定哪个行动能产生最佳结果。反之，在一个模拟环境（例如，一个基于文本的游戏或一个网络导航任务）中 செயல்ப 的LLM智能体可以通过RL进行改进，通过尝试行动，观察结果，并学习策略。RL的优势在于其适应性：智能体不需要预先构建的世界模型；即使在复杂、不确定的环境中，它也能学习适当的行为。这使得它非常适合对话管理（学习如何在对话中做出响应以获得良好结果）或机器人控制（适应硬件怪癖或意外障碍）等场景。然而，纯RL可能样本效率低下（需要多次试验），并且缺乏最优性保证。在实践中，将RL与规划或基于模型的方法结合可以产生更好的精度。现代技术，如基于模型的RL，明确地学习环境模型并在其中进行规划，将经典规划思想与学习相结合。

DeepSeek证明，强化学习可以推动AI复杂推理能力的提升，而无需庞大的监督数据集。

DeepSeek如何利用强化学习（RL）改进推理

DeepSeek 利用强化学习（RL）作为核心机制，以增强其大型语言模型（LLM），特别是DeepSeek-R1的推理能力。与传统AI模型严重依赖大量标记数据集进行监督微调不同，DeepSeek的方法侧重于通过基于RL的反馈机制进行自我改进。

DeepSeek RL训练的关键方面

R1-Zero中的纯RL训练

DeepSeek的初始模型R1-Zero完全通过RL训练，没有任何监督微调。
该模型通过与环境（数学问题、逻辑谜题、编码挑战）交互并获得正确答案的奖励来学习推理模式。
虽然它展示了涌现的思维链推理和自我纠正能力，但由于缺乏明确的语言指导，其回应往往难以阅读且缺乏连贯性。

DeepSeek-R1中的多阶段RL管道 为了提高清晰度和可用性，DeepSeek引入了多阶段RL训练方法

冷启动微调：模型首先在一小组精选的推理示例上进行训练，以建立结构化推理模式。
基于RL的任务掌握：模型随后通过RL在推理密集型任务上进行训练，奖励函数旨在鼓励正确性和清晰度（避免语言混杂或不连贯的步骤）。
自蒸馏和拒绝采样：过滤并使用生成出的最佳答案来完善模型的推理技能，从而强化结构化问题解决。
对齐RL（最终优化）：最终的RL阶段优化了模型与用户安全、有益地交互的能力，确保了用户友好的行为。

DeepSeek RL方法的核心创新

基于奖励的推理优化：与传统的人类反馈强化学习（RLHF）依赖人类偏好模型不同，DeepSeek优先考虑基于任务的RL奖励，优化模型以提高问题解决效率和连贯的逐步推理。
自我纠正和自主决策：通过迭代RL训练，DeepSeek-R1发展了在推理过程中识别和纠正错误的能力，这是一种增强适应性的涌现特性。
高效的RL优化：虽然一些AI模型依赖蒙特卡罗树搜索（MCTS）进行规划，但DeepSeek发现无模型RL（直接策略优化）在大型推理任务中更具可扩展性。

难怪，DeepSeek及其模型的结果震惊了世界。

分层规划（分层策略）

复杂的任务通常具有自然的层级结构：您可以将高层目标分解为子目标或子任务，然后逐一解决。分层规划通过在多个抽象级别进行规划来利用这一点。在经典规划中，这被形式化为分层任务网络（HTN）规划，您拥有可以递归分解为更小任务的高层任务。例如，高层任务“做饭”可能会分解为“煮意大利面”和“准备酱汁”，这些又进一步分解为“烧水”、“切番茄”等基本动作。通过首先在高层解决计划（忽略低层细节），然后对其进行完善，规划器可以比平面规划更有效地处理非常复杂的任务。这类似于我们解决问题的方式：首先勾勒一个计划，然后填充细节。分层规划提供了适应性，因为如果一个子计划失败，您通常可以重新规划该部分，而无需放弃整个计划。它也与组织或多智能体系统（战略规划与战术执行）的运作方式很好地契合。

在基于LLM的系统或智能体中，分层规划可以通过在不同角色或阶段使用LLM来实现。一种有趣的方法是让LLM首先生成一个自然语言的高层计划，然后根据该计划逐步执行或提示自身。这有时被称为计划-解决策略。例如，给定一个复杂问题，LLM可能会输出：“计划：为了回答这个问题，我将1）收集关于X的事实，2）分析X如何影响Y，3）得出关于Z的结论。”然后，智能体将逐一执行每个步骤，可能由LLM执行或调用工具。这类似于分层任务分解。它可以使推理过程更透明、更可控。如果答案错误，我们通常可以找出哪个步骤失败了。存在一些提示工程技术，如“从少到多提示”（Least-to-Most Prompting），明确要求模型将问题分解为子问题并逐一解决——这实际上是从更简单的子目标到最终目标的分层。分层规划也用于多智能体设置，其中一个领导智能体规划顶层任务，而工人智能体处理具体细节。