🦸🏻#5:智能体系统的构成要素

社区文章 发布于2025年1月25日

AI智能体由什么驱动?


🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!


引言

我们以一种非传统的方式启动了智能体工作流系列,从开放性开始——这是一个为理解智能体系统动态潜力奠定基础的概念。在此基础上,我们介绍了基本词汇以及智能体的真实和潜在示例,以构建坚实的基础。现在,是时候深入探讨智能体系统的构建模块,探索使这些系统得以运行的核心组件了。要让一个智能体“协同工作”需要什么?

在今天的章节中

  • 智能体系统的不同框架
  • 关键组件(画像、知识、记忆、推理与规划、反思、行动)
  • 人机交互趋势(回顾“人机交互的相互心智理论”)
  • 结论
  • 额外福利:深入探索的资源

在早期,智能体更像是独立的机器人,每个都只为一小部分任务而设计。快进到今天,一切都围绕着创建互联的自主系统,充分利用人工智能不断增长的能力。

快速提醒一下,自主智能体是感知其环境、做出决策并采取行动以实现目标的实体。这些智能体在学习能力、物理性、专业化和任务复杂性方面各不相同。


📨 如果您想直接在收件箱中收到我们的文章,请在此订阅


在描述这些系统的核心组件时,有多种方法。例如,有些框架更详细,比如这个

image/png

另一些,例如LangChain的Harrison Chase,则采取了更示意性和简化的方法

image/png

无论采用哪种框架,AI智能体成功实现的关键都归结为几个关键组件 →

画像

画像是指为智能体分配角色以塑造其行为。它定义了智能体的身份、目标和界限,为与用户和系统的交互设定了指导方针。通过适应特定任务或用户偏好,画像确保智能体与其目的保持一致。

例如,“编程智能体”可以处理重复性编程任务、调试代码或创建新脚本,类似于GitHub Copilot。“内容创作智能体”可能起草文章或设计图形,而“项目管理智能体”可以优先处理任务和管理工作流。这些角色有助于智能体专注于其领域,提高效率并减轻用户的工作量。

知识

智能体的知识提供领域特定的专业知识,帮助它理解任务并根据事实数据做出决策。这通常通过使用预训练的AI模型、结构化知识库和持续学习机制来实现。

例如,GPT或Llama等模型支持自然语言理解,这在IBM Watson Health等工具中可见。知识库提供有组织的参考资料,例如用于案例法的法律数据库。持续学习允许智能体适应并保持相关性,确保它们有效处理行业特定任务。

记忆

乍一看,你可能会认为记忆只是知识的一部分。虽然它们密切相关,但记忆是一个独立的组件,有其自己的研究基础。智能体的知识库通常由语义记忆组成——关于世界的普遍事实、概念和规则,以及处理查询的指令。

另一方面,记忆超越了语义知识。它包括存储和检索特定于交互的数据的能力,例如来自先前查询的用户输入、过去的经验及其结果。这使得智能体能够随着时间的推移进行适应和改进。记忆系统,包括短期、长期、情景和语义组件,使智能体能够保留和重用过去交互的信息。

有效的记忆实现确保关键数据被保存和可访问,使智能体能够利用过去的洞察力为当前决策提供信息,保持对话的连续性,并增强用户交互。

推理与规划

为了有效执行任务并实现目标,智能体依赖于其推理和规划能力。这包括任务分解、分析任务以确定最佳行动方案,以及协调实现成功所需的步骤。通过应用逻辑推理,智能体使用AI算法和启发式方法来处理复杂情况,促进问题解决、任务分解和战略规划。目标管理起着关键作用,允许智能体根据重要性和可行性设定、优先排序和调整目标。

推理和决策是智能体功能不可或缺的一部分,逻辑规则和算法有助于得出结论并根据其知识库做出决策。在响应查询之前,智能体生成一系列操作以确保可靠的结果。通常采用反思、自我批评、思维链推理和子目标分解等规划技术,使智能体能够精确和适应性地操作。

反思

尽管我们在上一节中提到了反思作为一种技术,但Andrew Ng强调了它作为智能体工作流中独立类别的重要性。他将其确定为今年和明年推动AI工作流取得重大进展的四个关键设计模式之一。原因如下

反思使智能体能够处理反馈并从经验中学习。它是一种强大而直接的设计模式,通过允许模型批评和完善其输出,提高性能。模型不再仅仅依赖用户反馈,而是批判性地评估其响应,识别改进并相应地进行修订。例如,在生成代码时,模型可以检查其输出的正确性、风格和效率,然后对其进行优化以产生更好的结果。迭代反思通常会带来显著的增强。

除了自我反思,单元测试或网络搜索等外部工具可以进一步验证输出,帮助模型识别和解决错误。多智能体框架将这一概念推向更远——一个智能体生成内容,而另一个智能体对其进行批评,从而实现协作改进。反思在各种任务中都持续显示出其价值,包括编码、写作和问答。

行动

最后,智能体的行动能力将其内部推理与外部世界连接起来,使其能够通过精确执行实现目标。这涉及函数调用作为核心机制,智能体通过API、软件或硬件进行交互以执行任务,与外部工具或服务无缝集成。通过调用这些函数,智能体可以与用户、系统或其他智能体进行通信,同时遵循其计划的步骤来完成任务。有效行动涉及调用适当的方法、访问服务或数据库以及监控结果以指导未来的决策,确保智能体高效有效地运行。

连接这些组件需要一个统一的框架来支持智能体功能的所有方面。组件之间无缝的数据交换确保例如记忆输入推理,反思影响未来规划。将组件构建为模块化单元允许独立更新和改进。操作流程通常从画像开始,定义智能体的角色,然后是知识,提供基础信息。记忆保留经验,推理和规划设计策略,行动执行计划,反思评估结果以影响未来的推理和行为。

人机交互

在智能体架构中经常被忽视,但沟通在将智能体与其环境连接起来方面起着至关重要的作用。随着AI智能体越来越融入我们的日常生活,人机交互领域很快就会成为大家关注的焦点。

关于这个话题的一个有趣观点来自《人机交互的相互心智理论》这篇论文。佐治亚理工学院的研究人员提出了相互心智理论(MToM)框架,为增强人与AI之间的沟通提供了一种新颖的方法。该框架超越了传统的人机交互,强调一种协作模型,其中AI系统以更有意义和更直观的方式进行适应和参与。

image/png

受人类心智理论的启发,MToM框架强调了人类和AI如何相互构建和完善心智模型。通过关注相互解释和反馈,它使AI系统能够调整其响应,以更好地满足用户需求。通过构建、识别和修订阶段,这些系统对它们在交互中的作用形成了更直观的理解。

研究人员在实际环境中测试了这种方法,例如在线学习,其中AI教学助手根据学生输入调整其行为。他们还研究了用户对AI错误的反应,特别是当AI错误地表现个人特质时。他们的发现强调了信任和清晰沟通在弥合用户期望和AI能力之间差距的重要性。

这项工作为将AI系统设计为协作伙伴提供了宝贵的见解。通过改善人与AI之间的理解,这些系统可以支持教育和个人辅助等领域的应用,同时促进更负责任和包容的设计。

结论

通过将这些核心组件——画像、知识、记忆、推理/规划、反思和行动——连接起来,您可以创建一个能够进行复杂自主行为的AI智能体。每个组件都扮演着关键角色,它们的集成确保智能体能够在其环境中有效感知、决策和行动。在本系列的后续章节中,我们将单独探讨智能体工作流的每个核心要素,为您提供最新的实践和理论见解。

一个成功的智能体系统的关键在于这些组件如何良好地沟通和相互支持以实现预期目标。当我们探索使这些智能体得以运行的技术时,重点应扩展到智能体如何在互联生态系统中蓬勃发展——以及我们人类将如何与它们沟通和协作。

额外福利:深入了解智能体工作流的资源


感谢您的阅读!📨 如果您想直接在收件箱中收到我们的文章,请在此订阅


社区

注册登录评论