🦸🏻#8: 重写知识规则:现代代理如何学会适应

社区文章 发布于 2025 年 1 月 31 日

探索现代人工智能代理从静态规则到动态推理的转变

在之前的剧集中,我们探讨了剖析在代理工作流中的关键作用,探究了代理如何建立对其身份、行为、环境、性能和资源的认知。剖析成为了连接知识、记忆和行动的纽带,将代理从静态系统转变为能够进行细致决策的动态协作体。使它们成为一种数字人格。

在本集中,我们将把重点转向知识——这种数字人格专业知识的基础。代理如何“知道”它所知道的?其专业知识背后的机制是什么,它们又如何影响其行为?让我们拭目以待。准备好迎接一场引人入胜的历史深度探索吧!


🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!


今天这集有什么内容?

对于本文中散布的拟人化术语,我们深表歉意——让我们同意它们都在““中。

代理仍然是基于知识的吗?

斯图尔特·罗素(Stuart Russell)和彼得·诺维格(Peter Norvig)在《人工智能:现代方法》(Artificial Intelligence: A Modern Approach)中定义的“基于知识的代理”概念,标志着人工智能领域的一个转折点。他们的愿景清晰而逻辑:代理感知环境,做出决策,并以整洁的程序循环执行这些决策。这是一个组织精美的系统——但它是为变化不大的世界而构建的。

当今世界不再遵守这些规则。代理不再局限于固定序列或可预测的环境。相反,它们已经从遵循程序性知识转向更具声明性的方法:定义结果,而不是步骤。想象一下,你告诉代理“我需要一个蛋糕”,然后它会想出剩下的部分——无论是获取食材、寻找食谱,甚至是从面包店订购。

正是这一飞跃,使现代代理能够在混乱、不可预测的环境中茁壮成长。它们不再遵循静态规则,而是适应当前,即时学习,并动态协作。

从显式知识到学习到的表示

一个关键的区别在于现代代理管理知识的方式。传统框架依赖于显式编程的规则,而现代代理——特别是那些由大型语言模型(LLM)驱动的代理——使用学习到的表示。现代代理更像是从小就沉浸在语言环境中的多语言者。它们不仅知道事实——它们还理解模式。

当代代理的目标不是基于规则的决策树,而是学习模式并预测突发行为,使系统能够动态地确定如何实现其目标。这种差异允许任务分解、迭代细化和多代理集成——所有这些都是当今代理系统的标志。

有时,作为代理构建者的你的角色是教导你的代理,它认为正确的东西实际上可能是错误的。例如,在电视节目表中,“11月的第一周”实际上可能始于10月下旬。你的工作是指出这一点,让代理自己弄清楚如何相应地调整其理解。

这种转变——从显式规则到学习到的表示——正是当今代理能够即兴发挥、适应并擅长其未明确编程的任务的原因。

约翰·麦卡锡的“具有常识的程序”

有趣的是,现代代理的许多定义早在大型语言模型和所有这些炒作之前,就已经在约翰·麦卡锡1958年开创性的论文《具有常识的程序》中预见到了。麦卡锡设想了一个“建议接受者”系统,能够基于声明性知识进行推理、学习和行动——实质上,这是当今代理工作流的早期蓝图。

  • 使用声明性知识进行推理:麦卡锡的系统编码了关于世界的事实,使其能够自主推导出新的见解。
  • 学习与适应:他强调了代理随着时间获取新抽象和概念的重要性,使其能够随环境演变。
  • 可操作的知识:知识不仅仅是存储;它驱动决策和现实世界的行动,在推理和行为之间形成一个反馈循环。

image/png 图片来源:麦卡锡的原始论文

该论文中“去机场”的例子展示了代理如何利用逻辑规则和可用知识将一个高层次目标分解为更小的任务。这个过程正是当前代理系统所试图实现的,代理将复杂问题分解为可管理的子任务。

虽然技术已经远远超出了麦卡锡所能想象的系统,但他的原则仍然具有惊人的相关性。重读麦卡锡的著作,感觉就像在读一个来自未来的时间胶囊。这提醒我们,人工智能的根基比我们通常意识到的要深厚得多。

今天的知识是什么样子?

现代代理不仅仅是“知道”——它们以模仿人类智能的方式处理知识。我们不只是将事实塞进一个系统——最重要的是要使知识动态化、适应性和可操作性。让我们探讨现代代理工作流中其他重要类型的知识。

结构知识:建立连接

这是将一切联系在一起的支架——概念如何关联和互动。早期系统使用僵硬的语义网络,而现代代理则使用神经架构即时学习关系。例如,医疗诊断代理不仅知道“发烧=流感”。它从临床数据中学习概率关系,使其能够考虑罕见或复杂的疾病。

元知识:了解你所知道的

这就是事情变得元的地方。现代代理不仅仅是信息的存储库,它们还意识到自己的知识。这种意识使它们能够评估推理过程,识别差距,并寻找缺失的信息。例如,语言模型在遇到模棱两可的输入时可能会请求澄清,这表明它对其局限性具有自我意识。

启发式知识:学习游戏规则

启发式方法——那些便捷的解决问题捷径——过去是由人类手工制作的。曾经仅限于静态经验法则的启发式知识,现在变得更加动态。像AlphaZero这样的系统通过自学来发展自己的策略,超越了国际象棋等游戏中数百年来人类设计的启发式方法。这种演变反映了现代代理如何学习泛化和适应新的挑战。

现代代理中知识形式的融合

现代人工智能系统的真正力量不仅在于其单独的知识类型,还在于这些知识形式如何相互作用和相互加强。思考一个现代语言模型如何处理编写代码这样的复杂任务

结构知识提供基础,表示编程概念、语法模式和常见架构设计之间的关系。元知识允许系统评估其对不同编程范式和库的理解,并在需要时可能请求澄清。启发式知识指导高效的问题分解和解决方案策略。所有这些都在声明性框架内运行,系统专注于期望结果而不是预定步骤。

这种集成使得传统系统中不可能实现复杂行为

  • 基于上下文和可用资源的动态任务分解
  • 结合多种知识形式的自适应问题解决策略
  • 不同专业组件之间的无缝协作
  • 根据反馈和中间结果实时调整方法

平衡基于知识的系统和学习型系统

虽然现代人工智能已经转向学习表示,但纯粹的基于知识的方法在特定领域仍然至关重要。然而,这种区别正变得越来越模糊。许多当代系统采用混合方法,结合两者的优点

  • 医疗诊断系统保留了用于关键决策的显式规则库,同时使用学习到的模式来识别细微的症状关系
  • 工业控制系统将传统安全约束与学习到的优化策略相结合
  • 金融合规系统使用显式规则来满足法规要求,同时利用模式识别来检测欺诈
  • 法律推理系统将结构化论证与学习到的语言理解相结合

这种混合方法代表了一种成熟的理解,即不同类型的知识服务于不同的目的,关键在于知道何时使用每一种知识。

知识的机制

我们探讨了从程序性知识到声明性知识的转变,并了解了与当前代理系统相关的其他类型的知识。但是,如果知识是燃料,那么这些就是驱动它的引擎:表示、获取和集成。

  • 表示——知识的结构方式。早期系统依赖于语义网络等静态工具,而现代代理则使用知识图和神经嵌入等动态框架。例如,谷歌的知识图连接实体和关系以情境化搜索查询,而神经模型则编码复杂模式以进行细致推理。
  • 获取——知识的学习方式。强化学习等技术允许代理通过试错来完善策略,而少样本学习则使它们能够以最少的示例进行适应。自监督学习通过预测缺失数据来训练模型,而交互式学习则通过实时反馈来完善知识,使代理在动态环境中具有高度适应性。
  • 整合——如何将所有信息整合在一起。它是一个将结构化、非结构化和多模态等多种知识来源合成为连贯见解,从而推动决策制定的过程。例如,气候分析代理将卫星图像、历史天气模式和社会经济数据相结合,以预测灾害风险。这种合成使得代理能够驾驭复杂的解决问题空间,从自动驾驶汽车融合传感器输入到医疗人工智能从多模态数据诊断疾病。

这些机制共同形成了一个循环:表示结构化知识,获取扩展知识,集成应用知识。这种协同作用使代理能够动态地理解、学习和行动,以智能和适应性解决复杂的现实世界挑战。

历史基础:两个框架的故事

如果我们不放慢脚步,仔细回顾过去,那我们就不是图灵邮报了,嗯……又一次 :) ——当今创新的根源就躺在那里。许多近期关于代理和代理工作流的文章和论文仅仅触及表面,常常将该领域标记为新兴领域。但这远非准确,约翰·麦卡锡不仅为此倾注心血——代理系统几十年来一直是活跃研究和开发的主题!这些早期工作为我们今天所看到的一切奠定了基础。随着我们更深入地进入代理人工智能时代,重温这些基础并理解将我们带到这里的根源至关重要。虽然涵盖所有这些内容会太多,但我们选择了一些在很大程度上被遗忘但却对该领域产生了重大影响的几个。

在20世纪80年代,出现了两个关键的框架,每个框架都解决了代理行为中独特但重叠的方面:Fagin、Halpern和Vardi的知识结构以及Moore的知识与行动理论。这些框架是同一枚硬币的两面。Fagin及其同事构建了工具来建模和分析知识的分层、递归性质,而Moore则增加了行动的关键维度——展示了知识如何随着代理与世界的互动而演变。

知识建模:静态框架

Fagin、Halpern 和 Vardi 的工作引入了知识深度的概念,这是一种优雅的方式来表示理解分布式系统所需的嵌套推理层。想象你是一个网络中的处理器,试图与其他人达成共识。仅仅知道自己的状态是不够的——你还必须推理其他人知道什么,他们知道你对知识的了解,等等。这些无限回归不仅仅是思想实验;它们对于解决拜占庭协议等问题至关重要,在这些问题中,代理需要在通信故障甚至恶意行为者的情况下进行协调。

为了解决这个问题,Fagin、Halpern 和 Vardi 引入了知识结构,它以归纳方式构建知识

image/png

他们的知识结构提供了一种系统的方法来处理这种复杂性。通过层层构建知识,从“原始现实”到越来越递归的状态,他们提供了一种理解多代理推理的方法。这是一个知识上的飞跃,将理论计算机科学与分布式计算、密码学和数据库理论等实际应用联系起来。

但这个静态框架有一个局限性:它建模了代理在给定时间点知道什么,但很少说明它们如何获取或应用这些知识。这就是摩尔的贡献发挥作用的地方。

动态视角:知识与行动相遇

摩尔的知识与行动形式理论通过将代理所知与它们所能做的事情联系起来弥补了这一空白。在他的框架中,知识不仅仅是一个静态的存储库,而是一个动态过程,通过行动和结果不断被塑造。

例如,考虑一个负责组装产品的机器人代理。在行动之前,机器人必须验证所有必要的组件都已存在(知识先决条件)。在工作过程中,它会获得新的知识:组件是否按预期匹配,工具是否正常运行等等。每个行动都会生成新的信息,这些信息会输入到机器人的决策循环中,从而在知识和行动之间形成一个持续的反馈循环。

知识与行动之间的这种相互作用形成了反馈循环

image/png

这种动态方法对于理解现代代理工作流至关重要,在这些工作流中,代理不仅推理其环境,而且通过其行动积极塑造环境。在摩尔的逻辑中,行动是转换代理知识状态的操作符。这为推理多步骤工作流打开了大门,其中代理在一个阶段的选择取决于早期行动的结果。

统一视角

这两个框架——一个静态,一个动态——共同为代理系统提供了全面的视角。Fagin 等人提供了关于知识状态推理的框架,而 Moore 则使我们能够理解这些状态如何响应行动而演变。这种相互作用是现代人工智能系统的核心,从协作机器人到自动驾驶汽车。

想象一辆自动驾驶汽车驶近一个有另一辆车的十字路口。使用Fagin的框架,我们可以正式表示复杂的知识结构,例如“自动驾驶汽车知道另一辆司机知道有停车标志”或“两辆车之间都知道先行权规则适用”。然后,摩尔的动态逻辑允许我们推理特定行动(例如汽车发出转向信号)如何创建新的知识状态:“发出转向信号后,自动驾驶汽车打算转向成为共同知识。”所有这些都始于20世纪80年代。

总结

关于知识,有太多话要说——其历史的深厚和思考方式的多样性令人惊叹。我们没有试图在此捕捉每一个细节或角度。相反,我们的目标是致敬数十年来严谨的研究和理论工作,这些工作将我们带到了今天,并强调了从传统的、基于规则的代理到自适应的、学习型代理的范式转变。

令人着迷的是,我们现在正在构建的许多东西都与很久以前提出的想法不谋而合。从程序系统到声明式、动态框架的转变,不仅推动了代理工作流的发展;它还改变了代理推理、学习和行动的方式,其灵活性曾经遥不可及。

展望未来,很明显,真正的魔力在于知识、记忆、推理与规划、反思和行动之间的相互作用。在下一集中,我们将探索记忆——这个机制让代理能够将时间线上的点连接起来,以有意义的、情境化的方式应用它们所知道的一切。代理智能核心的旅程只会变得越来越有趣。

资源

用于撰写本文的资源

图灵邮报的资源

我们还要感谢Will Schenk,他提供了宝贵的反馈,并帮助我们将这一理论付诸实践。

社区

注册登录发表评论