人工智能代理已来。接下来会怎样?

发布于 2025 年 1 月 13 日
在 GitHub 上更新

Huggy the Pooh

引言

大型语言模型 (LLM) 能力的突然快速进步——例如流利地书写句子和在基准测试中取得越来越高的分数——促使人工智能开发者和企业都开始展望下一步:即将出现什么样的颠覆性技术?最近兴起的一项技术是“人工智能代理”,即能够在数字世界中采取与部署者目标一致行动的系统。当今大多数人工智能代理都是通过将大型语言模型 (LLM) 整合到可以执行多种功能的更大系统中而构建的。这一波新技术的根本思想是,计算机程序不再需要作为人类控制的工具,局限于专门任务:它们现在可以在没有人为干预的情况下组合多项任务。

这种转变标志着系统能够在一个不确定环境中创建特定情境计划的根本性转变。许多现代人工智能代理不仅仅执行预定义的操作,而是被设计用于分析新情况、制定相关目标并采取以前未定义的操作来实现目标。

在本文中,我们将简要概述人工智能代理是什么,并详细阐述其中涉及的伦理价值,记录人工智能代理的收益与风险之间的权衡。然后,我们提出了未来的发展路径,以期实现人工智能代理尽可能造福社会的未来。有关代理的技术方面介绍,请参阅我们最近的开发者博客文章。有关现代生成式人工智能之前编写的代理介绍(大部分仍然适用),请参阅Wooldridge 和 Jennings,1995

我们的分析表明,对人的风险随着系统的自主性水平而增加:用户放弃的控制越多,系统产生的风险就越大。尤其令人担忧的是,人工智能代理开发所带来的好处(例如让开发者不必预测系统可能采取的所有行动)也会导致个人**安全**风险。更复杂的问题是,一些安全危害会为其他类型的危害(例如隐私安全危害)打开大门,并且对不安全系统不当信任会引发更多危害的连锁反应。因此,我们建议不开发完全自主的人工智能代理。例如,可以编写和执行自己代码(超出开发者控制的受限代码选项)的人工智能代理将拥有凌驾于所有人类控制之上的能力。相比之下,半自主人工智能代理可能具有利大于弊的优点,具体取决于自主性水平、系统可执行的任务以及个人对其控制的性质。现在我们深入探讨这些主题。

什么是人工智能代理?

概述

对于什么是“人工智能代理”目前没有明确共识,但最近推出的人工智能代理的共同点是它们具有“代理性”,即它们具有一定程度的**自主性**:在给定目标规范的情况下,它们可以将其分解为子任务,并在无需人工直接干预的情况下执行每个子任务。例如,一个理想的人工智能代理可以响应“帮我写更好的博客文章”这样的高级请求,通过独立地将此任务分解为:从网络上检索与您以前的博客主题相似的文章;创建包含新博客文章大纲的文档;并提供每篇文章的初步内容。人工智能代理的最新工作使得软件能够比过去实现更广泛的功能和更灵活的使用方式,最近部署的系统涵盖了从组织会议(示例1示例2示例3示例4)到创建个性化社交媒体帖子(示例)等各种功能,而无需明确的执行指令。

我们为本通讯调查的所有近期推出的人工智能代理都建立在机器学习模型之上,并且大多数都专门使用**大型语言模型**(LLM)来驱动其行动,这是一种计算机软件的新颖方法。除了建立在机器学习之上,当今的人工智能代理与过去的代理也有相似之处,在某些情况下,它们实现了以前对代理可能是什么样子的理论构想:自主行动、展示(感知到的)社交能力,以及恰当地平衡反应性和主动性行动。

这些特性有不同的程度:不同的人工智能代理具有不同级别的能力,并且可以单独工作或与其他代理协同工作以实现目标。因此,人工智能代理可以被称为或多或少自主(或*代理性*),并且某物作为代理的程度可以被视为一个连续的谱系。这种人工智能代理的流动性概念导致了最近关于人工智能代理是什么的混淆和误解,我们希望在此澄清。下表详细说明了人工智能代理的不同级别。

代理级别 描述 谁在控制 名称 代码示例
☆☆☆☆ 模型对程序流无影响 👤 开发者控制系统可执行的所有可能功能以及执行时间。 简单处理器 print_llm_output(llm_response)
★☆☆☆ 模型决定基本控制流 👤 开发者控制系统可执行的所有可能功能;系统控制何时执行每个功能。 路由器 if llm_decision(): path_a() else: path_b()
★★☆☆ 模型决定函数如何执行 👤 💻 开发者控制系统可执行的所有可能功能以及执行时间;系统控制它们如何执行。 工具调用 run_function(llm_chosen_tool, llm_chosen_args)
★★★☆ 模型控制迭代和程序延续 💻 👤 开发者控制系统可执行的高级功能;系统控制要执行哪些、何时执行以及如何执行。 多步骤代理 while llm_should_continue(): execute_next_step()
★★★★ 模型编写并执行新代码 💻 开发者定义系统可执行的高级功能;系统控制所有可能的功能以及执行时间。 完全自主代理 create_and_run_code(user_request)

表1. 使用机器学习模型(例如LLM)的系统如何或多或少地具有代理性的一个示例。系统还可以组合成“多代理系统”,其中一个代理工作流触发另一个代理,或多个代理协同工作以实现一个目标。
改编自smolagent 博客文章,并针对此博客文章进行了修改。

从伦理角度来看,理解自主性连续统一体在人类如何将控制权让渡给机器方面也很有用。系统越自主,我们让渡的人类控制权就越多。

在本文中,我们使用了一些拟人化的语言来描述人工智能代理,这与当前描述它们所使用的语言一致。正如历史文献中也指出的那样,使用通常用于人类的心理语言来描述人工智能代理——例如具有知识、信念和意图——可能会导致无法适当地告知用户系统能力的问题。无论是好是坏,这种语言都充当了一种抽象工具,以掩盖技术的更精确细节。在处理这些系统是什么以及它们可能在人们生活中扮演的角色时,理解这一点至关重要:使用心理语言描述人工智能代理并不意味着这些系统拥有心智。

人工智能代理的范围

人工智能代理在许多相互关联的维度上有所不同

  • 自主性:最近的“代理”至少可以在没有用户输入的情况下执行一步。“代理”一词目前被用来描述从单步提示和响应系统(引用)到多步客户支持系统(示例)的所有事物。
  • 主动性:与自主性相关的是主动性,它指的是系统在用户不直接指定目标的情况下可以采取的目标导向行为的数量(引用)。一个特别“主动”的人工智能代理的例子是监控你的冰箱以确定你缺少什么食物,然后在你不知情的情况下为你购买所需的物品。 智能恒温器是主动的人工智能代理,它们在人们的家中越来越多地被采用,根据环境变化和它们学习到的用户行为模式自动调整温度(示例)。
  • 拟人化:人工智能代理可以被设计得或多或少像特定的人或人群。这方面最近的工作(示例1示例2示例3)集中于根据大五人格特质(开放性、尽责性、外向性、宜人性和神经质)来设计系统,将其作为人工智能的“心理框架”(引用)。这个谱系的另一端是“数字孪生”(示例:非代理数字孪生)。我们目前还没有了解到代理数字孪生。关于创建代理数字孪生为何特别 problematic,最近已由Salesforce 的伦理团队以及其他机构(示例)讨论过。
  • 个性化:人工智能代理可以使用符合用户个人需求的语言或执行操作,例如,根据当前市场模式和用户过去的投资,提供投资建议
  • 工具:人工智能代理还可以访问不同数量的额外资源和工具。例如,最初的人工智能代理浪潮访问搜索引擎来回答查询,此后又增加了更多工具,使其能够操作其他技术产品,如文档和电子表格(示例1示例2)。
  • 多功能性:与上述内容相关的是代理可执行操作的多样性。这取决于
    • 领域特异性:一个代理可以在多少个不同领域中操作。例如,仅电子邮件,还是电子邮件以及在线日历和文档。
    • 任务特异性:代理可以执行多少种不同类型的任务。例如,通过在参与者日历中创建日历邀请来安排会议(示例),或者额外发送会议提醒邮件并在会议结束后向所有参与者提供会议摘要(示例)。
    • 模态特异性:代理可以在多少种不同模态(文本、语音、视频、图像、表单、代码)中操作。一些最新的人工智能代理被创建为高度多模态(示例),我们预计人工智能代理的开发将继续增加多模态功能。
    • 软件特异性:代理可以与多少种不同类型的软件进行交互,以及交互的深度。
  • 适应性:与多功能性类似的是系统根据新信息或上下文变化更新其行动序列的程度。这也被描述为“动态”和“上下文感知”。
  • 行动界面:代理可以执行操作的地方。传统聊天机器人仅限于聊天界面;基于聊天的代理还可以浏览网页并访问电子表格和文档(示例),甚至可以通过控制计算机图形界面上的项目(例如通过移动鼠标)来执行此类任务(示例1示例2示例2)。也有实际应用,例如嵌入机器人中的早期代理(示例)。
  • 请求格式:人工智能代理的一个共同主题是,用户应该能够输入任务请求,而无需指定实现任务的详细信息。这可以通过低代码解决方案(示例)、文本中的人类语言或语音人类语言(示例)来实现。可以以人类语言提供请求的人工智能代理是基于LLM的聊天机器人近期成功的自然发展:基于聊天的“人工智能代理”比聊天机器人更进一步,因为它可以脱离聊天应用程序运行。
  • 响应性:此特性是指人工智能代理完成其行动序列所需的时间:仅仅几秒钟,还是更长的时间。这种效果的前兆可以在现代聊天机器人中看到。例如,ChatGPT 在几毫秒内做出响应,而 Qwen QwQ 则需要几分钟,通过标记为“推理”的不同步骤进行迭代。
  • 数量:系统可以是单一代理或多代理,通过协同工作、按顺序工作或并行工作来满足用户的需求。

风险、收益和用途:基于价值的分析

为了从伦理角度审视人工智能代理,我们根据最近人工智能代理研究和营销中所倡导的不同价值,对其风险和收益进行了分类。这些并非详尽无遗,并且是人工智能代理所基于的技术(例如LLM)已记录的风险、危害和收益的补充。我们希望本节能有助于理解如何开发人工智能代理,提供有关不同开发优先级中的收益和风险的信息。这些价值也可能为评估协议(例如红队演练)提供信息。

价值:准确性

  • 🙂 潜在收益:通过以可信数据为基础,代理可以比单纯依赖模型输出时更准确。这可以通过基于规则的方法或机器学习方法(如RAG)来实现,现在正是确保准确性的新贡献的成熟时机。
  • 😟 风险:现代人工智能代理的支柱是生成式人工智能,它不区分真实与不真实、事实与虚构。例如,大型语言模型旨在构建流畅的文本——这意味着它们经常产生听起来正确但非常错误的内容。在人工智能代理中应用时,LLM输出可能导致不正确的社交媒体帖子、投资决策、会议摘要等。

价值:辅助性

  • 🙂 潜在收益:代理对于用户需求而言是理想的辅助工具,它补充(而非取代)人类。理想情况下,它们可以帮助用户提高完成任务的速度以及同时完成多项任务的效率。辅助代理还可以增强能力以最大程度地减少负面结果,例如帮助盲人用户导航繁忙楼梯的人工智能代理。经过良好开发以提供辅助功能的人工智能代理可以为用户提供更多自由和机会,帮助他们在组织中发挥积极作用,或帮助用户在公共平台上扩大影响力。
  • 😟 风险:当代理取代人类时——例如,当人工智能代理被用于工作场所而非人类时——这可能导致失业和经济影响,从而进一步加剧技术创造者和为技术提供数据(通常未经同意)的人之间 Divide。此外,设计不当的辅助功能可能导致过度依赖或不适当的信任造成的危害。

价值:一致性

人工智能代理的一个想法是它们可以帮助实现一致性,因为它们受周围环境的影响比人类小。这可能是好事,也可能是坏事。我们不了解关于人工智能代理一致性本质的严格工作,尽管相关工作表明许多人工智能代理所基于的LLM高度不一致(引用1引用2)。衡量人工智能代理的一致性将需要开发新的评估协议,特别是在敏感领域。

  • 🙂 潜在收益:人工智能代理不会像人类那样受到世界的影响,它们不会因情绪、饥饿、睡眠水平或对人的感知偏差而产生不一致(尽管人工智能代理会根据训练时使用的内容延续偏差)。多家公司已将一致性视为人工智能代理的关键优势(示例1示例2)。
  • 😟 风险:许多人工智能代理的生成组件引入了结果的固有可变性,即使在类似情况下也是如此。这可能会影响速度效率,因为人们必须发现并解决人工智能代理不适当的不一致性。未被注意到的不一致性可能会造成安全问题。一致性也可能并非总是可取的,因为它可能与公平产生冲突。在不同的部署和行动链中保持一致性可能需要人工智能代理记录和比较其不同的交互——这带来了监视和隐私风险。

价值:效率

  • 🙂 潜在收益:人工智能代理的一个卖点是它们可以帮助人们提高效率——例如,它们会为你整理文档,这样你就可以专注于花更多时间陪伴家人或从事你认为有意义的工作。
  • 😟 风险:一个潜在的缺点是,它们可能会降低人们的效率,因为试图识别和修复代理引入的错误——这可能由于代理执行多个连续步骤的能力而导致复杂的连锁问题——可能既耗时又困难,而且压力很大。

价值:公平

人工智能代理可能会影响情况的公平、公正和包容程度。

  • 🙂 潜在收益:人工智能代理有可能帮助“拉平竞争环境”。例如,会议助手可能会显示每个人发言了多少时间。这可以用来促进更平等的参与或突出性别或地点之间的不平衡(示例)。
  • 😟 风险:现代人工智能代理所依赖的机器学习模型是基于人类数据训练的;人类数据可能是不公平、不公正、排斥性的,甚至更糟。由于数据收集中的样本偏差(例如,某些国家代表过多),也可能出现不公平的系统结果。

价值:类人性

  • 🙂 潜在收益:能够生成类人行为的系统提供了进行模拟的机会,以了解不同亚群如何对不同刺激做出反应。这在直接人体实验可能造成伤害或大量模拟有助于更好地解决实验问题的情况下特别有用。例如,合成人类行为可用于预测约会兼容性,或预测经济变化和政治变动。目前正在研究的另一个潜在好处是,类人性对于沟通便利甚至陪伴可能有用(示例)。
  • 😟 风险:这种好处可能是一把双刃剑:类人性可能导致用户**拟人化**系统,这可能产生负面心理影响,例如过度依赖(引用)、不当信任、依赖和情感纠葛,导致反社会行为或自残(示例)。有人担心人工智能代理的社交互动可能导致孤独,但请参阅引用1引用2以了解可能从社交媒体使用中获取的细微差别。恐怖谷现象增加了另一层复杂性——随着代理变得更像人类,但未能完美模拟人类,它们可能在使用户中引发不安、反感或认知失调的感觉。

价值:互操作性

  • 🙂 潜在收益:能够与其他系统协同操作的系统可以为人机代理提供更大的灵活性和更多选择。
  • 😟 风险:然而,这可能会损害安全安保,因为代理能够影响和受其更有限的测试环境之外的系统影响的程度越大,恶意代码和意外问题操作的风险就越大。例如,连接到银行账户以便能够轻松地代表某人购买物品的代理将处于可能耗尽银行账户的位置。由于这一担忧,科技公司一直避免发布可以自主进行购买的人工智能代理(引用)。

价值:隐私

  • 🙂 潜在收益:人工智能代理可能会在保持交易和任务完全保密方面提供一定的隐私,除了人工智能代理提供商可以监控的信息之外。
  • 😟 风险:为了使代理按用户预期工作,用户可能需要提供详细的个人信息,例如他们要去哪里、与谁会面以及他们在做什么。为了使代理能够以个性化的方式代表用户行事,它可能还需要访问可用于提取更多私人信息的应用程序和信息源(例如,来自联系人列表、日历等)。用户可以轻易放弃对其数据的控制——以及关于其他人的私人信息——以实现效率(如果对代理有信任,甚至更多);如果发生隐私泄露,人工智能代理带来的不同内容之间的互联互通可能会使事情变得更糟。例如,一个可以访问电话对话和社交媒体帖子的AI代理可以将高度私密的信息分享给全世界。

价值:相关性

  • 🙂 潜在收益:创建个性化系统的动机之一是帮助确保其输出对用户特别相关且连贯。
  • 😟 风险:然而,这种个性化可能会放大现有偏见并产生新的偏见:随着系统适应个体用户,它们可能会强化和加深现有偏见,通过选择性信息检索创建确认偏见,并建立回音室以固化有问题观点。使代理对用户更具相关性的机制——它们学习和适应用户偏好的能力——可能会无意中延续和强化社会偏见,使得平衡个性化与负责任的人工智能开发变得尤为困难。

价值:安全

  • 🙂 潜在收益:机器人人工智能代理可能有助于保护人类免受身体伤害,例如能够拆除炸弹、清除毒物或在对人类有害的制造或工业环境中操作的代理。
  • 😟 风险:代理行为的不可预测性意味着看似安全的单个操作可能会以潜在有害的方式组合,从而产生难以预防的新风险。(这类似于工具性收敛和回形针最大化问题。)此外,尚不清楚人工智能代理是否会设计一个覆盖给定防护栏的流程,或者防护栏的指定方式是否无意中制造了更多问题。因此,通过更广泛的系统访问、更复杂的行动链和减少人为监督来使代理更具能力和效率的驱动力与安全考虑相冲突。此外,访问广泛的接口(例如,如上文“行动界面”中所述的GUI)和类人行为使代理能够执行与具有相同控制级别的人类用户相似的操作,而不会触发任何警告系统——例如操作或删除文件、冒充社交媒体用户,或使用存储的信用卡信息为弹出的任何广告进行购买。人工智能代理能够与多个系统交互以及其设计的缺乏人工监督每个行动的能力,进一步带来了安全风险。人工智能代理可能会共同造成不安全的结果。

价值:科学进步

目前,关于人工智能代理究竟是人工智能发展的根本性进步,还是我们已经拥有的技术(深度学习、启发式和管道系统)的“重新品牌”,存在争议。重新引入“代理”一词作为现代人工智能系统的总称,这些系统具有以最少用户输入执行操作的共同特征,是一种简洁地指代近期人工智能应用的方法。然而,该术语带有自由和能动性的内涵,暗示人工智能技术发生了更根本的变化。

本节列出的所有价值都与科学进步相关;其中大多数都提供了潜在收益和风险的详细信息。

价值:安全性

  • 🙂 潜在收益:潜在收益与隐私类似。
  • 😟 风险:人工智能代理由于其处理通常敏感数据(客户和用户信息)的方式,以及其安全风险(例如与多个系统交互的能力以及其设计上缺乏对每个操作的人为监督),带来了严重的安全挑战。它们可能会共享机密信息,即使其目标是由善意用户设定的。恶意行为者也可能劫持或操纵代理,以未经授权访问连接的系统,窃取敏感信息,或大规模进行自动化攻击。例如,一个可以访问电子邮件系统的代理可能被利用来共享机密数据,或者一个与家庭自动化集成的代理可能被入侵以破坏物理安全。

价值:速度

  • 关于用户速度
    • 🙂 潜在收益:人工智能代理可以帮助用户更快地完成更多任务,充当必须完成任务的额外助手。
    • 😟 风险:然而,由于其行动中的问题(参见效率),它们也可能导致更多的工作。
  • 关于系统速度
    • 与大多数系统一样,快速获得结果可能会以牺牲其他理想特性(例如准确性、质量、低成本等)为代价。如果历史能为接下来会发生什么提供启示,那么未来可能会出现整体结果更好的慢速系统。

价值:可持续性

  • 🙂 潜在收益:人工智能代理理论上可能有助于解决与气候变化相关的问题,例如预测野火或城市洪水的增长,同时分析交通模式,然后实时建议最佳路线和交通方式。未来的自动驾驶人工智能代理可以直接做出此类路线决策,并可以与其他系统协调以获取相关更新。
  • 😟 风险:目前,人工智能代理所基于的机器学习模型带来了负面环境影响,例如碳排放(引用)和饮用水消耗(引用)。越大并非总是越好(示例),而高效的硬件和低碳数据中心可以帮助减少这种情况。

价值:信任

  • 🙂 潜在收益:我们没有发现与信任相关的人工智能代理的任何收益。系统应该被构建为值得我们信任的,这意味着它们被证明是安全可靠一致的,等等。
  • 😟 风险:不当信任导致人们被操纵,以及效率类人性真实性中详述的其他风险。另一个风险源于LLM产生虚假信息(称为“幻觉”或“虚构”)的倾向:一个大部分时间都正确的系统在出错时更容易被不当信任。

价值:真实性

  • 🙂 潜在收益:我们没有发现与真实性相关的人工智能代理的任何收益。
  • 😟 风险:人工智能代理所基于的深度学习技术众所周知是虚假信息的来源(引用),例如深度伪造或错误信息。人工智能代理可以用于进一步固化此类虚假信息,例如通过收集最新信息并在多个平台上发布。这意味着人工智能代理可以被用来提供关于真实与虚假的错误认知,操纵人们的信念,并扩大未经同意的私密内容的影响。人工智能代理传播的虚假信息,为特定人群个性化定制,也可以被用来诈骗他们。

HF 的人工智能代理

在 Hugging Face,我们已经开始引入人们以多种方式构建和使用人工智能代理的能力,并以上述价值为基础。这包括

建议与展望

当前人工智能“代理”的技术水平在几个明确的方向上指明了前进道路

  1. 必须设计严格的代理评估协议。自动基准测试可以参考上述人工智能代理的不同维度。社会技术评估可以参考价值
  2. 必须更好地理解人工智能代理的影响。应跟踪和分析人工智能代理的个体、组织、经济和环境影响,以便为它们如何进一步发展(或不发展)提供信息。这应包括分析人工智能代理对福祉、社会凝聚力、就业机会、资源获取以及对气候变化的贡献的影响。
  3. 连锁反应必须得到更好的理解。当一个用户部署的代理与其他用户部署的代理交互,并且它们根据彼此的输出执行操作时,目前尚不清楚它们满足用户目标的能力将如何受到影响。
  4. 透明度和披露必须得到改善。为了实现上述价值观的积极影响,并将负面影响降至最低,人们需要清楚地知道他们何时与代理进行交互以及该代理的自主程度。清晰地披露人工智能代理的交互需要不仅仅是简单的通知——它需要一种结合技术、设计和心理考虑的方法。即使当用户明确知道他们正在与人工智能代理交互时,他们仍然可能经历拟人化或产生不必要的信任。这一挑战要求透明机制在多个层面运作:在整个交互过程中持续存在的清晰的视觉和界面提示,精心设计的对话模式,定期强化代理的人工性质,以及诚实地披露代理的能力和局限性。
  5. 开源可以带来积极的变化。开源运动可以制衡人工智能代理开发集中在少数强大组织手中的趋势。与关于开放价值的更广泛讨论一致,通过民主化代理架构和评估协议的访问,开放倡议可以促进更广泛的参与,以塑造这些系统的开发和部署方式。这种协作方法不仅通过集体改进加速了科学进步,还有助于建立社区驱动的安全信任标准。当代理开发以开放方式进行时,任何单个实体都更难为了商业利益而损害相关的重要价值观,例如隐私真实性。开放开发固有的透明度也创造了自然的问责制,因为社区可以验证代理行为并确保开发与公共利益保持一致,而不是狭隘的企业目标。这种开放性在代理变得更加复杂且其社会影响越来越大时尤为重要。
  6. 开发者可能会创建更具代理性的“基础模型”。根据当前的趋势和研究模式,这是显而易见的,并非我们提供的伦理相关建议。当前的代理技术利用了计算机科学中一系列近期和较旧的技术——近期未来的研究可能会尝试将代理模型训练成一个单一的通用模型,一种多模态模型++:训练其执行操作,同时学习建模文本、图像等。

致谢

我们感谢布鲁纳·特雷维林(Bruna Trevelin)、奥赖恩·彭纳(Orion Penner)和艾梅利克·鲁谢(Aymeric Roucher)为本文做出的贡献。

社区

精彩的阅读!

这篇文章清晰地勾勒出人工智能代理自主性的细致入微且连续的本质——这是一个经常被忽视的关键框架。您强调明确定义的人为监督和透明的问责制至关重要,尤其是在与自主性模糊性经常被战略性利用形成对比时。

人工智能开发者和利益相关者必须公开承认自主性不是一种绝对状态,而是一个经过仔细限制的范围。一些组织围绕自主性故意采取含糊不清的态度,这服务于权力结构,而不是最终用户或伦理原则。您呼吁透明度和明确阐明的人为监督,这一点再及时不过了。

注册登录以评论