2025年的AI:可能性组合式爆炸,但不是通用人工智能
社区文章 2025年1月4日发布
Charles Fadel的评论文章
引言
Robotaxi服务Waymo提供了一个有趣的类比:尽管它“达到L4级别”(同时需要昂贵的人工后台干预),但现在正在以数万辆的速度部署。它不必完美就能发挥作用。
生成式人工智能(GenAI)现在也面临着同样的情况:其问题众所周知(偏见、缺乏世界模型、幻觉/虚构、能力“不平稳”等),但它正迅速从科学阶段(以及“不惜一切代价进行扩展”的炒作)过渡到工程阶段,其中大量的开发方向正在进行中,并在此进行回顾。所有这些发展所带来的组合可能性使得任何预测2025年可能出现哪些能力都变得毫无希望(“组合式”是因为它们将以不可预测的方式相互作用)。这份包含23个发展方向的清单不仅强调了所涉及的组合复杂性,还指出了具有最高变革潜力的领域(粗斜体)。无论您是工程师、研究员还是爱好者,这些见解都为理解GenAI向其工程阶段的关键过渡提供了路线图。
1. 数据集:
- 专业化:早在两年前,谷歌和斯坦福大学以及彭博社和哥伦比亚大学就分别针对医疗保健和金融领域训练了专门的LLM。通过在专业数据集上训练LLM,希望能使其响应比广泛的消费者LLM更准确,减少“幻觉”。
- 精选:数据科学的首要任务是在计算任务之前清理数据。这个过程可以最大限度地减少偏见,降低噪音,并提高LLM在各种任务中的准确性。
- 合成:目前正在进行一项运动,以生成合成数据来解决隐私问题、缺乏带标签数据以及为鲁棒性创建边缘情况等问题。这种方法的优势在于生成不受真实数据限制的近乎无限量的数据。
2. 训练:
- 后训练+RLHF:后训练通过将预训练的LLM暴露于特定领域的数据来对其进行精炼。RLHF通过将模型输出与人类偏好对齐来提高性能。这两方面都提升了LLM的性能。
- 稀疏/蒸馏:稀疏训练选择性地激活重要的参数,而蒸馏则将知识从较大的模型转移到较小的模型。这降低了底层神经网络的复杂性,从而在不牺牲性能的情况下提高效率。
- 知识图谱:知识图谱被集成到LLM中,通过将领域映射为图来提供结构化、关系型数据。它们使LLM能够执行更基于事实的推理,并处理更复杂的查询。
- 透明:“透明”地设计和记录训练过程,让用户能够理解模型的数据来源和决策过程。这使得模型的局限性和行为更具可解释性和可审计性。
- 物理世界:缺乏真实世界模型是LLM的一个显著缺点。Genesis和WorldLabs等新的努力可能会解决部分困难,通过建模物理现实,即使最初仅为了机器人技术。
3. 大型语言模型(LLMs):
- 多模态:过去两年引入了图像、音频和视频生成形式的多模态,并稳步取得进展。
- 小型语言模型(SLMs):像微软Phi3这样的小型语言模型已经足够强大,可以在客户端和任务特定智能体中发挥作用。它们针对需要结构化表示的任务(如表格、图表、领域特定模式等)以及轻量级和实时应用进行了优化。
- 上下文遵循:是指人工智能模型根据给定数据集的上下文维护、解释和适当行动的能力。这种能力确保人工智能理解数据或对话中的关系,以获得更准确的输出。
- 持续学习:LLM保持更新、修正偏见等的能力当然很重要。但考虑到自主性和闭环反馈,理论上它可以通过自我改进达到巨大的效能(例如,GAN在学习游戏中已经证明了这一点)。这绝对是一个值得关注的领域。
4. 推理:
- “推理”/推理计算:最近引入的GPTo1级模型,随后迅速出现的o3(能力尚不明确),代表着从训练的蛮力扩展到模型“更长时间地反思”以改进答案的重大转变。
- “元认知”:指监控、评估和调整其推理过程以确保准确结论的能力。它涉及对认知步骤的自我意识,从而在复杂问题解决过程中改进决策和纠正错误。
- 推理处理器:英伟达在GPU竞赛中击败了潜在的竞争对手,但推理处理器是一个英伟达CUDA兼容性不那么关键的领域。这使得竞争对手(Groq、Cerebras、谷歌等)能够提供替代设备,大幅加速推理时间。
5. 智能体:
- 模型上下文协议:Anthropic引入了该协议,旨在提供一个通用、开放的标准,用于连接人工智能系统与数据源。通过单一协议统一多个分散的集成,将有助于生成更好、更相关的响应。如果被行业采纳为标准,它可能会非常强大,但考虑到其竞争性质,预计不会实现。
- 智能体:是自主执行操作以实现特定目标的软件实体。它们是人工智能行业的主要焦点。虽然训练的蛮力扩展已经趋于平稳,但这一领域与“推理”模型一起,是目前最重要的关注点。
- 副驾驶:智能体是自主的,而副驾驶是辅助性的。它们旨在辅助任务和操作以提高效率。它们也是人工智能行业的主要关注点。
- 用户体验/头像:用户界面,包括头像,甚至像被赋予人类姓名这样基本的操作,都将进一步推动人类早已存在的拟人化思维。类人情感依恋和听从建议的情况已经发生,预计将会大幅增加,并带来令人不安的后果。
- AI孪生:它们已被用作已故人物(从苏格拉底到个人所爱之人)的对话机器人/头像。这一趋势将加速发展,并包含更多活人的个人数据,随之而来的将是所有安全/隐私问题。
6. 访问:
- 从云到边缘(客户端):2025年,多家笔记本电脑和智能手机厂商将推出带有AI协处理器的设备。它们将能够本地运行LLM,而不仅仅是在云端,为尚未构思的多种应用程序打开了大门。
- 爱好套件:英伟达已经推出了一款250美元的爱好套件,类似于许多机器人爱好者套件。这将传播GenAI知识,并与边缘设备结合,能够实现无数有趣的应用程序。
- 分布式:SETI@Home和Folding@Home在90年代展示了分布式计算的强大功能,使得CPU的闲置时间得以利用。这种能力已在GPU上得到验证,并将随着边缘设备进一步扩展。
结论:
存在大量努力方向,通过更好的数据、更好的训练和更好的推理来提高查询响应质量,并通过智能体和客户端访问扩展生成式人工智能的能力。所有这些能力将在2025年相互作用,很可能会产生非常令人惊讶的结果。
作者表达的观点不一定反映Turing Post的编辑立场
如果您想直接在收件箱中收到我们的文章,请在此订阅