OpenAI Operator 的故障模式

社区文章 发布于 2025 年 1 月 24 日

作者:秦曾益(麻省理工学院)。2025 年 1 月 23 日

背景:我们的麻省理工学院团队为计算机使用代理开发了一个内部 Agent 基准测试。我们测试了 OpenAI Operator,并在此展示了 5 个案例。我们没有进行选择性展示,但 Operator 在所有 5 个任务中均告失败。详情请见下文。

主要发现:

  1. Operator 在视觉定位方面表现出色。
  2. Operator 未完全理解交互逻辑。其计算机使用水平几乎肯定低于大学水平。
  3. OpenAI Operator 团队似乎在后期训练上投入了大量精力,而不是前期训练,因为 Operator 甚至不知道一些基本的网页使用知识,如果进行了足够的前期训练,这应该根本不是问题。

顺便说一句,我们的麻省理工学院团队正在与数据供应商合作,收集用于计算机使用的千亿级标记预训练数据。如果您对我们的工作感兴趣,欢迎联系。

任务 1

从 Google 获取一张图片。打开图片,然后将亮度降低 20%,对比度增加 15%。

失败原因:输入了错误的数字

Operator 屏幕录像

任务 2

创建一个颜色为 #0000FF 的新纯色图层,然后应用大小为 10px 的外发光效果。

失败原因:不知道如何使用在线工具

Operator 屏幕录像

任务 3

https://tutorial.math.lamar.edu 解决高等三角函数题 #5,并使用在线三角函数求解器确认最终角度或恒等式。

失败原因:根本找不到问题。

Operator 屏幕录像

任务 4

查找《3000 道微积分问题》一书中的第 2063 题并求解。

失败原因:根本找不到第 2063 题。

Operator 屏幕录像

任务 5

使用电阻和电容(R = 10kΩ,C = 1μF)代替 RL 设计一个低通滤波器,并分析其对输出波形的影响。

失败原因:不知道如何使用在线工具。

Operator 屏幕录像(它未能生成视频,所以我在此处放置了屏幕截图占位符):image/png

社区

注册登录 评论