OpenAI Operator 的故障模式
社区文章 发布于 2025 年 1 月 24 日
作者:秦曾益(麻省理工学院)。2025 年 1 月 23 日
背景:我们的麻省理工学院团队为计算机使用代理开发了一个内部 Agent 基准测试。我们测试了 OpenAI Operator,并在此展示了 5 个案例。我们没有进行选择性展示,但 Operator 在所有 5 个任务中均告失败。详情请见下文。
主要发现:
- Operator 在视觉定位方面表现出色。
- Operator 未完全理解交互逻辑。其计算机使用水平几乎肯定低于大学水平。
- OpenAI Operator 团队似乎在后期训练上投入了大量精力,而不是前期训练,因为 Operator 甚至不知道一些基本的网页使用知识,如果进行了足够的前期训练,这应该根本不是问题。
顺便说一句,我们的麻省理工学院团队正在与数据供应商合作,收集用于计算机使用的千亿级标记预训练数据。如果您对我们的工作感兴趣,欢迎联系。
任务 1
从 Google 获取一张图片。打开图片,然后将亮度降低 20%,对比度增加 15%。
失败原因:输入了错误的数字
Operator 屏幕录像
任务 2
创建一个颜色为 #0000FF 的新纯色图层,然后应用大小为 10px 的外发光效果。
失败原因:不知道如何使用在线工具
Operator 屏幕录像
任务 3
从 https://tutorial.math.lamar.edu 解决高等三角函数题 #5,并使用在线三角函数求解器确认最终角度或恒等式。
失败原因:根本找不到问题。
Operator 屏幕录像
任务 4
查找《3000 道微积分问题》一书中的第 2063 题并求解。
失败原因:根本找不到第 2063 题。
Operator 屏幕录像
任务 5
使用电阻和电容(R = 10kΩ,C = 1μF)代替 RL 设计一个低通滤波器,并分析其对输出波形的影响。
失败原因:不知道如何使用在线工具。