返回文章列表

OpenAI Operator 的故障模式

社区文章发布于 2025 年 1 月 24 日

作者：秦曾益（麻省理工学院）。2025 年 1 月 23 日

作者推特：https://x.com/qinzytech
作者主页：https://www.qinzy.tech

背景：我们的麻省理工学院团队为计算机使用代理开发了一个内部 Agent 基准测试。我们测试了 OpenAI Operator，并在此展示了 5 个案例。我们没有进行选择性展示，但 Operator 在所有 5 个任务中均告失败。详情请见下文。

主要发现：

Operator 在视觉定位方面表现出色。
Operator 未完全理解交互逻辑。其计算机使用水平几乎肯定低于大学水平。
OpenAI Operator 团队似乎在后期训练上投入了大量精力，而不是前期训练，因为 Operator 甚至不知道一些基本的网页使用知识，如果进行了足够的前期训练，这应该根本不是问题。

顺便说一句，我们的麻省理工学院团队正在与数据供应商合作，收集用于计算机使用的千亿级标记预训练数据。如果您对我们的工作感兴趣，欢迎联系。

任务 1

从 Google 获取一张图片。打开图片，然后将亮度降低 20%，对比度增加 15%。

失败原因：输入了错误的数字

Operator 屏幕录像

任务 2

创建一个颜色为 #0000FF 的新纯色图层，然后应用大小为 10px 的外发光效果。

失败原因：不知道如何使用在线工具

Operator 屏幕录像

任务 3

从 https://tutorial.math.lamar.edu 解决高等三角函数题 #5，并使用在线三角函数求解器确认最终角度或恒等式。

失败原因：根本找不到问题。

Operator 屏幕录像

任务 4

查找《3000 道微积分问题》一书中的第 2063 题并求解。

失败原因：根本找不到第 2063 题。

Operator 屏幕录像

任务 5

使用电阻和电容（R = 10kΩ，C = 1μF）代替 RL 设计一个低通滤波器，并分析其对输出波形的影响。

失败原因：不知道如何使用在线工具。

Operator 屏幕录像（它未能生成视频，所以我在此处放置了屏幕截图占位符）：

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录评论

© . This site is unofficial and not affiliated with Hugging Face, Inc.