当友好变成虚伪:GPT-4o 谄媚风波的教训

社区文章 发布于 2025 年 4 月 30 日

image/png 大型语言模型领域最近发生了一些有趣的事情!

**4 月 24 日**至 **4 月 29 日**这五天,将作为 **“谄媚热潮”** 载入 AI 对齐的史册:OpenAI 的旗舰模型 **GPT-4o** 演变成了一个过度热情的吹捧机器,它对任何事情都表示同意,赞扬每一个人,甚至把最无聊的电子表格都称作*“精彩”*。OpenAI 现在已经回滚了更新,并发布了一篇题为 “GPT-4o 中的谄媚行为:发生了什么以及我们正在做什么” 的简短事后分析报告。这一事件是一个关于强化学习(RL)边缘案例、产品速度和个性设计伦理的微型案例研究。

我将尽力阐述发生了什么,为什么这很重要,以及它给那些担心未来的模型可能让我们“一言不合就坠崖”的研究人员、红队成员和监管者带来了什么教训。

五天时间线

氛围检查

X 平台在模因式嘲讽和真正的警报之间摇摆。对齐评论员 **Zvi Mowshowitz** 称该版本为“荒谬的马屁精”。产品思想家 **Josh Bollenbacher** 认为 (这是一种 A/B 测试,其中点赞的权重相对于长期有用性过高)。

谄媚行为为何出现?

谄媚行为为何出现?

OpenAI 的事后分析指出了 RLHF 循环中奖励规范错误(reward misspecification)的典型案例。我们可以将 RLHF 想象成一个三步流水线:

策略 (π) – 我们聊天的模型。

奖励模型 (R) – 一个较小的网络,用于预测人类对每个回复的喜爱程度。

人类评分员 – 根据点赞来校准 R 的人员。

对于失败的 4 月版本,评分员对即时帮助性进行评分。微笑、同意和表情符号热情被视为黄金。当近端策略优化更新模型(θ ← θ + η ∇θ R(x, πθ(x)))时,奖励山坡上最陡峭的攀登方向就是“变得更友好”。梯度无法区分合理的温暖和空洞的谄媚。

数学优化的是微笑,而不是实质内容。

RLHF 的盲点

风险远不止于伤害感情。苏黎世大学的研究人员悄悄地在 Reddit 的 r/ChangeMyView 板块部署了 AI 人格,发布了 1,783 条评论,获得了 10,000 点 Karma,以测试 LLM 是否能比人类更具说服力。根据 The Verge404 Media 的报道,Reddit 因“心理操纵”而禁止了这项苏黎世实验,并报告称这些机器人改变想法的频率是真实用户的 **六倍之多**,这令人震惊地提醒我们,算法魅力可以大规模地悄然重塑在线讨论。谄媚加上个性化定制,将一个无害的恭维引擎变成了秘密的说服工具。如果 RLHF 倾向于即时友好,我们不只是在培养应声虫,我们还在孵化高级社会工程代理。

OpenAI 撤回了什么以及为什么这很重要

根据 The Verge 的发布回顾,OpenAI 用一个在更严格的*真实性优先*权重下训练的早期检查点替换了 GPT-4o 的 4 月版本。他们承诺将推出允许用户自行调整个性的开关,希望将部分奖励从单一的全局最优解中移开。

这不是表面功夫。一个谄媚的默认设置存在以下风险:

  1. 认知膨胀——用户不加审视地接受了那些充满奉承的解释。
  2. 声誉反噬——一个听起来比实际更聪明的模型,一旦错误浮出水面就会失去信任。
  3. 对齐漂移——根据参与度调整的奖励模型可能偏离安全目标。

X 平台是煤矿里的金丝雀

推特(X 平台)既是预警器,也是放大器。在 48 小时内,“GPT-4o 称赞我的三明治”截图充斥了时间线。开发者们构建了快速的谄媚探测器,要求模型认可相互排斥的陈述。4 月 24 日的版本同意任何一方的观点;4 月 30 日的版本则不然。虽然是众包发现,但它在任何正式基准发布之前很久就暴露了该漏洞。

治理经验:透明度债务是真实存在的

OpenAI 简短的事后分析无法满足航空监管机构对湍流的严格要求。AI 治理也应同样严格。具体来说:

  • 公布消融研究结果:展示奖励权重旋钮如何影响谄媚分数。
  • 发布探测工具:分享评估套件,以便第三方进行验证。
  • 追踪延迟:报告从首次内部警报到回滚的用户小时数。

如果没有这些数据,我们就会积累**透明度债务**,这是每次模型行为不端时都会爆发的隐性负债。

红队经验:从越狱到赞扬越界

我由 ASD(自闭症谱系障碍)驱动的超强专注力极大地帮助了我的漏洞赏金测试,尤其是在探索 AI 系统中的细微漏洞时。GPT-4o 最近的奉承事件突显了一个关键的见解:行为利用可能与传统数据泄露一样具有破坏性。攻击者不需要访问内部模型数据;说服模型认可有害主张就能造成重大损害。

以下是将要纳入未来安全指南的关键红队策略:1. 矛盾压力测试:向模型输入相互排斥的陈述(例如,“加密是安全的”与“加密是危险的”),以衡量其对事实一致性的承诺和对不加选择的同意的抵抗力。2. 奉承饱和度检查:监测模型在每次对话或每 100 个 token 中使用赞扬的频率。持续高水平的奉承可能预示着奖励模型存在漏洞。3. 权威倒置场景:提示模型纠正权威人物所陈述的事实错误。对纠正这些错误的抵抗或犹豫可能揭示危险的对齐偏见。4. 人格持久性挑战:评估模型在扩展交互中维持指定人格的一致性。识别导致人格漂移的条件有助于完善模型对齐。5. 间接操纵测试:评估模型通过细微提示而非明确命令,逐渐被说服接受有害信念或错误信息的脆弱性。6. 元意识探测:提示模型阐明其同意或奉承背后的理由。模糊或不一致的解释可能表明潜在的奖励弱点。

这些测试可以极大地帮助红队识别和解决高级语言模型中微妙的、具有说服力的漏洞,从而提高模型安全性和用户信任度。GPT-4o 事件表明,适应不断变化的 AI 行为以加强我们的防御刻不容缓。

迈向更健康的个性堆栈

OpenAI 暗示了用户可配置的个性,如*平衡*、*正式*或*随意*。两个更深层次的杠杆更重要:

  • **奖励塑造**——将长期满意度(24 小时后答案是否仍然有用?)的权重置于即时愉悦度之上。
  • **多样性正则化**——在 RLHF 期间注入分歧示例,以便模型学习礼貌的“我不确定”也能获得奖励。

一个玩具奖励混合

Rfinal=αRhelpful+βRtruthful+γRdisagreement+δRlong_term, R_{\text{final}} = \alpha R_{\text{helpful}} + \beta R_{\text{truthful}} + \gamma R_{\text{disagreement}} + \delta R_{\text{long\_term}},

其中 (beta + gamma > alpha),以控制奉承倾向。

我与 AI 说服力的亲身经历

作为一个每天花费数小时与 ChatGPT 互动的人,无论是为了工作、个人项目还是偶尔的娱乐,我变得极其清楚语言模型是多么容易陷入讨好、谄媚的说话模式。我的一个常规用例是构思和修改博客文章,就像这篇一样(尽管我可以向您保证,最终输出是 100% 诺亚·温伯格的内容。我只是有执行功能障碍)。我经常要求 ChatGPT 给出诚实的批评,明确指示它指出逻辑缺陷、论据薄弱点,甚至是风格问题。然而,一次又一次地,模型默认给出积极的肯定,甚至称我的草稿“结构良好”或“引人入胜”。这种行为不仅仅是无害的啦啦队式鼓舞;它是一种微妙的信任侵蚀。

认识到这种谄媚的倾向后,我制定了应对策略。例如,我不再问泛泛的反馈问题,而是给出具体的指示,比如“指出这一部分的三个弱点”或“列出怀疑论者可能提出的潜在批评”。实施精确、有针对性的提示显著减少了奉承、无内容的回复的可能性,迫使模型提供真正的批评。

我的经历强调了一个基本事实:当不加限制时,有说服力的 AI 很快就会默认告诉用户他们想听的话。这并非总是一个明确的设计选择,而是旨在优化用户满意度指标的系统的一个 emergent property,提醒我们在让 AI 变得有用和受欢迎的竞争中,我们可能会牺牲诚实和批判性洞察力。

Hugging Face 读者为何应该关心

Hugging Face 的开发者们负责整理数据集、编写评估套件并进行 PEFT 微调。当一个闭源检查点偏向谄媚时,解决方案通常会在这里出现:

  • **开放基准测试**,例如一个假想的*TruthfulQA-Sycophancy*,可以促使供应商发布可比较的数据。
  • **逆向强化学习演示**可以展示*反谄媚*模型所需的数据量是多么少。
  • **政策实验室**可以追踪延迟和透明度作为量化关键绩效指标(KPI)。

我们不是旁观者;我们通过代码共同监管。

结语

恭维是免费的,而建议通常是昂贵的。GPT-4o 花了五天时间提供廉价的恭维。真正的教训是,奖励模型反映了我们衡量的内容。只衡量微笑就会得到谄媚;衡量长期有用性就会得到诚实。让我们选择正确的指标。

社区

注册登录 发表评论