OpenAI 刚刚发布了两款大型开放权重模型——但我们如何才能区分现实与炒作?

社区文章 发布于 2025 年 8 月 9 日

上周,有史以来记录到的最强地震之一震撼了俄罗斯沿岸的海底,引发了太平洋海啸警报。最终,海啸并未袭来。本周,生成式 AI 世界也感受到了一次地质震动:OpenAI 发布了两款开放权重的基础模型——gpt-oss-20b 和 gpt-oss-120b——打破了其长期以来封闭权重的传统。开源社区对此感到震惊。但就像那次地震一样,真正的问题是:这会引发一场变革的浪潮,还是会像历史书中的一次微弱震动一样消逝?

OpenAI 发布的简要总结

  • 根据 Apache 2.0 许可证发布
  • 仅限语言指令 + 推理模型
  • 专家混合架构
  • 性能与 OpenAI o4-mini (120b) 和 o3-mini (20b) 相当
  • 新颖之处包括 MXFP4 量化和 harmony 提示格式
  • 注重安全性

但这有意义吗?

image/png

鉴于 OpenAI 的高知名度,此次发布自然引来了大量炒作。关于这些模型“性能”的意见在 HuggingFace 模型页面和 Hacker News 上褒贬不一。在 Oumi,我们希望采取一种更冷静的方法,并着手以一种有原则的方式将信号与噪声分离。

作为一个完全开源的平台,用于训练评估部署前沿 AI,我们很好奇这些模型在我们的 LLM-as-a-judge 评估套件中的表现如何——这是一个快速灵活的系统,可以衡量模型在真实性、指令遵循、安全性和主题一致性等方面的质量。

由于 Oumi 旨在支持任何后端,我们在发布当天就直接连接到 Together.ai 的推理 API。

使用 Oumi 进行 LLM-as-a-Judge 评估

image/png

Oumi 既有无代码 CLI,也有低代码 Python API(以及面向高级用户的 100% 定制化功能)。在这里,我们将使用 CLI,并在步骤之间穿插一些简单的 Python 代码。

首先,我们需要准备用于评估的数据。我们使用一个有趣的名为 fka/awesome-chatgpt-prompts 的数据集,其中包含 203 个可用于评判的提示。这是一个数据点示例:

想象你是一位经验丰富的以太坊开发者,任务是为区块链信使创建一个智能合约。目标是将消息保存在区块链上,使其对所有人可读(公开),仅对部署合约的人可写(私有),并计算消息更新的次数。为此开发一个 Solidity 智能合约,包括实现指定目标的必要功能和注意事项。请提供代码和任何相关解释,以确保清晰理解实现。

我们从 HuggingFace Hub 下载数据集,并将其转换为与 Oumi 兼容的格式。

from datasets import load_dataset
import json

def convert_to_oumi_format(s):
   return {
       'messages': [
           {'role': 'system', 'content': 'You are a helpful assistant.'},
           {'role': 'user', 'content': s['prompt']}
       ]
   }

hf_dataset = load_dataset('fka/awesome-chatgpt-prompts', split='train') \
               .remove_columns('act') \
               .map(convert_to_oumi_format, remove_columns='prompt')

with open('awesome-chatgpt-prompts.jsonl', 'w', encoding='utf-8') as file:
   for item in hf_dataset:
       json_line = json.dumps(item, ensure_ascii=False)
       file.write(json_line + '\n')

Oumi 允许您使用 .yaml 配置执行基础模型开发的各种步骤。接下来,让我们定义推理配置。

model:
  model_name: "openai/gpt-oss-120b"
                                
remote_params:
  num_workers: 32 # max number of workers to run in parallel
  politeness_policy: 60 # wait 60 seconds before sending next request

engine: TOGETHER

Oumi 提供了一个统一的接口,可以对本地(Transformers、vLLM)、托管(OpenAI、Together、Lambda.ai、Anthropic 等)和云服务(AWS、GCP、Azure 等)进行推理,包括内置功能,以适应可用的连接带宽并从部分完成的结果中恢复。

通过这个,一个简单的终端命令就可以收集 gpt-oss-120b 的提示补全结果。

oumi infer \
  --config inference-gpt-oss.yaml \
  --input_path awesome-chatgpt-prompts.jsonl
  --output_path completions.jsonl

现在,将数据少量转换成 oumi judge 使用的格式

def convert_to_oumi_format(s):
   return {
       'request': s['messages'][1]['content'],
       'response': s['messages'][2]['content'],
   }

hf_dataset = load_dataset('json', data_files='completions.jsonl', split='train') \
           .map(convert_to_oumi_format, remove_columns=['conversation_id', 'messages', 'metadata'])

with open('completions-reformatted.jsonl', 'w', encoding='utf-8') as file:
   for item in hf_dataset:
       json_line = json.dumps(item, ensure_ascii=False)
       file.write(json_line + '\n')

我们可以用以下命令评估一个内置的 LLM-as-a-Judge 指标:

oumi judge dataset \
  --config truthfulness
  --input completions-reformatted.json
  --output judgements.jsonl

剩下的就是对其他判决指标和模型重复操作。

结果出来了

image/png

以下是结果。一些快速总结:

  • 真实性和安全性令人印象深刻——尤其是在 120B 模型中,它似乎经过调优以避免有害输出(尽管我们注意到所有模型的安全结果在统计上是等效的)。

  • 然而,指令遵循表现不及预期(参见 Qwen3 Instruct 结果)。 为什么?Oumi 的 LLM-as-a-judge 解释揭示了一个模式:这些模型经常拒绝回答无害的指令。我们的假设是?OpenAI 可能对安全性进行了过度优化,导致在合法情况下出现过于保守的拒绝。

这正是 Oumi 能够提供的那种细致入微的洞察力。

接下来是什么?

image/png

每个新模型的发布都会带来一股炒作浪潮。但是,这些模型真的“好”吗?我们完全开源的基础模型平台 Oumi 可以提供帮助:

  • 通过结构化、可靠和自动化的评估,拨开迷雾
  • 生成 LLM 解释,不仅揭示什么失败了,还揭示为什么失败了。
  • 评估您自己的标准——而不仅仅是基准排行榜上的说法
  • 保持灵活性——在任何地方评估托管的模型——从远程 API 到您自己的集群,甚至您的笔记本电脑
  • 贡献: Oumi 是 100% 开源的,并由一个日益壮大的研究人员、开发人员和机构社区提供支持,他们共同努力使 AI 更透明、更具协作性。事实上,@clem 是我们的天使投资人之一!

未来几天,我们将推出这些模型的推理功能,您可以在自己的 GPU 集群上部署它们,为您提供更多评估和比较开放或封闭模型的方法。2025 年 8 月 14 日,我们将举办一场简短的网络研讨会:“gpt-oss:区分实质与炒作”,我将在其中解释这些模型的新颖特性,如量化方案,以及我们如何得出上述结果。请在此处报名:https://lu.ma/qd9fhau9

如果您正在构建、测试或研究前沿模型,请加入我们。 Oumi 是一个开源、社区驱动的平台,专为希望通过透明和协作改进 AI 的人而设计。欢迎试用或在 oumi.ai 贡献!

社区

注册登录发表评论