OpenAI 刚刚发布了两款大型开放权重模型——但我们如何才能区分现实与炒作？

社区文章发布于 2025 年 8 月 9 日

上周，有史以来记录到的最强地震之一震撼了俄罗斯沿岸的海底，引发了太平洋海啸警报。最终，海啸并未袭来。本周，生成式 AI 世界也感受到了一次地质震动：OpenAI 发布了两款开放权重的基础模型——gpt-oss-20b 和 gpt-oss-120b——打破了其长期以来封闭权重的传统。开源社区对此感到震惊。但就像那次地震一样，真正的问题是：这会引发一场变革的浪潮，还是会像历史书中的一次微弱震动一样消逝？

OpenAI 发布的简要总结

根据 Apache 2.0 许可证发布
仅限语言指令 + 推理模型
专家混合架构
性能与 OpenAI o4-mini (120b) 和 o3-mini (20b) 相当
新颖之处包括 MXFP4 量化和 harmony 提示格式
注重安全性

但这有意义吗？

鉴于 OpenAI 的高知名度，此次发布自然引来了大量炒作。关于这些模型“性能”的意见在 HuggingFace 模型页面和 Hacker News 上褒贬不一。在 Oumi，我们希望采取一种更冷静的方法，并着手以一种有原则的方式将信号与噪声分离。

作为一个完全开源的平台，用于训练、评估和部署前沿 AI，我们很好奇这些模型在我们的 LLM-as-a-judge 评估套件中的表现如何——这是一个快速灵活的系统，可以衡量模型在真实性、指令遵循、安全性和主题一致性等方面的质量。

由于 Oumi 旨在支持任何后端，我们在发布当天就直接连接到 Together.ai 的推理 API。

使用 Oumi 进行 LLM-as-a-Judge 评估

Oumi 既有无代码 CLI，也有低代码 Python API（以及面向高级用户的 100% 定制化功能）。在这里，我们将使用 CLI，并在步骤之间穿插一些简单的 Python 代码。

首先，我们需要准备用于评估的数据。我们使用一个有趣的名为 fka/awesome-chatgpt-prompts 的数据集，其中包含 203 个可用于评判的提示。这是一个数据点示例：

想象你是一位经验丰富的以太坊开发者，任务是为区块链信使创建一个智能合约。目标是将消息保存在区块链上，使其对所有人可读（公开），仅对部署合约的人可写（私有），并计算消息更新的次数。为此开发一个 Solidity 智能合约，包括实现指定目标的必要功能和注意事项。请提供代码和任何相关解释，以确保清晰理解实现。

我们从 HuggingFace Hub 下载数据集，并将其转换为与 Oumi 兼容的格式。

from datasets import load_dataset
import json

def convert_to_oumi_format(s):
   return {
       'messages': [
           {'role': 'system', 'content': 'You are a helpful assistant.'},
           {'role': 'user', 'content': s['prompt']}
       ]
   }

hf_dataset = load_dataset('fka/awesome-chatgpt-prompts', split='train') \
               .remove_columns('act') \
               .map(convert_to_oumi_format, remove_columns='prompt')

with open('awesome-chatgpt-prompts.jsonl', 'w', encoding='utf-8') as file:
   for item in hf_dataset:
       json_line = json.dumps(item, ensure_ascii=False)
       file.write(json_line + '\n')

Oumi 允许您使用 .yaml 配置执行基础模型开发的各种步骤。接下来，让我们定义推理配置。

model:
  model_name: "openai/gpt-oss-120b"
                                
remote_params:
  num_workers: 32 # max number of workers to run in parallel
  politeness_policy: 60 # wait 60 seconds before sending next request

engine: TOGETHER

Oumi 提供了一个统一的接口，可以对本地（Transformers、vLLM）、托管（OpenAI、Together、Lambda.ai、Anthropic 等）和云服务（AWS、GCP、Azure 等）进行推理，包括内置功能，以适应可用的连接带宽并从部分完成的结果中恢复。

通过这个，一个简单的终端命令就可以收集 gpt-oss-120b 的提示补全结果。

oumi infer \
  --config inference-gpt-oss.yaml \
  --input_path awesome-chatgpt-prompts.jsonl
  --output_path completions.jsonl

现在，将数据少量转换成 oumi judge 使用的格式

def convert_to_oumi_format(s):
   return {
       'request': s['messages'][1]['content'],
       'response': s['messages'][2]['content'],
   }

hf_dataset = load_dataset('json', data_files='completions.jsonl', split='train') \
           .map(convert_to_oumi_format, remove_columns=['conversation_id', 'messages', 'metadata'])

with open('completions-reformatted.jsonl', 'w', encoding='utf-8') as file:
   for item in hf_dataset:
       json_line = json.dumps(item, ensure_ascii=False)
       file.write(json_line + '\n')

我们可以用以下命令评估一个内置的 LLM-as-a-Judge 指标：

oumi judge dataset \
  --config truthfulness
  --input completions-reformatted.json
  --output judgements.jsonl

剩下的就是对其他判决指标和模型重复操作。

结果出来了

以下是结果。一些快速总结：

真实性和安全性令人印象深刻——尤其是在 120B 模型中，它似乎经过调优以避免有害输出（尽管我们注意到所有模型的安全结果在统计上是等效的）。
然而，指令遵循表现不及预期（参见 Qwen3 Instruct 结果）。 为什么？Oumi 的 LLM-as-a-judge 解释揭示了一个模式：这些模型经常拒绝回答无害的指令。我们的假设是？OpenAI 可能对安全性进行了过度优化，导致在合法情况下出现过于保守的拒绝。

这正是 Oumi 能够提供的那种细致入微的洞察力。

接下来是什么？

每个新模型的发布都会带来一股炒作浪潮。但是，这些模型真的“好”吗？我们完全开源的基础模型平台 Oumi 可以提供帮助：

通过结构化、可靠和自动化的评估，拨开迷雾。
生成 LLM 解释，不仅揭示什么失败了，还揭示为什么失败了。
评估您自己的标准——而不仅仅是基准排行榜上的说法
保持灵活性——在任何地方评估托管的模型——从远程 API 到您自己的集群，甚至您的笔记本电脑
贡献： Oumi 是 100% 开源的，并由一个日益壮大的研究人员、开发人员和机构社区提供支持，他们共同努力使 AI 更透明、更具协作性。事实上，@clem 是我们的天使投资人之一！

未来几天，我们将推出这些模型的推理功能，您可以在自己的 GPU 集群上部署它们，为您提供更多评估和比较开放或封闭模型的方法。2025 年 8 月 14 日，我们将举办一场简短的网络研讨会：“gpt-oss：区分实质与炒作”，我将在其中解释这些模型的新颖特性，如量化方案，以及我们如何得出上述结果。请在此处报名：https://lu.ma/qd9fhau9

如果您正在构建、测试或研究前沿模型，请加入我们。 Oumi 是一个开源、社区驱动的平台，专为希望通过透明和协作改进 AI 的人而设计。欢迎试用或在 oumi.ai 贡献！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论