NeurIPS 2025 E2LM 竞赛：语言模型早期训练评估

社区文章发布于 2025 年 7 月 4 日

🔗竞赛网站 | ✍️报名表 | 💬Discord 频道 | 📝竞赛提案

加入我们，共同构建能够捕捉 LLM 早期推理和科学知识的基准！

大型语言模型 (LLM) 的开发通常始于一系列消融实验，其中系统地评估各种模型架构、数据混合和训练超参数。这个阶段通常被称为训练的早期阶段。在此期间，研究人员主要监测两个关键指标：训练损失曲线和评估分数。然而，现有的评估基准在 LLM 训练的初始阶段（约 200B 令牌）往往无法提供有意义或有区分度的信号，这使得从正在进行的实验中得出确切结论变得具有挑战性。

在本次竞赛中，我们希望共同构建新的基准，以有效捕捉 LLM 早期训练阶段的相关信号，特别是针对科学知识领域。

如何参与

本次竞赛将在专门的 Hugging Face 组织中举行——如需注册竞赛，请点击此注册链接 👉 https://e2lmc.github.io/registration。参赛者必须通过 HuggingFace Space 提交其解决方案，该解决方案将基于 lm-evaluation-harness 库。竞赛期间将维护一个活跃的排行榜，以跟踪有希望的提交。模型大小使其易于所有人运行，甚至可以在免费的 Google Colab GPU 上运行。我们还提供一个全面的入门工具包，包括多个笔记本，助您开始竞赛。

评估指标

每次提交将使用三个不同的分数进行评估：信号质量分数 (Score_SQ)、排名一致性分数 (Score_RC) 和符合科学知识分数 (Score_CS)。这些标准将组合成一个用于最终排名的总分。此外，将系统地对所有提交应用两个验证程序：(i) 验证与既定科学知识领域的一致性，以及 (ii) 检测潜在的信息泄露，特别是问题提示中是否存在答案。总分通过加权和计算：

分数 = α1 × Score_SQ + α2 × Score_RC + α3 × Score_CS

其中，α_SQ、α_RC 和 α_CS 是加权系数，反映了每个标准的相对重要性。我们将权重设置为 α1 = 0.5、α2 = 0.1 和 α3 = 0.4，从而更加强调信号质量和对科学知识的符合度，我们认为这是评估提交最重要的指标。

参赛者将能够使用提供的三款小型语言模型（0.5B、1B 和 3B，范围从 0 到 200 BT）的模型检查点以及附带的评分算法（在入门工具包中的笔记本中提供）在本地计算信号质量子分数。相比之下，其他两个子分数无法独立计算，因为相应的检查点——从 200 GT 到 1 T 令牌，以及专门在网络数据上训练的 0.5 亿参数模型——将在整个竞赛期间保持隐藏状态。尽管如此，总分将在通过 Hugging Face 竞赛空间提交后自动计算，允许参赛者跟踪其整体表现。此设置旨在防止过度定制的解决方案专门针对发布的检查点。

有关每个评估指标的更多详细信息，以及在最先进基准上的完整评分结果，请参阅竞赛提案

竞赛时间表

竞赛启动	2025 年 7 月 14 日
热身阶段	2025 年 7 月 14 日 - 2025 年 8 月 17 日（5 周）
开发阶段	2025 年 8 月 18 日 - 2025 年 10 月 26 日（10 周）
最终阶段	2025 年 10 月 27 日 - 2025 年 11 月 3 日（3 周）
结果公布	2025 年 11 月 4 日
获奖者情况说明和代码发布截止日期	2025 年 11 月 22 日
NeurIPS 竞赛研讨会演示	2025 年 12 月 6 日或 7 日

奖品

🥇 第一名：6,000 美元
🥈 第二名：4,000 美元
🥉 第三名：2,000 美元
🎓 学生奖：2x 2,000 美元，奖励由证明学生身份的参与者提交的前 2 个解决方案

支持和联系方式

如有疑问和支持需求，请联系任务协调员：e2lmc@tii.ae。您也可以在此处加入我们的 Discord 频道，直接与我们互动。

附属机构

社区

Kagglethebest

6 天前

前三名获奖者会被邀请在 NeurIPS 25 上发表演讲吗？

NeurIPS Competition Workshop Presentation	6 or 7 December 2025

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论