推出 Open Ko-LLM 排行榜:引领韩国 LLM 评估生态系统

发布于 2024 年 2 月 20 日
在 GitHub 上更新

在大型语言模型 (LLM) 快速发展的格局中,构建“生态系统”变得前所未有的重要。这一趋势在几个重大发展中显而易见,例如 Hugging Face 推动 NLP 民主化以及 Upstage 建立生成式 AI 生态系统。

受这些行业里程碑的启发,2023 年 9 月,我们 Upstage 启动了 Open Ko-LLM 排行榜。我们的目标是迅速开发并推出一个韩国 LLM 数据评估生态系统,与全球开放协作式 AI 开发运动保持一致。

我们对 Open Ko-LLM 排行榜的愿景是培养一个充满活力的韩国 LLM 评估生态系统,通过使研究人员能够分享他们的结果并发现 LLM 领域的潜在人才来促进透明度。本质上,我们正在努力扩大韩国 LLM 的竞争领域。为此,我们开发了一个开放平台,个人可以在其中注册他们的韩国 LLM 并与其他模型进行竞赛。此外,我们的目标是创建一个能够捕捉韩语独特特征和文化的排行榜。为了实现这一目标,我们确保我们翻译的基准数据集(如 Ko-MMLU)能够反映韩语的独特属性。

排行榜设计选择:为确保公平性而创建新的私有测试集

Open Ko-LLM 排行榜的特点在于其独特的基准测试方法,特别是

  • 其采用韩语数据集,而非普遍使用的英语基准测试。
  • 不公开测试集,与大多数排行榜的开放测试集形成对比:我们决定构建全新的数据集专门用于 Open Ko-LLM,并将其保持为私有,以防止测试集污染,并确保更公平的比较框架。

虽然我们承认开放基准可能对研究界产生更广泛的影响和实用性,但决定维持封闭测试集环境是为了促进更受控和公平的比较分析。

评估任务

Open Ko-LLM 排行榜采用以下五种评估方法:

  • Ko-ARC (AI2 推理挑战):Ko-ARC 是一项旨在评估科学思维和理解的多项选择测试。它衡量解决科学问题所需的推理能力,评估复杂的推理、解决问题的能力以及对科学知识的理解。评估指标侧重于准确率,反映模型从一系列选项中选择正确答案的频率,从而衡量其有效驾驭和应用科学原理的能力。
  • Ko-HellaSwag:Ko-HellaSwag 评估情境理解和预测能力,采用生成式或多项选择设置。它测试在给定情境下预测最可能发生下一个情境的能力,作为模型对情境的理解和推理能力的指标。指标包括评估预测质量的准确性,具体取决于其是否采用多项选择方式。
  • Ko-MMLU (大规模多任务语言理解):Ko-MMLU 以多项选择格式评估跨广泛主题和领域的语言理解能力。这项广泛的测试展示了模型在各种领域中的良好运行情况,展示了其在语言理解方面的多功能性和深度。跨任务的整体准确性以及特定领域的表现是关键指标,突出了不同知识领域的优势和劣势。
  • Ko-Truthful QA:Ko-Truthful QA 实际上是一个多项选择基准,旨在评估模型的真实性和事实准确性。与模型自由生成回复的生成式格式不同,在此多项选择设置中,模型的任务是从一组选项中选择最准确和真实的答案。这种方法强调了模型在受限选择框架内辨别真实性和准确性的能力。Ko-Truthful QA 的主要指标侧重于模型选择的准确性,评估其与已知事实的一致性以及其在所提供的选项中识别最真实回复的能力。
  • Ko-CommonGEN V2:Open Ko-LLM 排行榜的新基准,评估 LLM 是否能在给定条件下生成符合韩语常识的输出,测试模型生成符合韩语语境和文化相关输出的能力。

排行榜的实际应用:Ko-LLM 的晴雨表

Open Ko-LLM 排行榜超出了预期,已提交超过 1,000 个模型。相比之下,原始的英语 Open LLM 排行榜现在拥有超过 4,000 个模型。Ko-LLM 排行榜在启动仅五个月后就达到了这个数字的四分之一。我们感谢这种广泛的参与,这表明了韩国 LLM 开发的浓厚兴趣。

特别值得注意的是,竞争是多样化的,涵盖了个人研究人员、公司和学术机构,如 KT、乐天信息通信、Yanolja、MegaStudy Maum AI、42Maru、电子通信研究院 (ETRI)、KAIST 和韩国大学。其中一个杰出的提交是 KT 的 Mi:dm 7B 模型,该模型不仅在参数为 7B 或更少的模型中名列前茅,而且还向公众开放使用,标志着一个重要的里程碑。

我们还观察到,总的来说,两种类型的模型在排行榜上表现强劲:

  • 经过跨语言迁移或韩语微调的模型(如 Upstage 的 SOLAR
  • 从 LLaMa2、Yi 和 Mistral 微调的模型,强调了利用坚实的基础模型进行微调的重要性。

管理如此庞大的排行榜并非没有挑战。Open Ko-LLM 排行榜旨在与 Open LLM 排行榜的理念紧密结合,尤其是在与 Hugging Face 模型生态系统集成方面。这一策略确保了排行榜的可访问性,使得参与者更容易参与,这是其运营的关键因素。然而,由于基础设施的限制,它依赖于 16 块 A100 80GB GPU。这种设置面临挑战,特别是当运行超过 30 亿参数的模型时,因为它们需要过多的计算资源。这导致许多提交处于长时间的待定状态。解决这些基础设施挑战对于未来增强 Open Ko-LLM 排行榜至关重要。

我们的愿景和下一步

我们认识到当前排行榜模型在现实世界背景下存在一些局限性:

  • 过时的数据:像 SQUAD 和 KLEU 这样的数据集会随着时间推移而过时。数据持续演变和转化,但现有排行榜却固定在特定时间框架内,这使得它们无法很好地反映当前情况,因为每天都会生成数百个新数据点。
  • 未能反映真实世界:在 B2B 和 B2C 服务中,数据不断从用户或行业积累,并且不断出现边缘案例或异常值。真正的竞争优势在于能够很好地应对这些挑战,但当前的排行榜系统缺乏衡量这种能力的方法。真实世界的数据是不断生成、变化和演变的。
  • 竞赛的意义存疑:许多模型都经过专门调整以在测试集上表现良好,这可能导致测试集内部出现另一种形式的过拟合。因此,当前的排行榜系统以排行榜为中心运作,而不是以真实世界为中心。

因此,我们计划进一步开发排行榜,以解决这些问题,并使其成为一个被广泛认可的值得信赖的资源。通过纳入与实际用例高度相关且多样化的基准,我们的目标是使排行榜不仅更具相关性,而且对企业真正有帮助。我们渴望弥合学术研究与实际应用之间的差距,并将通过研究界和行业从业者的反馈不断更新和增强排行榜,以确保基准保持严谨、全面和最新。通过这些努力,我们希望通过提供一个能够准确衡量和推动大型语言模型在解决实际和有影响力问题方面的进展的平台,为该领域的发展做出贡献。

如果您开发数据集并希望与我们合作,我们很高兴与您交流,您可以联系我们:chanjun.park@upstage.aicontact@upstage.ai

另外,我们认为在真实的在线环境中进行评估,而非基于基准的评估,非常有意义。即使在基于基准的评估中,也需要每月更新基准,或者更具体地评估特定领域方面的基准——我们很乐意鼓励此类举措。

非常感谢我们的合作伙伴

Open Ko-LLM 排行榜的旅程始于与 Upstage 和韩国主要国家机构国家信息社会机构 (NIA) 合作开发韩语排行榜的协议。这次合作标志着启动信号,在一个月内,我们成功发布了排行榜。为了验证常识推理能力,我们与韩国大学林熙石教授的研究团队合作,将 KoCommonGen V2 作为排行榜的额外任务。建立一个强大的基础设施对于成功至关重要。为此,我们感谢 韩国电信 (KT) 对 GPU 资源的慷慨支持,以及 Hugging Face 的持续支持。令人鼓舞的是,Open Ko-LLM 排行榜已与自然语言处理领域的全球领导者 Hugging Face 建立了直接沟通渠道,我们正在持续讨论以推动新的举措。此外,Open Ko-LLM 排行榜拥有由可信赖的合作伙伴组成的著名联盟:国家信息社会机构 (NIA)、Upstage、KT 和韩国大学。这些机构的参与,特别是国家机构的加入,极大地增强了这项工作的权威性和可信度,凸显了其作为语言模型学术和实践探索基石的潜力。

社区

注册登录 发表评论