发布 UA-Code-Bench:一个用于评估 LLM 在乌克兰语竞争性编程任务上的新基准
数据集:https://huggingface.co/datasets/anon-researcher-ua/ua-code-bench
更新日期 2025 年 8 月 8 日:增加了 gpt-oss 评估
乌克兰语翻译如下:点击此处
该基准包含 500 个不同编程问题的 5500 次评级交互,为我们深入了解最先进的模型在面对乌克兰语实际任务时如何推理和生成 Python 代码提供了宝贵的视角。
为何重要
大多数语言模型基准都侧重于英语或少数资源丰富的语言。但许多实际用户使用其他语言——例如乌克兰语——在这些语言中,模型的表现往往更差或行为不可预测。
UA-Code-Bench 有助于弥补这一空白。与基本的文本生成不同,解决编程问题要求模型完全理解以乌克兰语描述的任务,并生成一个通过所有测试用例的正确解决方案。这应该是一种更可靠的方式来检查模型对语言的实际理解程度。这使得 UA-Code-Bench 成为评估资源不足语言真实能力的重要工具。
内容概览
500 个 Eolymp Basecamp 问题(每个难度级别 100 个:从非常简单到超难),总计 5500 次评估
由十一个专有和开源 LLM 生成的已评分 Python 解决方案和推理过程
来自 Eolymp 官方在线评测系统的判决和数值分数
📌 注意:根据 Eolymp 团队的要求,不包含原始问题文本。我们仅提供自动生成的摘要,其质量可能有所不同。
评估模型
所有评估均在 2025 年 4 月至 8 月期间通过付费 API 访问和计算实例进行。解决方案在 Eolymp 私有付费工作区中进行评判,确保评分一致且公平。
即将推出
我们才刚刚开始。未来几周,敬请期待:
📄 包含更深入分析和更多见解的研究论文
🛠 用于自动化评估的公共基准库
🇺🇦 针对代码生成的微调乌克兰语模型
🧠 Grok-4 基准测试结果
预期用途与限制
此基准仅供对低资源语言中的算法推理和代码生成进行非商业研究。禁止商业使用或重新分发原始声明。
许可证
- 数据集摘要和元数据:根据 CC-BY-NC-4.0 许可发布。
- 原始问题声明仍为 © EOLYMP ACADEMY, S.L. – 保留所有权利;在此不重新分发,仅通过 URL 引用。
- 用户在访问任何原始声明时,还必须遵守 Eolymp 服务条款。
介绍 UA-Code-Bench – 一个用于评估大型语言模型在乌克兰语算法编程任务上的新基准
数据集:https://huggingface.co/datasets/anon-researcher-ua/ua-code-bench
UA-Code-Bench 包含 5500 个已评估的解决方案和 500 个任务,展示了现代 LLM 模型在面对用乌克兰语描述的实际任务时,如何进行推理并生成 Python 代码。
为何需要
大多数基准测试都侧重于英语或其他拥有大量数据的语言。然而,许多用户使用其他语言——特别是乌克兰语,在这些语言中,模型的表现往往较低或不稳定。
UA-Code-Bench 部分解决了这个问题。与简单的文本生成不同,解决编程问题要求模型完全理解乌克兰语的任务描述,并生成可以通过所有测试用例的正确代码。这是一种更可靠的方式,可以检查模型在数据量不足的情况下对语言和逻辑的实际理解能力。
数据集包含内容
500 个来自 Eolymp Basecamp 的问题(每个难度级别 100 个,从“非常简单”到“非常困难”),总计 5500 次评估
来自十一个 LLM 模型(开源和专有)的已评分 Python 解决方案和推理链
Eolymp 官方在线判题器的判决和分数
📌 应 Eolymp 团队的要求,不提供原始问题文本。我们仅提供自动生成的简短摘要,其质量可能有所不同。
已评估模型
所有评估均于 2025 年 4 月至 8 月期间通过模型提供商的 API 进行。解决方案在 Eolymp 私有付费工作空间中进行验证,以确保分数的一致性和公平性。
计划
我们的工作才刚刚开始。未来几周,敬请期待:
📄 包含更深入分析的预印本
🛠 用于自动化测试的公共存储库
🇺🇦 经过训练的乌克兰语代码生成模型
🧠 Grok-4 的结果
用途与限制
UA-Code-Bench 仅供非商业用途,用于算法推理和代码生成的低资源语言研究。禁止商业使用或重新分发原始任务声明。
许可证
数据集 – CC-BY-NC-4.0。
原始问题声明仍为 © EOLYMP ACADEMY, S.L. – 保留所有权利;本存储库不分发,仅通过 URL 引用。
用户在访问任何原始材料时,还必须遵守 Eolymp 服务条款。