匈牙利语生成式语言模型基准测试:为可靠评估奠定基础
引言
目前,还没有公开可用的基准数据集来评估生成式语言模型在匈牙利语中的沟通能力。虽然匈牙利语文本的困惑度指标可以提供一些见解,但它们往往无法捕捉自然语言生成的细微差别——特别是在匈牙利语中,因为对于同一个上下文,可能存在多个语法和语义都有效的延续。
为了弥补这一关键空白,我们的目标是开发一个专门的基准数据集,旨在评估语言模型在匈牙利语中的表达和风格能力。这种评估至关重要:在构建实际应用时,选择合适的模型家族和规模需要数据驱动的决策。只有量化语言性能,我们才能自信地为给定任务选择最佳模型。
背景
大型语言模型天生具备概括实体之间关系(人、物或概念)并用多种语言表达这些关系的能力。因此,在有足够的训练数据时,依赖英语基准是一个合理的起点,前提是目标语言中可比较的数据集上观察到相似的性能趋势。
MMLU 是一个广泛采用的多语言基准。虽然目前没有匈牙利语版本,但我们可以从 Shivalika 等人最近的研究中获得见解,他们研究了 MMLU 在不同语言和翻译策略下的表现。他们的主要发现包括:
- 人工翻译始终能产生更好的评估结果。
- 对于数字足迹较小的语言,性能急剧下降。
- 大约 28% 的 MMLU 内容以西方文化为中心,引入了文化偏见。
- 与高资源语言相比,模型在中等资源语言上的表现略差——但当评估低资源语言时,这种性能差距会变得更大。
匈牙利语属于中等数字足迹类别。理想情况下,人工翻译的匈牙利语 MMLU 将提供最准确的评估。在没有它的情况下,我们假设能够生成高质量匈牙利语文本的模型在训练过程中已经充分接触了匈牙利语。
方法
创建受 Lambada 启发的匈牙利语基准
我们着手创建一个类似于 Lambada 的匈牙利语基准数据集,它测试模型是否能在简短的上下文中准确预测一个对母语者来说显而易见的词。
将英语基准翻译成目标语言是很常见的做法,但往往会导致失去特定语言的模式和动态。在翻译过程中,我们发现自己需要调整文本,使其以对母语者来说自然且明确的匈牙利语习语和结构结尾。
这一认识促使我们探索记录此类表达的现有资源,并由人类专家进行验证。我们找到了一份经过同行评审的参考著作——维奥拉·特梅西 (Viola Temesi) 关于匈牙利语搭配和短语学的权威著作,由匈牙利数字教科书图书馆正式出版。
生成实验和数据集完善
我们使用 GPT-4o 尝试生成 Lambada 风格的文本段落。然而,结论性的词语常常模棱两可——即使对母语者来说也是如此。当提供特定的搭配及其定义时,GPT-4o 能够生成连贯、有意义的故事。
由于数据集中包含许多日常对话中不常用的搭配,我们使用 GPT-4o 根据其口语用法对条目进行分类。有趣的是,这种分类几乎没有增加任何价值:总体得分较高的模型在常见和不常见搭配子集上的表现都更好。
评估方法
我们使用 lm-evaluation harness 来设计一个生成评估任务。测试提示模板如下:
Target collocation description: {{description}}
Continue the text! In your response, please return only the correct word!
{{text.split(' ')[:-1]|join(' ')}}
通过提取生成续写中的第一个词并检查它是否与搭配的第二部分匹配,我们评估了正确性。根据这一标准,模型获得了不同的准确率分数。
结果
模型 | 平均分 | 通用 | 领域 |
---|---|---|---|
GPT4o | 59.70 | 64.92 | 56.30 |
GPT4o mini | 53.42 | 60.43 | 48.42 |
Llama3.3 70b | 43.56 | 48.57 | 39.91 |
Llama4 Maverick | 51.31 | 55.16 | 48.92 |
Phi4 | 23.04 | 23.83 | 22.32 |
Gemma3 27b | 40.57 | 44.78 | 37.95 |
DeepSeekV3 | 48.29 | 53.45 | 44.82 |
Qwen 2.5 72b | 29.52 | 33.94 | 26.16 |
Qwen 3 4b | 12.89 | 15.40 | 10.84 |
Qwen 3 32b | 28.47 | 33.70 | 24.95 |
Qwen 3 235b - A22b | 39.48 | 44.14 | 36.38 |
Claud Sonnet | 48.29 | 52.88 | 45.01 |
我们在对 Opus 模型进行完整数据集评估时遇到了两次错误,因此我们报告的是基于前 1,000 条记录的结果。作为参考,我们还在这个子集上运行了 GPT-4o。
模型 | 平均分 | 通用 | 领域 |
---|---|---|---|
GPT4o | 61.10 | 66.49 | 58.88 |
Claud Opus | 62.10 | 64.43 | 61.79 |
总体表现最佳的通常是 OpenAI 和 Anthropic 模型,其次是 Meta 的 Llama 4,然后是 DeepSeek V3,以及 Llama 3 和 Gemma 3 模型。根据这些评估,我们认为 Phi 4 和 Qwen 3 模型尚未达到可在实际应用中投入生产的水平。
结论和未来方向
有了这个基准,我们现在可以根据语言模型的匈牙利语熟练度对其进行排名,并推断其英语能力也可以有效地应用于匈牙利语。虽然如果能有匈牙利语翻译的 MMLU 结果,这一假设会更可靠,但它提供了一个有用的起点。
我们的基准为匈牙利语研究人员和开发人员提供了一个实用的工具,以选择适合其需求的基础模型。我们还希望我们的工作能激发针对研究较少的语言的类似努力。
展望未来,我们旨在通过在代理环境中评估主流语言模型的推理能力来扩展我们的研究,特别关注匈牙利语。
数据集可在 hub 上获取。