韩国LLM研究导航 #2:评估工具

社区文章 发布于2024年10月23日

延续我第一篇关于韩国大型语言模型(LLM)的博文,本篇将介绍一些广泛使用的韩国模型评估工具。众所周知,评估工具在LLM研究中扮演着至关重要的角色。我个人认为,强大的基准可以在一段时间内塑造模型研究的方向。一旦某个基准被认为是事实上的标准,研究人员和开发者就会倾向于针对该基准优化模型(正如我们从SQuAD、GLUE和MMLU等数据集所看到的),这会显著影响研究格局。

长期以来,韩国的LLM稀缺,对韩语特有基准的需求并不迫切。然而,随着最近模型开发(特别是来自私营企业)的激增,拥有强大的评估工具来衡量和展示进展变得至关重要。

评估工具

我将韩语基准分为两大类:

  1. 重新实现的基准:这些是对现有英文基准的改编,例如(K-)MMLU(Ko-)BBQ。它们保留了与英文版本相同的结构和目标,但内容为韩语。

  2. 原生基准:这些是由韩国社区开发的独特基准,没有直接的英文对应物。它们通常旨在评估韩国特有的方面,例如文化背景和语言细微差别。

重新实现的基准

重新实现的基准的优势显而易见——它们是广泛使用的英文基准的韩语版本,因此易于被接受和理解。例如,当讨论KMMLU时,即使有些读者可能不熟悉它,也能迅速理解其设计:一个旨在测试LLM知识的多项选择问答数据集。

有一些知名的重新实现的基准,例如KLUEKorQuADKorNLI/KorSTS。然而,在这篇文章中,我将重点关注专为评估LLM而设计的最新基准,因为前面提到的那些在现代研究中已不再常用。

KoBEST:韩语重要任务的平衡评估

KoBEST是首批旨在评估韩语推理能力的基准之一。它包含五个类别,每个类别都以一个既定的英语基准为模型:

  • BoolQ:一个问答数据集,包含一段文字和一个是/否问题。

  • COPA:一个常识推理数据集,提供一个前提和两个选项。模型必须选择与前提更合理相关的选项,无论是作为原因还是结果。

  • WiC:一个语义基准,提供两个句子,每个句子都包含相同的词。任务是判断该词在两种语境中是否具有相同的含义。

  • HellaSwag:一个包含多项选择题的常识推理数据集。模型需要从四个选项中选择一个最可能接续给定上下文的正确句子。

  • SentiNeg:一个情感分析数据集,模型预测否定句的情感极性,测试其处理复杂情感场景的能力。

该数据集的一个令人印象深刻的方面是,作者聘请了专业的韩语语言学家在构建过程中确保其质量。虽然BoolQ、COPA、WiC和SentiNeg等基准在英语NLP社区已不再广泛使用,但HellaSwag仍然是一个流行的基准。同样,最先进的LLM在KoBEST版本的HellaSwag上仍然表现不佳。如下表所示,即使是表现顶尖的多语言模型也仍有很大的改进空间。

模型 性能
Command-R-Plus 51.3
Llama-3-70B-Instruct 49.7
Qwen2-72B-Instruct 49.2
Aya-23-35B 47.6
随机基线 25.0

KMMLU:衡量韩语大规模多任务语言理解

KMMLU是我与EleutherAI合作的项目,我很自豪地说它已成为韩国使用最广泛的数据集之一,在Hugging Face上的总下载量超过300万。顾名思义,它是一个专门为韩语设计的知识基准。虽然翻译版本MMLU现在很常见,但我相信重新实现(而非翻译)是必要的。

假设您是韩国一家法律科技初创公司的研究员,正在寻找一个精通韩国法律的LLM。根据翻译MMLU的专业法律子集的性能来选择模型远非理想。翻译后的基准无法捕捉在韩国法律环境中的熟练程度。KMMLU填补了这一空白,提供了对45个韩语专业知识类别的评估,为LLM在本地语境中的性能提供了更相关的衡量标准。以下图提供了一些此类问题的示例。

kmmlu

图1:《KMMLU:衡量韩语大规模多任务语言理解》中的图片

LogicKor 和 Ko-Chatbot-Arena

这两个基准是我第一次遇到它们时最羡慕的。LogicKorMT-Bench 的韩语版本,而 Ko-Chatbot-Arena 则模仿了韩语的 LMSys Chatbot Arena。LogicKor 严格遵循 MT-Bench,但引入了一个专注于韩语语法的新类别。它在使用上已趋于饱和,据我所知,第二个版本正在开发中。

Ko-Chatbot-Arena提供了一个评估10多个LLM的平台,用户可以在来自不同模型的两个回复之间进行投票。不幸的是,该平台已不再活跃,但它收集的偏好数据仍然可以在Hugging Face上找到,使其成为人类标注偏好数据的有用资源。

(KUDGE) LLM-即-法官 与 奖励模型:它们能做什么,不能做什么

这是我的另一个项目。最初,我打算创建一个韩语版的MT-Bench,但很快意识到由于LogicKor已经发布,这会是重复工作。于是,我转向构建一个韩语LLM-即-法官,但很快发现目前没有任何强大的基准测试工具来完成这项特定任务。那时我决定创建自己的:KUDGE,目前韩国第一个也是唯一的元评估基准。

KUDGE包含两个类别:点式成对评估。在点式设置中,给定一个(提示,回复)对,评判模型使用李克特量表评估回复。在成对设置中,给定一个(提示,回复A,回复B)三元组,模型选择更好的回复。为了构建这个数据集,我雇佣了15位标注员,收集了6K条标注,包括提示、回复和李克特量表评分。人类标注的偏好数据集非常罕见——不仅在韩语中,在所有语言中都如此——所以我希望这个数据集能够被更广泛的受众使用。

在这项工作中,我特意通过注入错误信息来破坏一些回复,以评估LLM-as-a-Judge模型或奖励模型(RMs)是否能准确检测和惩罚包含错误事实的回复。(出乎意料但又不出所料地,它们完全未能做到这一点。

原生基准

虽然重新实现的基准对于评估通用能力很有用,但原生基准更适合反映韩国社区的特定需求。

韩国文化基准:HAE-RAE Bench、CLIcK、K-Viscuit

创建语言适应性LLM的常见方法是持续在原生语料库上进行预训练。然而,这需要超过10亿个token,收集起来并不容易。因此,一个流行的替代方法是翻译英文语料库并在此基础上进行训练。这种方法的问题在于,它不能保证模型能学到特定文化的知识。例如,韩语历史的全面信息不太可能存在于英文文本中,因此即使完美翻译,模型能否获得一个母语为韩语的人所期望的深度知识也尚不清楚。为了弥补这一空白,引入了像HAE-RAE BenchCLIcK这样的基准。两者都是多项选择问答基准,涵盖了韩国文化的独特方面,确保了更具文化相关性的评估。

comp

图2:HAE-RAE Bench 和 CLIcK 的类别比较

K-Viscuit采取了类似的方法,但侧重于视觉问题,使其成为唯一专门为韩国文化设计的VQA(视觉问答)数据集。

comp

图3:《评估视觉和文化解读:K-Viscuit基准与人机VLM协作》中的图片

我一直考虑创建自己的韩国语境视觉推理基准,包括图4所示的问题。

comp

图4:我曾想过的一个样本问题。答案是**东**

模型在遇到这个问题时应该:

  1. 识别图像中显示的纪念碑
  2. 判断图像是否被镜像。.
  3. 回忆起纪念碑(光化门)是面朝南建造的事实
  4. 运用推理,根据纪念碑的方向找出哪个方向是右边。

不幸的是,我只想到这一个问题。

韩国社会价值观基准

另一个独特的基准是KorNAT,它包含主观性问题。由于问题本身具有主观性,因此没有固定答案。相反,答案是从6174名独特的韩国参与者的大规模调查中收集的。目标是评估大型语言模型(LLM)在价值观和观点上与韩国母语使用者的契合程度。

翻译的基准

正如我之前提到的,我不太看重翻译的基准,特别是对于知识型基准,我认为它们的翻译版本意义不大。然而,在某些领域,知识的语言依赖性较低,在这些情况下,翻译版本完全有效。因此,我创建了这一部分来介绍一些翻译的基准,以防有人觉得它们有用。

  • GSM8K-KoGSM8K的机器翻译版本。数学是语言无关知识的一个很好的例子。只要翻译质量可靠,我认为这可能很有用。MGSM也有一个韩语版本

  • Ko-H5:这是对四个英语基准的翻译:ARC、HellaSwag、MMLU和TruthfulQA。值得注意的是,该数据集以排行榜的形式提供,其中评估是为您运行的,而没有发布实际数据集,该数据集仍然是私有的。排行榜突出了一个问题——尽管数据集是私有的,人们仍然能够过度拟合它。在认识到这一点后,排行榜背后的团队推出了第二个版本,其中包括更广泛的翻译基准,例如GPQAWinoGrande、GSM8K、EQ-BenchIFEval。不幸的是,排行榜现在严重积压,有874个待评估。由于所有数据集都保持私有,因此在排行榜系统之外无法实际使用它们。尽管如此,第一个版本在韩国社区引起了巨大轰动,吸引了无数开发者尝试微调大型语言模型。

结论

我省略了一些与安全性相关的基准,因为这不是我的专业领域,但我会在这里列出它们的名称,供有兴趣进一步探索的人参考(KoBBQ、SQuAReKoSBiKOLD)。在我的最后一篇博文中,我计划分享我在多篇基准测试论文中的一些基准测试结果。我的目标是阐明大型语言模型在韩语基准测试中的表现,并对其韩语能力进行回顾。

社区

注册登录以评论