韩国LLM研究指南 #1:模型
大型语言模型(LLM)已成为全球重要的研究领域。然而,大部分研究都集中在英语和汉语等一级语言上,导致多语言LLM的开发在更广泛的覆盖范围上存在空白。
因此,多语言LLM研究是一个活跃的领域,来自不同背景的研究人员正在努力推进他们各自语言的语言模型。这一进展的一个关键方面是监测不同语言的发展,因为一些经验可以相互借鉴,从而可能节省时间和资源。此外,在某些情况下,研究结果需要在新的语言中进行验证,以检查它们是否具有普适性。在这种情况下,审查新语言的所有相关材料可能会很繁琐。
为了解决这个问题,我计划为韩语LLM研究创建一个类似**维基**的资料库,或者一个轻量级的调查式博客,为在其他语言中进行类似工作的研究人员提供参考资料。这将是一个由三部分组成的系列文章:**(1)模型**、**(2)评估工具**,以及最后一篇,概述第一部分中模型的性能,使用第二部分中的评估工具。
模型
谈到韩语LLM,它们通常分为三大类:
以韩语为中心:以韩语为主要语言从头预训练的LLM。
多语言:在大型多语言数据集上训练的LLM,官方支持韩语以及许多其他语言。
韩语持续预训练:在韩语语料库上进行了额外预训练的多语言LLM。
以韩语为中心
以韩语为主要语言从头预训练的LLM。
尽管在英语和汉语以外的语言上预训练语言模型的努力相对较少,但一些热心的科技巨头(如Naver、KT和LG)和大胆的社区倡议(如EleutherAI和KIFAI)已成功推出了韩语专用模型,每个模型都有其独特的经验。
纯韩语预训练的挑战
曾几何时,创建大规模韩语语言模型的努力规模相对有限。其中著名的例子包括Polyglot-Ko、Gecko-7B和42dot_LLM。
Polyglot-Ko由EleutherAI与一些韩国初创公司合作开发,旨在创建一个韩语专用模型的开源项目。它有四种尺寸——1.3B、3.8B、5.8B和12.8B——专门在韩语数据上训练。这些是首批韩语开放模型,我认为它们大致相当于GPT-J。然而,正如英语社区了解到遵循Chinchilla的最佳扩展定律是不够的,我们在Polyglot-Ko上发现也是如此。在图1中,我们比较了Polyglot-Ko的训练预算与Chinchilla扩展定律:虽然较小的变体训练时间比Chinchilla的扩展定律长,而较大的变体则没有,但所有模型性能都很差,限制了它们的实际应用。然而,当时由于计算资源有限和韩语语料库的稀缺,小规模的训练预算是不可避免的。虽然我不知道确切的数字,但团队可能拥有少于300B的token。最终,Polyglot-Ko突出表明,纯韩语预训练本身就是一项困难的任务。

图1:Polyglot-Ko与Chinchilla扩展定律的训练预算比较
紧随其后的是Gecko-7B和42dot_LLM,两者都使用韩语、英语和代码的混合语料库进行训练。Gecko-7B也是一个开源项目,由两位研究人员在一个包含200B token的数据集上训练。据我所知,42dot_LLM是第一个非社区努力,也是第一个在超过1万亿token上训练的韩语模型。不幸的是,所有这三个模型(包括Polyglot-Ko)的性能都与同期发布的非韩语LLM(如Llama-2或Qwen-1)相当(见下表),这在一定程度上削弱了以韩语为中心的预训练工作的意义。
模型名称 | 发布日期 | KMMLU |
---|---|---|
随机基线 | - | 25.00 |
韩语LLM | ||
Polyglot-Ko-12.8B | 2023.04 | 29.26 |
42dot_LLM 1.3B | 2023.09 | 24.01 |
Gecko-7B | 2024.05 | 30.70 |
非韩语LLM | ||
Llama-2-7B | 2023.07 | 25.00 |
Llama-2-13B | 2023.07 | 31.26 |
Qwen-1-7B | 2023.09 | 18.52 |
Qwen-1-14B | 2023.09 | 30.92 |
更大规模的韩语中心LLM
我们现在看到来自Naver和LG等科技巨头的新一代LLM,它们提供了显著更好的性能。Naver的专有模型HyperCLOVA X和LG AI Research的EXAONE-3-7.8B(可在Hugging Face上获取)是杰出的例子。这两个模型都使用韩语、英语和代码的混合语料库进行训练,但规模比早期工作大得多。例如,EXAONE-3-7.8B在8万亿个token上进行训练,这标志着一个巨大的飞跃。这些模型不仅在英语性能方面与一些领先的英语LLM相媲美,而且在韩语任务中表现优于它们。

图2:《EXAONE 3.0 7.8B 指令微调语言模型》中Exaone-3-7.8B的性能。
多语言
官方支持韩语和许多其他语言的LLM
如今,我们拥有各种支持多种语言的多语言LLM。其中著名的例子包括Gemma-2 (Google)、Llama-3 (Meta)、Qwen-2.5 (阿里巴巴云)、Aya-23/Command-R (Cohere)和GPT-4/4o (OpenAI)。所有这些模型在韩语基准测试中都表现良好,根据我的经验,它们也展现出不错的沟通能力。然而,除了GPT-4/4o,许多模型的一个常见问题是**代码切换**或**非法生成**——即模型以另一种语言回答或混合不同语言的字符,即使在韩语提示下也是如此。这通常涉及混入汉字。有趣的是,最终生成的文本翻译成韩语后通常仍然有意义。

图3:Command-R-Plus 的代码切换示例
上图显示了Command-R-Plus的生成示例。黄色高亮部分表示韩语响应中混入了汉字。令人惊讶的是,当你将汉字翻译回韩语时,句子完全有意义。这表明生成错误并非完全偏离——这似乎是由于不同语言中含义相似的词语在模型的潜在向量空间中位置接近,导致偶尔的混淆。
韩语持续预训练
在韩语语料库上进行了额外预训练的多语言LLM
经过所有实验,社区意识到,虽然从零开始训练模型可能获得最佳结果,但更可持续的方法是持续预训练现有的多语言模型。这有助于增加韩语文化知识并解决**代码切换**问题。两位主要参与者在韩语持续预训练的早期工作中发挥了领导作用。
第一个是Beomi,他已经开源了广泛的韩语适应模型,采用了各种技术,如词汇扩展、深度提升缩放、聊天向量和多模态模型合并。他的一些模型训练了多达80B个新的韩语token。他还为他的几个模型提供了中间检查点,以促进进一步的研究。
另一方面,由韩国科技初创公司Yanolja开发的EEVE-Korean,仅通过2B token的持续预训练就展现了显著的性能提升。他们的方法涉及一种分步训练方法,在每个阶段有选择地冻结模型的不同部分,从而实现更高效和更有针对性的训练。为了帮助那些旨在重新实现这项研究的人,我发布了一个包含2B token的韩语语料库,请大家查看。

图4:“通过词汇扩展实现多语言大型语言模型的高效和有效”中的图片
最后,最近有一些努力在持续预训练Llama-3.1-405B。虽然我还没有尝试过,但我相信这是一个极其昂贵的项目,我很高兴能看到结果。
结论
虽然我在这篇文章中介绍了一系列模型,但我故意省略了有关其性能的详细信息。我觉得在深入探讨其结果之前,先介绍用于韩语语言模型的不同评估工具和基准会更合适。因此,我将在下一篇文章中涵盖这些主题,届时我将总结当前用于评估韩语LLM的关键基准工具。