RegMix：将数据混合作为语言模型预训练的回归任务

社区文章发布于2024年7月11日

刘倩 (Qian Liu)

SivilTaram

您还在凭人类直觉混合不同来源的语料库进行预训练吗？🧠

大家都说数据混合对模型性能有很大影响，但具体如何影响？为什么？🕵️

您知道网络语料实际上对下游任务影响巨大吗？🏆

请查看我们的预印本“RegMix：将数据混合作为语言模型预训练的回归任务”📄

🔬 在这篇论文中，我们提出了一种自动数据混合方法RegMix，在广泛使用的HellaSwag基准测试中，它比人工选择的性能提高了6.3%，并且仅需要额外2%的训练FLOPs！📈

🎮 演示：https://huggingface.co/spaces/sail/RegMix
📄 论文：https://huggingface.co/papers/2407.01492
💻 代码：https://github.com/sail-sg/regmix
📊 模型与数据：https://huggingface.co/collections/sail/regmix-data-mixture-as-regression-6682b6caab37b9442877f0ce

数据混合很重要，但充满挑战

🤖📚 大型语言模型（LLMs）由来自互联网的庞大、多样化数据集提供支持，其中包括学术论文、书籍和各种在线资源（Gao et al. 2020）。随着LLMs规模和复杂性的增长，其训练数据的组成变得越来越重要。GPT-3作为开创性LLMs之一的创建者，很早就认识到了数据混合的重要性。他们特意选择对维基百科内容进行上采样，因为它被认为质量很高。

🧩 挑战：随着LLM预训练中使用的数据量和多样性不断扩大，确定理想数据混合的任务变得越来越复杂。手动数据选择方法可能会导致次优选择。

🔬 核心研究问题：我们如何才能以可扩展和自动化的方式，为训练LLMs决定高性能的数据混合？

Gao et al. 2020. The Pile: 一个800GB的语言模型多样文本数据集, https://arxiv.org/abs/2101.00027

核心思想：从小到大的泛化

💡考虑到选择最佳数据混合的挑战，我们的核心思想很简单：训练并识别使用不同数据混合的小规模表现最佳模型，然后将这些发现直接泛化到大规模模型训练中。

RegMix：将数据混合作为回归任务

具体来说，我们的RegMix方法将数据混合选择视为一个回归任务。其工作原理如下：

用少量token在各种数据混合上训练一些小规模代理模型🐣
使用这些结果拟合回归模型📈
使用回归模型预测大规模训练的最佳混合🔮
在此优化混合上训练大规模模型🚀

小规模代理模型训练的计算成本（FLOPs）仅为最终大规模模型训练的约2%。

为了直观地展示该过程，我们提供一个具体示例，使用Hacker News、GitHub和PhilPapers作为训练领域。在代理模型训练阶段，StackExchange上的验证损失被用作优化目标指标。

回归在不同模型规模下效果良好

🏎️ RegMix最令人兴奋的是它的效率。它允许您通过训练少量模型来探索大量的潜在混合（甚至包含40多个领域）。

具体来说，在1B token上训练1M模型可以预测256x 1M模型在未见过的数据混合上的性能，相关性高达98.45%。

此外，RegMix可以在实际训练之前，自动识别64x 1B模型（25B token）中表现最佳的数据混合💡💰。

洞察1：数据混合显著影响下游性能

我们实验了64个模型，每个模型有1B参数，在不同的数据混合上进行训练，并评估它们在各种基准测试中的性能。结果显示，数据混合显著影响下游性能——在某些任务上，差异高达14.6%！😮

洞察2：网络语料对下游性能的益处最大

像CommonCrawl 🌐 这样的网络语料竟然与语言模型下游性能呈最强的正相关，甚至超过了像Wikipedia这样精心策划的来源！📚 这种模式在大多数网络领域都成立，表明CommonCrawl的多样性推动了当今LM的成功。🚀

此外，无论是游戏网站（如IGN 🎮）还是YouTube 📺，它们都表现出相似的模式。但http://patents.google.com 📄 和 http://springer.com 📗 似乎遵循不同的趋势。

洞察3：领域交互对人类来说难以理解

领域交互复杂且常常违反直觉，这突显了对RegMix等自动化方法的需求。🧩

例如，PhilPapers领域似乎在线性回归建模下为所有其他领域带来了收益，这挑战了人类直观的理解。🤯📚 那么，PhilPapers是什么？它是一个哲学数据库……

RegMix考虑了token可用性

🔑以前的数据混合方法难以平衡token可用性和有效性。然而，RegMix可以通过控制模拟空间轻松控制token可用性——特别是考虑到Niklas et al. 2023的4个epoch实践。

🔬例如，如果您的HackerNews token数量与预期训练token相比为3%，并且您能够重复4个epoch，那么您可以在模拟中轻松地将HackerNews的最大权重设置为12%。

Niklas et al. 2023. 扩展数据受限语言模型, https://arxiv.org/abs/2305.16264

RegMix已应用于14B模型

🔬 尽管我们目前的论文由于计算限制只针对1B参数以下的模型进行了研究，但我们成功地将相同的数据混合方法应用于我们的Sailor论文（Dou et al. 2024）中。

🚀 值得注意的是，我们发现使用0.5B代理模型识别出的最佳数据混合策略展示了令人印象深刻的可扩展性，在高达14B参数的模型中也表现出色！💪

Dou et al. 2024. Sailor：东南亚开放语言模型, https://arxiv.org/abs/2404.03608 您也可以在此处找到该论文：https://huggingface.co/papers/2404.03608

在您的数据集上尝试RegMix

我们还提供了如何在您的数据集上应用RegMix方法的说明，请尝试并在此处留下评论！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论