通过复述网络内容来提升计算和数据效率的语言建模方法
社区文章 发布于2024年2月22日
在这篇论文[1]中,作者介绍了Web复述增强预训练(WRAP),旨在通过将网络文档复述成维基百科或问答格式来提高语言模型训练效率。这种方法解决了从嘈杂、非结构化的网络数据中学习的挑战,这通常需要大量的计算和数据资源。
方法概述
WRAP 使用一个经过指令微调的模型,将网络文档复述成各种风格,从而创建合成数据。以下是该方法的概述:
WRAP概述
这种方法能够有效地从真实数据和合成数据的混合中学习,大大减少了对高质量网络数据的需求。该过程包括提示预训练的LLM生成释义,然后将这些释义与真实数据结合起来进行模型训练。
基于高质量数据(如维基百科)能改善语言建模的观察,WRAP采用了一种策略,将网络文档复述成四种不同的风格:
易懂——即使是蹒跚学步的孩子也能理解
中等——类似于维基百科文章
难懂——使用简洁晦涩的语言
问答——采用问答格式
每种风格的提示如下所示:
4种风格的提示模板
通过利用一个经过指令微调的模型,特别是Mistral-7B,WRAP生成合成数据。然后,WRAP将这些合成数据与真实网络数据以1:1的比例结合,同时整合了互联网内容的多样性和结构化复述的质量,从而使模型能够从一个丰富的、平衡了信息内容和网络文本现实混乱性的数据集中学习。
结果
WRAP在C4数据集上的应用使预训练速度提高了大约3倍,并使Pile数据集各个子集的模型困惑度提高了10%以上。
C4 WRAP结果
它还将13项任务的零样本问答准确率提高了2%以上。
WRAP在各项任务上的结果
结论
WRAP通过利用网络数据的合成复述,显著提高了语言模型训练的效率和有效性。欲了解更多详情,请查阅完整论文。
祝贺作者们的工作!
[1] Maini, Pratyush 等人。“复述网络:一种计算和数据高效语言建模的秘诀。” ArXiv abs/2401.16380 (2024): n. pag.