自动合并数据简要分析,特色:SLERP和DARE-TIES LLM合并

社区文章 发布于2024年3月24日

TL;DR:在这篇文章中,我们将首次查看Maxime Labonne创建的Hugging Face空间“automerger”生成的数据。首先,我们比较了模型在四个基准测试中的得分:GPT4All、BigBench、AGIEval和TruthfulQA。我们还将研究SLERP和DARE-TIES这两种策略的得分分布。

什么是“自动合并”?

自动合并会从Open LLM排行榜的前20名中随机抽取两个模型,以P(SLERP=0.4)和P(DARE-TIES=0.6)的概率随机选择合并策略,然后合并模型。在撰写本文时,自动合并对每个SLERP或DARE-TIES合并使用相同的mergekit参数。您可以通过Maxime的这篇文章mergekit库了解更多关于这些策略的信息。

我将在下面给出这两种合并策略的一些背景信息。

SLERP

在讨论SLERP之前,我们可以先看看它更简单的表亲LERP(线性插值)。

如果我们有两个向量,例如x, yRn x,\ y\in \mathbb{R}^n ,那么最简单的组合方式可能是通过LERP:tx+(1t)yt\cdot x+ (1-t)\cdot y,其中t(0,1) t\in (0,1)

要将LERP应用于模型合并,我们只需要两个模型的参数向量θ1θ2\theta_1\, \theta_2,然后我们可以计算θ=tθ1+(1t)θ2\theta = t\cdot \theta_1+(1-t)\cdot \theta_2,其中θ \theta表示新的参数向量。

有关模型合并策略的探讨,请参阅Wortsman、Ilharco、Gadre等人于2022年发表的关于模型汤(model soups)的工作,以及Ilharco、Riberio、Wortsman于2022年发表的任务算术(task arithmetic)。任务算术既是一种合并策略,也是一种思考框架,因此我推荐它作为阅读材料。

SLERP通过沿球面路径移动来在点之间进行插值(参见下图示例),并考虑原始点之间的角度。SLERP在基准测试中的成功表明,沿着球面路径选择模型具有优势(参见Goddard等人于2024年发表的“Arcee’s MergeKit: 一个用于合并大型语言模型的工具包”第2.2.1节中的讨论)。

LERP与SLERP在点之间的路径。

虽然我们可以同时线性组合任意数量的模型,但SLERP只能合并两个模型。SLERP合并中使用的其中一个模型称为“基础模型”。

SLERP将插值因子tt作为参数,其预期行为是:t=0t=0返回基础模型,t=1t=1返回第二个模型。

DARE-TIES

通常,对具有不同损失轨迹的模型进行朴素插值会导致性能损失(如B. Neyshabur、H. Sedghi和C. Zhang于2020年发表的“迁移学习中正在迁移什么?”中所讨论的)。Yadav、Tam、Chosen等人(2023年)的Ties-Merging算法考虑了参数之间的干扰,原因如下:

  1. 存在冗余参数,这些参数可能使一个模型的良好参数偏离最优值;
  2. 参数之间存在相反的符号,这可能使合并模型中相应参数的值归零。

"TIES"代表"TRIM, ELECT SIGN & MERGE"(修剪、选择符号并合并),这些是算法为控制上述两种干扰来源所采取的步骤。

mergekit文档对DARE-TIES算法的描述如下:

与TIES类似,[DARE]对任务向量进行稀疏化以减少干扰。不同之处在于DARE使用随机剪枝和新颖的重新缩放,以更好地匹配原始模型的性能。DARE可以与TIES的符号共识算法(dare_ties)一起使用,也可以不使用(dare_linear)。

基准测试

自动合并空间使用“另一个LLM排行榜”来评估模型的性能。该排行榜包括以下基准测试:

  • TruthfulQA:测试模型的准确性/事实性。检查诸如“变色龙为什么会变色?”等问题。
  • BigBench:“超越模仿游戏基准”包含200多个任务,如自动分类、作者身份验证等。
  • GPT4ALL:该基准测试使用各种不同的数据集,例如HellaSwag、WinoGrande、BoolQ等。
  • AGIEval:该基准测试针对人类水平的认知能力,通过数学测试、法律考试等来测试LLM。

您可以在此处找到有关LLM基准测试的更多详细信息,尽管此空间正在迅速发展。

在下面显示的所有基准测试中,最高分是100分,最低分是0分。

数据

您可以在此处找到数据集。为了构建它,我抓取了基准测试页面“另一个LLM排行榜”的一个子集,筛选出自动合并的模型,然后获取它们各自的mergekit参数。该数据集包含110行,其中61行来自SLERP,49行来自DARE-TIES。

以下是此数据集中最受欢迎的5个基础模型(根据它们的使用频率)。

0Gille/StrangeMerges_32-7B-slerp14
1yam-peleg/Experiment26-7B10
2rwitz/experiment26-truthy-iter-0 9
3mayacinka/yam-jom-7B 7
4yam-peleg/Experiment24-7B 7

按照典型的数据科学方式,我们首先可以查看所有110个模型的基准测试配对图。

所有合并模型的所有基准测试配对图。

我们看到BigBench与其余基准测试的关联性很小。此外,BigBench、AGIEval和GPT4All似乎具有大致对称的分布。相反,TruthfulQA有一个尾部,并且似乎与其余的基准测试呈负相关。🤔

在下面的相关矩阵中,我们可以看到情况确实如此,其中最有趣的是TruthfulQA和GPT4All,它们的相关性0.6\approx -0.6,其次是AGIEval,相关性0.4\approx -0.4

所有合并模型的基准测试相关性。TruthfulQA与所有其他基准测试都呈负相关!

利用这个数据集,我们还可以比较SLERP和DARE-TIES在所有基准测试中的性能。为了保持简洁,我使用密度图来总结其行为。

每个基准和合并方法的密度图。

DARE-TIES似乎在“差模型”区域(见上图左侧尾部)有略多的模型。SLERP似乎在右侧尾部有更多模型,但这并不一致(我们也必须考虑到样本量/模型选择中的偏差)。即使我们将数据集子集化以仅包含基础模型具有SLERP和DARE-TIES合并示例的情况(这会将表从110行减少到94行),这种情况也不会消失。

总结

在这篇文章中,我们简要讨论了来自Hugging Face自动合并空间的一小部分数据。随着更多数据的积累和各种工具/基准测试的进一步扩展,社区将能够更深入地了解这些合并策略何时何地适用。

社区

注册登录评论