比较小于50GB的Llama 4 Scout量化模型(KLD/Top P)
重要免责声明:KLD并非衡量一切的标准,PPL更是如此,Top P则…多少有点用。
还要非常感谢BeaverAI Club的Artus(Discord服务器链接:https://discord.gg/kfhWt9XeSB),他帮助我运行了完整的BF16模型的KLD计算,否则我可能要花几天时间才能完成 :D
在着手Maverick项目之前,我决定投入一些计算资源,来计算几个我发布的小型Scout量化模型的PPL/KLD/Top P值,这些模型在相同的设置下,但排除了我的PR更改(即主分支版本会生成的内容),甚至还加入了几个Unsloth的量化模型。
此举是为了查看我的PR更改是总体上有益还是有害。我不太喜欢它们变得更大,这让我们失去了一些“IQ1_M”(本来应该平均1.75BPW……)之类的含义,但无论如何,我认为值得 выяснить这些更改是否值得继续并应用于Maverick。
原始数据(手机用户请见谅)
测量 | IQ1_M (我的版本) | IQ1_M (主分支版本) | IQ2_XXS (我的版本) | IQ2_XXS (主分支版本) | IQ2_S (我的版本) | UD-IQ1_M (unsloth版本) | Q2_K_L (我的版本) | Q2_K_L (主分支版本) | UD-Q2_K_XL (unsloth版本) | IQ3_XXS (我的版本) | IQ3_XXS (主分支版本) |
---|---|---|---|---|---|---|---|---|---|---|---|
大小 (GB) | 26.32 | 24.57 | 30.17 | 28.56 | 34.34 | 35.4 | 44 | 40.57 | 42.6 | 44.96 | 41.66 |
平均PPL | 11.81 | 13.79 | 10.55 | 11.66 | 9.85 | 10.30 | 9.02 | 9.88 | 9.31 | 9.266434 | 9.76184 |
KLD | |||||||||||
平均 | 0.691 | 0.933 | 0.464 | 0.664 | 0.361 | 0.376 | 0.217 | 0.332 | 0.185 | 0.164 | 0.244 |
最大值 | 17.819 | 23.806 | 26.647 | 26.761 | 17.597 | 21.264 | 24.180 | 17.556 | 23.286 | 28.166 | 25.849 |
99.9% | 9.912 | 10.822 | 7.897 | 10.029 | 6.693 | 6.995 | 11.729 | 12.766 | 4.213 | 4.232 | 4.964 |
99% | 5.463 | 6.250 | 4.084 | 5.094 | 3.237 | 3.560 | 2.108 | 2.966 | 1.844 | 1.600 | 2.178 |
中位数 | 0.315 | 0.503 | 0.187 | 0.336 | 0.141 | 0.131 | 0.067 | 0.125 | 0.060 | 0.056 | 0.099 |
10% | 0.0053 | 0.0099 | 0.002 | 0.004 | 0.0012 | 0.0012 | 0.0005 | 0.0009 | 0.0004 | 0.0004 | 0.0005 |
5% | 0.00097 | 0.00179 | 0.0003 | 0.00064 | 0.00019 | 0.00018 | 0.00008 | 0.00013 | 0.00005 | 0.00005 | 0.00007 |
1% | 0.000046 | 0.000073 | 0.000011 | 0.000030 | 0.000007 | 0.000007 | 0.000003 | 0.000004 | 0.000001 | 0.000001 | 0.000002 |
Delta 概率 | |||||||||||
平均 | -8.03% | -10.30% | -4.62% | -6.70% | -3.38% | -3.46% | -2.14% | -2.37% | -1.38% | -1.13% | -1.57% |
最大值 | 99.67% | 98.73% | 99.81% | 99.81% | 99.13% | 98.90% | 99.88% | 99.81% | 99.83% | 99.91% | 99.89% |
99.9% | 77.40% | 79.77% | 76.36% | 79.42% | 75.03% | 76.59% | 69.34% | 75.65% | 69.69% | 65.60% | 71.73% |
99% | 42.37% | 47.40% | 41.62% | 47.11% | 40.06% | 40.50% | 32.34% | 41.88% | 33.46% | 31.38% | 37.88% |
95.00% | 15.79% | 18.51% | 16.32% | 19.86% | 16.05% | 15.56% | 12.41% | 17.30% | 12.83% | 12.71% | 16.04% |
90.00% | 6.59% | 7.56% | 7.69% | 9.05% | 7.62% | 7.33% | 5.92% | 8.86% | 6.43% | 6.50% | 8.23% |
75.00% | 0.16% | 0.13% | 0.44% | 0.35% | 0.54% | 0.51% | 0.53% | 0.89% | 0.70% | 0.70% | 0.86% |
中位数 | -0.78% | -1.21% | -0.18% | -0.42% | -0.09% | -0.09% | -0.03% | -0.02% | -0.01% | -0.01% | -0.01% |
25.00% | -11.66% | -15.85% | -6.11% | -9.93% | -4.65% | -4.56% | -2.86% | -3.40% | -2.11% | -1.96% | -2.66% |
10.00% | -35.57% | -46.38% | -23.74% | -34.08% | -19.19% | -18.97% | -12.61% | -16.60% | -10.76% | -10.12% | -13.68% |
5.00% | -56.91% | -68.67% | -40.94% | -53.40% | -33.86% | -34.31% | -23.01% | -30.06% | -20.07% | -18.53% | -24.41% |
1.00% | -91.25% | -95.39% | -80.42% | -87.98% | -70.51% | -73.12% | -55.83% | -67.16% | -49.11% | -44.35% | -53.65% |
0.10% | -99.61% | -99.87% | -98.74% | -99.76% | -95.85% | -95.98% | -99.92% | -99.92% | -82.64% | -78.71% | -86.82% |
最小值 | -100.00% | -100.00% | -100.00% | -100.00% | -99.95% | -99.99% | -100.00% | -100.00% | -99.90% | -100.00% | -100.00% |
RMS Δp | 23.63% | 27.63% | 19.13% | 23.06% | 16.88% | 17.16% | 13.55% | 16.31% | 12.16% | 11.30% | 13.69% |
相同的顶部 | 68.58% | 62.65% | 74.02% | 67.77% | 76.74% | 77.00% | 82.92% | 77.85% | 83.42% | 84.28% | 80.08% |
上述图像
https://i.imgur.com/35GAKe5.png
编辑:我搞错了一些较低的计算!(这就是我包含原始数据的原因,哈哈……)这里是更新后的图片
https://i.imgur.com/hFkza66.png
我还为Top P的大小添加了一个logit(并在之后乘以100使其更清晰),因为我认为这能更清晰地描绘Top P……显然,如果模型非常小但有时能给出正确答案,它会获得超高的Top P/GB,但当Top P越接近100时,差异就越重要。在我看来,logit计算能更好地反映这些差异。
我在底部添加了一些“指标”,比如1/PPL/MB(因为GB是一个很小的数字)
对于所有这些指标,数值越大越好(我将PPL、KLD和RMS进行了反转,以获得有意义的结果,因为按GB计算的较小值是一种奇怪的衡量标准)。
我添加了一些颜色来突出一些内容,但请不要过度解读,这纯粹是信息性的。我不能真正说明哪些值更重要(尽管我会说PPL本身似乎相当无用,即使是完整的BF16模型也超过了8)。
KLD、RMS和Top P都与PPL无关,它们只是告诉你量化模型与完整模型权重有多相似。这并不意味着越接近就越好,只是更相似而已。
我分享了所有信息,因为每个量化模型在不同部分表现出色。
就每GB性能而言,我的IQ3_XXS似乎名列前茅,但它的最大KLD值是迄今为止最差的……这并不是特别令人担忧,因为99.9%的值非常合理,但值得注意的是,没有哪个量化模型在所有方面都表现最佳。
最重要的是,我的IQ3_XXS和Unsloth的UD-Q2_K_XL似乎是50GB以下模型的王者,在图表中互有胜负,我的模型大了2.36 GB。
如果你需要更小的模型,我的IQ2_S和Unsloth的UD-1Q_M相似,Unsloth的模型大了1.05GB。
总之,希望有人能在图表中发现有趣的东西!