推出 UNA-斗牛犬系列
社区文章 发布于 2024 年 6 月 1 日

Replete-AI/code_bagel_hermes-2.5
mlabonne/orpo-dpo-mix-40k
jondurbin/py-dpo-v0.1
可在 Hugging Face Hub 上获取 fblgit/UNA-ThePitbull-21.4B-v2,您还可以从 @bartowski 赞助的 Quant 版本处获取,地址为 bartowski/UNA-ThePitbull-21.4B-v2-GGUF,完全兼容 Ollama、llama.cpp 等。
评估
详细的评估结果可在此处找到:此处
指标 | 值 |
---|---|
平均 | 77.82 |
AI2 推理挑战(25-Shot) | 77.73 |
HellaSwag(10-Shot) | 91.79 |
MMLU(5-Shot) | 68.25 |
TruthfulQA(0-shot) | 78.24 |
Winogrande(5-shot) | 87.37 |
GSM8k(5-shot) | 63.53 |
UNA
在这种情况下,我们尝试了一些新方法,通过交替 MLP 和 Attention 层的均匀性,在保持高性能结果的同时降低了计算要求。
奖励
我们根据以下条款对其进行了训练:
- 以 ThePitbull-v1 为基础:SFT 最大学习率 1e-4,最小学习率 5e-5,训练 1 个 Epoch
- DPO 最大学习率 1e-4,最小学习率 5e-5,训练 1 个 Epoch
您可以继续训练,只需使用 5e-5 的最大学习率和 0 个预热步骤,这样可以最大限度地减少模型的灾难性遗忘。
请记住,如果您这样做,请在您的模型中包含一张斗牛犬图片并引用 :) 玩得开心!