性能比较:Llama-3.2 与 Llama-3.1 LLM 以及更小模型 (3B, 1B) 在医疗和健康AI领域的表现 🩺🧬💊
我们对Meta公司不同版本的LLaMA-3.2模型(包括大型模型90B、70B和小型模型3B、1B)在处理医学知识任务方面的表现进行了探索,以下是我们的初步发现,所有测试均未进行微调。
主要发现
Llama-3.1 70B 优于 Llama-3.2 90B
尽管参数量更高,**Llama-3.2 90B** 的表现却不如 **Llama-3.1 70B**,尤其在 MMLU 大学生物和专业医学等专业任务中表现更差。
Meta-Llama-3.2-90B 视觉指令模型和基础模型:它们一样吗?
一个有趣的发现是 **Meta-Llama-3.2-90B 视觉指令模型** 和 **基础模型** 在所有数据集上的表现 **完全一致**,这对于指令微调模型来说很不寻常。详情请看下文。
详细比较
以下是这些模型在医学领域的表现,使用了 MMLU 大学生物学、专业医学和 PubMedQA 等数据集。
🥇 Meta-Llama-3.1-70B-Instruct
- 平均分数 84%
- MMLU 大学生物 95.14%
- MMLU 专业医学 91.91%
- 该模型在各项测试中表现出色,是总体表现最佳的模型。
🥈 Meta-Llama-3.2-90B-Vision (Instruct & Base)
- 平均得分: 83.95%(并列第二)
- MMLU 大学生物 93.06%
- MMLU 专业医学 91.18%
- 有趣的是,该模型的 **Instruct** 和 **Base** 版本在所有数据集上的表现完全相同。
🥉 Meta-Llama-3-70B-Instruct
- 平均分数 82.24%
- MMLU 医学遗传学 93%
- MMLU 大学生物 90.28%
- 该模型在医学遗传学方面表现尤为出色。
小型模型分析
评估小型模型在处理医学任务方面的表现。
🥇 Phi-3-4k
- 平均分数 68.93%
- MMLU 大学生物 84.72%
- MMLU 临床知识 75.85%
- 感谢 Sebastien Bubeck 的努力,该模型在小型模型类别中脱颖而出。
🥈 Meta-Llama-3.2-3B-Instruct
- 平均分数 64.15%
- MMLU 大学生物 70.83%
- PubMedQA 70.6%
🥉 Meta-Llama-3.2-3B
- 平均分数 60.36%
- MMLU 大学生物 63.89%
- PubMedQA 72.8%
视觉模型表现一致:怎么回事?
这项研究最令人惊讶的结果是 **Meta-Llama-3.2-90B 视觉指令模型** 和 **基础模型** 表现 **完全相同**。通常,指令模型会针对特定任务进行微调,并预期与基础模型表现不同。然而,这两个版本在所有9个数据集上均获得了完全相同的 **83.95%** 的平均得分。
模型间异常的一致性
在 **Meta-Llama-3.2-11B Vision** 模型中也发现了这种模式。其 **Instruct** 和 **Base** 版本平均得分均为 **72.8%**,表现没有差异。这引出了一个有趣的问题:这些模型的 **视觉调优** 是否较少依赖于特定任务的指令?
结论
总而言之,**Llama-3.1-70B** 仍然是医学任务中的最佳表现者,优于更大的 **Llama-3.2-90B** 模型。在小型模型方面,**Phi-3-4k** 处于领先地位,而 **Meta-Llama-3.2 视觉模型**(包括 Instruct 和 Base)的表现相同,这可能表明视觉模型在医疗应用中的优化方向。
有关详细结果,请查看 GitHub 上的 JSON 文件:GitHub。
如果这对您的工作有帮助,请按以下方式引用此文章:
@misc{MedLLama3,
author = {Ankit Pal},
title = {Performance Comparison: Llama-3 Models in Medical and Healthcare AI Domains},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/blog/aaditya/llama3-in-medical-domain}}
}
对医疗 AI 感兴趣吗?请关注 @OpenlifesciAI 获取每日医疗 LLM 论文/模型更新。加入我们拥有 500 多名专家的 Discord 社区,讨论医疗 LLM、数据集、基准测试等!