性能比较:Llama-3.2 与 Llama-3.1 LLM 以及更小模型 (3B, 1B) 在医疗和健康AI领域的表现 🩺🧬💊

社区文章 发布于2024年9月26日

我们对Meta公司不同版本的LLaMA-3.2模型(包括大型模型90B、70B和小型模型3B、1B)在处理医学知识任务方面的表现进行了探索,以下是我们的初步发现,所有测试均未进行微调。

image/png

主要发现

Llama-3.1 70B 优于 Llama-3.2 90B

尽管参数量更高,**Llama-3.2 90B** 的表现却不如 **Llama-3.1 70B**,尤其在 MMLU 大学生物和专业医学等专业任务中表现更差。

Meta-Llama-3.2-90B 视觉指令模型和基础模型:它们一样吗?

一个有趣的发现是 **Meta-Llama-3.2-90B 视觉指令模型** 和 **基础模型** 在所有数据集上的表现 **完全一致**,这对于指令微调模型来说很不寻常。详情请看下文。

详细比较

以下是这些模型在医学领域的表现,使用了 MMLU 大学生物学、专业医学和 PubMedQA 等数据集。

🥇 Meta-Llama-3.1-70B-Instruct

  • 平均分数 84%
  • MMLU 大学生物 95.14%
  • MMLU 专业医学 91.91%
  • 该模型在各项测试中表现出色,是总体表现最佳的模型。

🥈 Meta-Llama-3.2-90B-Vision (Instruct & Base)

  • 平均得分: 83.95%(并列第二)
  • MMLU 大学生物 93.06%
  • MMLU 专业医学 91.18%
  • 有趣的是,该模型的 **Instruct** 和 **Base** 版本在所有数据集上的表现完全相同。

🥉 Meta-Llama-3-70B-Instruct

  • 平均分数 82.24%
  • MMLU 医学遗传学 93%
  • MMLU 大学生物 90.28%
  • 该模型在医学遗传学方面表现尤为出色。

小型模型分析

评估小型模型在处理医学任务方面的表现。

image/jpeg

🥇 Phi-3-4k

  • 平均分数 68.93%
  • MMLU 大学生物 84.72%
  • MMLU 临床知识 75.85%
  • 感谢 Sebastien Bubeck 的努力,该模型在小型模型类别中脱颖而出。

🥈 Meta-Llama-3.2-3B-Instruct

  • 平均分数 64.15%
  • MMLU 大学生物 70.83%
  • PubMedQA 70.6%

🥉 Meta-Llama-3.2-3B

  • 平均分数 60.36%
  • MMLU 大学生物 63.89%
  • PubMedQA 72.8%

视觉模型表现一致:怎么回事?

这项研究最令人惊讶的结果是 **Meta-Llama-3.2-90B 视觉指令模型** 和 **基础模型** 表现 **完全相同**。通常,指令模型会针对特定任务进行微调,并预期与基础模型表现不同。然而,这两个版本在所有9个数据集上均获得了完全相同的 **83.95%** 的平均得分。

模型间异常的一致性

在 **Meta-Llama-3.2-11B Vision** 模型中也发现了这种模式。其 **Instruct** 和 **Base** 版本平均得分均为 **72.8%**,表现没有差异。这引出了一个有趣的问题:这些模型的 **视觉调优** 是否较少依赖于特定任务的指令?

结论

总而言之,**Llama-3.1-70B** 仍然是医学任务中的最佳表现者,优于更大的 **Llama-3.2-90B** 模型。在小型模型方面,**Phi-3-4k** 处于领先地位,而 **Meta-Llama-3.2 视觉模型**(包括 Instruct 和 Base)的表现相同,这可能表明视觉模型在医疗应用中的优化方向。

有关详细结果,请查看 GitHub 上的 JSON 文件:GitHub

如果这对您的工作有帮助,请按以下方式引用此文章:

@misc{MedLLama3,
  author = {Ankit Pal},
  title = {Performance Comparison: Llama-3 Models in Medical and Healthcare AI Domains},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/blog/aaditya/llama3-in-medical-domain}}
}

对医疗 AI 感兴趣吗?请关注 @OpenlifesciAI 获取每日医疗 LLM 论文/模型更新。加入我们拥有 500 多名专家的 Discord 社区,讨论医疗 LLM、数据集、基准测试等!

社区

注册登录 发表评论