性能比较：Llama-3.2 与 Llama-3.1 LLM 以及更小模型 (3B, 1B) 在医疗和健康AI领域的表现 🩺🧬💊

社区文章发布于2024年9月26日

安基特·帕尔 (Ankit Pal)

阿迪亚 (aaditya)

我们对Meta公司不同版本的LLaMA-3.2模型（包括大型模型90B、70B和小型模型3B、1B）在处理医学知识任务方面的表现进行了探索，以下是我们的初步发现，所有测试均未进行微调。

主要发现

Llama-3.1 70B 优于 Llama-3.2 90B

尽管参数量更高，**Llama-3.2 90B** 的表现却不如 **Llama-3.1 70B**，尤其在 MMLU 大学生物和专业医学等专业任务中表现更差。

Meta-Llama-3.2-90B 视觉指令模型和基础模型：它们一样吗？

一个有趣的发现是 **Meta-Llama-3.2-90B 视觉指令模型** 和 **基础模型** 在所有数据集上的表现 **完全一致**，这对于指令微调模型来说很不寻常。详情请看下文。

详细比较

以下是这些模型在医学领域的表现，使用了 MMLU 大学生物学、专业医学和 PubMedQA 等数据集。

🥇 Meta-Llama-3.1-70B-Instruct

平均分数 84%
MMLU 大学生物 95.14%
MMLU 专业医学 91.91%
该模型在各项测试中表现出色，是总体表现最佳的模型。

🥈 Meta-Llama-3.2-90B-Vision (Instruct & Base)

平均得分： 83.95%（并列第二）
MMLU 大学生物 93.06%
MMLU 专业医学 91.18%
有趣的是，该模型的 **Instruct** 和 **Base** 版本在所有数据集上的表现完全相同。

🥉 Meta-Llama-3-70B-Instruct

平均分数 82.24%
MMLU 医学遗传学 93%
MMLU 大学生物 90.28%
该模型在医学遗传学方面表现尤为出色。

小型模型分析

评估小型模型在处理医学任务方面的表现。

🥇 Phi-3-4k

平均分数 68.93%
MMLU 大学生物 84.72%
MMLU 临床知识 75.85%
感谢 Sebastien Bubeck 的努力，该模型在小型模型类别中脱颖而出。

🥈 Meta-Llama-3.2-3B-Instruct

平均分数 64.15%
MMLU 大学生物 70.83%
PubMedQA 70.6%

🥉 Meta-Llama-3.2-3B

平均分数 60.36%
MMLU 大学生物 63.89%
PubMedQA 72.8%

视觉模型表现一致：怎么回事？

这项研究最令人惊讶的结果是 **Meta-Llama-3.2-90B 视觉指令模型** 和 **基础模型** 表现 **完全相同**。通常，指令模型会针对特定任务进行微调，并预期与基础模型表现不同。然而，这两个版本在所有9个数据集上均获得了完全相同的 **83.95%** 的平均得分。

模型间异常的一致性

在 **Meta-Llama-3.2-11B Vision** 模型中也发现了这种模式。其 **Instruct** 和 **Base** 版本平均得分均为 **72.8%**，表现没有差异。这引出了一个有趣的问题：这些模型的 **视觉调优** 是否较少依赖于特定任务的指令？

结论

总而言之，**Llama-3.1-70B** 仍然是医学任务中的最佳表现者，优于更大的 **Llama-3.2-90B** 模型。在小型模型方面，**Phi-3-4k** 处于领先地位，而 **Meta-Llama-3.2 视觉模型**（包括 Instruct 和 Base）的表现相同，这可能表明视觉模型在医疗应用中的优化方向。

有关详细结果，请查看 GitHub 上的 JSON 文件：GitHub。

如果这对您的工作有帮助，请按以下方式引用此文章：

@misc{MedLLama3,
  author = {Ankit Pal},
  title = {Performance Comparison: Llama-3 Models in Medical and Healthcare AI Domains},
  year = {2024},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/blog/aaditya/llama3-in-medical-domain}}
}

对医疗 AI 感兴趣吗？请关注 @OpenlifesciAI 获取每日医疗 LLM 论文/模型更新。加入我们拥有 500 多名专家的 Discord 社区，讨论医疗 LLM、数据集、基准测试等！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论