医学人工智能中开源与专有大型语言模型的比较
合著者: 纳西尔·哈亚特、斯维特拉娜·马斯连科娃、克莱门特·克里斯托弗、普拉文库马尔·卡尼蒂、罗尼·拉詹
在快速发展的人工智能(AI)世界中,大型语言模型(LLM)正在医疗保健等各个行业掀起波澜。但这些模型在医疗任务中的实际表现如何?让我们简要概述一下最近对封闭和开源 LLM 在流行医学基准数据集上的评估。我们还将描述获取这些性能结果所遵循的方法、所涉及的成本以及其他相关因素。
![]() |
---|
图 1:LLM 在医学基准中的表现 |
主要结论
专有优势依然存在:以 GPT-4o 和 Claude Sonnet 为代表的闭源模型在医学基准中保持领先地位;然而,随着开源模型不断改进,差距正在缩小。
规模很重要,但不是全部:虽然大型模型通常表现更好,但一些小型开源模型显示出令人惊讶的竞争力;这表明数据、架构和训练策略与模型规模同样重要。
通用知识与专业知识:这些通用 LLM 展示了令人印象深刻的医学知识,但它们在复杂医疗场景中的局限性凸显了持续开发专业医学 AI 的需求(例如,请参阅我们提出的临床 LLM [1])。
超越基准:这些基准只触及了 LLM 在实际临床应用中能力的一小部分;为了在医疗保健领域负责任地部署 AI,需要更全面的评估框架,例如 MEDIC [2]。
开源挑战:尽管目前在这些基准中落后于专有模型,但开源 LLM 正在迅速发展。它们具有竞争力的性能,结合透明度和可访问性,使其成为医学 AI 领域的重要参与者。
为什么这很重要?
评估 LLM 在医学环境中的表现不仅仅是一项学术研究。这些模型中的许多,特别是专有模型,由于成本障碍而难以访问。此外,关于其性能的全面信息通常不易获得。这种缺乏透明度在考虑其在医疗保健应用中的潜在用途时可能会产生问题。
医学基准
为了评估 LLM 在医学环境中的表现,研究人员依赖于各种基准数据集。在这篇简要概述中,我们重点关注医学领域中一些最广泛使用的多项选择题回答数据集。
MedQA (USMLE):一个包含与美国执业医师资格考试(USMLE)类似问题的数据集,涵盖广泛的医学主题和专业(n = 1,273)。
NEJM-QA:它包含涵盖内科、普通外科、儿科、精神病学和妇产科等专业的住院医师委员会考试问题(n = 614)。
MMLU:此数据集仅包含来自更广泛的 MMLU 基准的医学相关子集(临床知识、大学生物学、大学医学、医学遗传学、专业医学和解剖学)(n = 1,089)。
MMLU-Pro:MMLU 的扩展,此数据集整合了更难的问题;仅保留了健康相关子集(n = 818)。
这些数据集是评估医学 AI 能力的常用选择,因为它们涵盖了从基本健康信息到更复杂的专业级问题等一系列医学知识。多项选择格式允许直接评估和比较不同模型。
评估方法
在评估 LLM 处理此类任务时,评估方法的选择会显著影响结果。了解这些方法对于更准确地解释性能结果至关重要。在我们的评估中,我们侧重于一种简单的方法,但值得注意的是,存在各种策略:零样本(zero-shot)、少样本(few-shot)(涉及在要求模型回答感兴趣的问题之前向其提供一些问答对示例),以及提示策略(例如思维链提示),这些策略鼓励模型展示其推理过程。
我们采用了零样本方法。模型在没有任何额外上下文或示例的情况下获得一个问题。使用的提示模板如下所示:
You are an AI designed to answer multiple-choice questions. For each question, select exactly one answer option. Do not provide explanations or commentary unless explicitly requested. Base your selection solely on the information given in the question and answer choices. If uncertain, choose the most likely correct answer based on the available information.
Question:
{question}
Options:
(A) {option_1}
(B) {option_2}
(C) {option_3}
(D) {option_4}
...
Correct answer: (
对于我们的评估指标,我们根据 LLM 的响应使用了精确匹配。这意味着模型的答案必须与正确答案(或选项)完全匹配才能被视为正确。我们报告的准确率是每个模型正确回答的问题的比例。
虽然使用的方法是直接的,但值得注意的是,存在其他评估方法(如上所述)。有关多项选择题回答数据集的其他评估方法(包括精确匹配)的概述,您可以参考这篇论文[3]。它表明不同的评估方法可能会产生不同的结果;因此,在解释性能结果时考虑具体方法至关重要。
性能深度分析
现在,让我们深入探讨我们发现的核心。我们的评估涵盖了开源和专有大型语言模型;后者通过各自的 API(由相应的提供商)访问。
模型 | 专有 | 许可证 | 发布日期 |
---|---|---|---|
Claude 3.5 Sonnet | Anthropic | 专有 | 2024 年 6 月 |
Claude 3 Opus | Anthropic | 专有 | 2024 年 3 月 |
Gemini 1.5 Pro | 谷歌 | 专有 | 2024 年 2 月 |
GPT 4o | OpenAI | 专有 | 2024 年 5 月 |
GPT 4o mini | OpenAI | 专有 | 2024 年 7 月 |
Llama 3.1 405B | Meta | Llama 3.1 社区版 | 2024 年 7 月 |
Llama 3.1 70B | Meta | Llama 3.1 社区版 | 2024 年 7 月 |
Mistral Large 2 | Mistral | Mistral 研究版 | 2024 年 7 月 |
Nemotron 4 340B | 英伟达 | NVIDIA 开放模型 | 2024 年 6 月 |
Qwen 2.5 72B | 阿里巴巴 | 通义千问许可证 | 2024 年 9 月 |
基准性能概述
查看所有基准的结果(见图 1),我们可以得出一些有趣的观察结果。
总的来说,闭源模型,特别是 GPT 4o 和 Claude 3.5 Sonnet,在各项基准中表现优异;开源模型也取得了具有竞争力的结果,但总体上落后于其专有模型。
大型模型总体表现更好,但开源模型中有一些显著例外;值得注意的是,专有模型的规模并未公开,这使得直接进行规模与性能的比较变得困难。
所有模型在 MMLU 基准的医学相关子集上都表现相对良好;MMLU 已成为各种 AI 排行榜中的热门基准;此基准上普遍强劲的表现可能表明 LLM 已针对此基准进行了良好的微调和/或优化;因此,这引发了关于其在医学领域持续区分 LLM 能力的问题。
最后,尽管这些通用 LLM 在医学基准中表现尚可,但它们在某些领域表现出局限性,特别是在具有挑战性的医学病例中(例如,在 NEJM-QA 基准中观察到)。
成本因素:API 访问和评估费用
在考虑使用这些模型时,必须将闭源模型的 API 访问成本考虑在内。OpenAI、Google 和 Anthropic 等提供商提供强大的模型,但其定价差异很大。成本通常取决于处理的令牌数量和使用的特定模型等因素。
为了让您了解所涉及的费用,让我们来看看在 MedQA 基准上评估模型的成本:
Anthropic 的模型:使用 Claude 3 Opus 生成所有 MedQA 问题的答案大约需要 7.65 美元,使用 Claude 3.5 Sonnet 则需要 1.60 美元。
OpenAI 的模型:对于相同的基准数据集,使用 GPT 4o 大约需要 0.65 美元,使用批处理 API 则需要 0.02 美元。
这些数字突出了大规模使用专有 LLM 时的成本考量。对于开源模型,我们利用了一个高性能计算集群,每个集群配备 16 个 NVIDIA H100 GPU 的两个节点,以高效部署和评估模型。
全面评估的必要性
尽管这些基准结果提供了宝贵的见解,但重要的是要记住,实际的医疗应用通常需要更详细的评估。这就是我们提出 MEDIC [2] 的原因,这是一个旨在更全面评估 LLM 在各种医疗用例中表现的新评估框架。
MEDIC 旨在:
- 评估模型在更广泛的医疗任务和临床用例中的表现
- 考虑安全性、偏见、推理和数据理解等因素
- 使用更精细的指标,更好地捕捉临床语言和决策的复杂性,为特定的医疗保健应用提供更具可操作性的见解
总之,目前的基准测试显示 LLM 在医疗领域前景光明。然而,在彻底评估这些模型以用于实际医疗应用方面仍有许多工作要做。随着这些技术的不断发展,像 MEDIC 这样的框架可能在确保其在医疗领域安全有效地部署方面发挥关键作用。