开放医疗大型语言模型排行榜:医疗领域大型语言模型基准测试

多年来,大型语言模型(LLM)已成为一项突破性技术,在彻底改变医疗保健的各个方面方面具有巨大潜力。这些模型,如 GPT-3、GPT-4 和 Med-PaLM 2,在理解和生成类人文本方面展现出卓越的能力,使其成为解决复杂医疗任务和改善患者护理的宝贵工具。它们在医疗问答(QA)、对话系统和文本生成等各种医疗应用中尤其展现出前景。此外,随着电子健康记录(EHR)、医学文献和患者生成数据呈指数级增长,大型语言模型可以帮助医疗专业人员提取有价值的见解并做出明智的决策。
然而,尽管大型语言模型(LLM)在医疗保健领域具有巨大潜力,但仍存在需要解决的重大且具体的挑战。
当模型用于娱乐性对话方面时,错误造成的后果微乎其微;然而,在医疗领域使用时,错误的解释和答案可能会对患者护理和结果造成严重后果。语言模型提供信息的准确性和可靠性可能事关生死,因为它可能会影响医疗决策、诊断和治疗计划。
例如,当被问及医疗问题时(见下文),GPT-3 错误地为孕妇推荐了四环素,尽管它正确地解释了由于可能对胎儿造成伤害而禁用的原因。根据这一不正确的建议行事可能会导致婴儿骨骼生长问题。
为了充分利用大型语言模型在医疗保健领域的力量,开发和基准测试专门为医疗领域设计的模型至关重要。此设置应考虑医疗保健数据和应用程序的独特特征和要求。开发评估医疗大型语言模型的方法不仅具有学术意义,而且具有实际重要性,因为它们在医疗保健领域存在现实风险。
开放医疗大型语言模型排行榜旨在通过提供一个标准化平台来解决这些挑战和限制,该平台用于评估和比较各种大型语言模型在各种医疗任务和数据集上的性能。通过对每个模型的医学知识和问答能力进行全面评估,该排行榜旨在促进开发更有效和更可靠的医疗大型语言模型。
该平台使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终为更好的患者护理和结果做出贡献。
数据集、任务和评估设置
医疗大型语言模型排行榜包含各种任务,并以准确度作为其主要评估指标(准确度衡量语言模型在各种医疗问答数据集中提供正确答案的百分比)。
MedQA
MedQA 数据集包含来自美国执业医师资格考试 (USMLE) 的多项选择题。它涵盖一般医学知识,开发集包含 11,450 个问题,测试集包含 1,273 个问题。每个问题有 4 或 5 个答案选项,该数据集旨在评估美国医疗执业所需的医学知识和推理技能。
MedMCQA
MedMCQA 是一个大型多项选择问答数据集,源自印度医学入学考试 (AIIMS/NEET)。它涵盖 2.4k 个医疗保健主题和 21 个医学科目,开发集包含超过 187,000 个问题,测试集包含 6,100 个问题。每个问题有 4 个答案选项,并附有解释。MedMCQA 评估模型的通用医学知识和推理能力。
PubMedQA
PubMedQA 是一个封闭领域问答数据集,其中每个问题都可以通过查看相关上下文(PubMed 摘要)来回答。它由 1,000 对专家标记的问答对组成。每个问题都附有 PubMed 摘要作为上下文,任务是根据摘要中的信息提供是/否/可能答案。该数据集分为 500 个问题用于开发,500 个问题用于测试。PubMedQA 评估模型理解和推理科学生物医学文献的能力。
MMLU 子集(医学和生物学)
MMLU 基准测试(衡量大规模多任务语言理解)包含来自各个领域的多项选择题。对于开放医疗大型语言模型排行榜,我们重点关注与医学知识最相关的子集
- 临床知识:265 个问题评估临床知识和决策技能。
- 医学遗传学:100 个问题涵盖医学遗传学相关主题。
- 解剖学:135 个问题评估人体解剖学知识。
- 专业医学:272 个问题评估医疗专业人员所需的知识。
- 大学生物学:144 个问题涵盖大学水平的生物学概念。
- 大学医学:173 个问题评估大学水平的医学知识。
每个 MMLU 子集都包含 4 个答案选项的多项选择题,旨在评估模型对特定医学和生物学领域的理解。
开放医疗大型语言模型排行榜对模型在医学知识和推理的各个方面的表现进行了可靠评估。
洞察与分析
开放医疗大型语言模型排行榜评估各种大型语言模型 (LLM) 在各种医疗问答任务上的性能。以下是我们的主要发现:
- GPT-4-base 和 Med-PaLM-2 等商业模型在各种医疗数据集中始终取得高准确度分数,在不同医疗领域表现出强大的性能。
- 尽管尺寸较小,参数约为 70 亿,但 Starling-LM-7B、gemma-7b、Mistral-7B-v0.1 和 Hermes-2-Pro-Mistral-7B 等开源模型在某些数据集和任务上表现出有竞争力的性能。
- 商业和开源模型在科学生物医学文献理解和推理(PubMedQA)以及应用临床知识和决策技能(MMLU 临床知识子集)等任务上表现良好。
谷歌的模型 Gemini Pro 在各个医疗领域表现出色,尤其擅长生物统计学、细胞生物学和妇产科等数据密集型和程序性任务。然而,它在解剖学、心脏病学和皮肤病学等关键领域表现中等或偏低,这表明在全面的医疗应用方面仍需要进一步完善。
提交您的模型进行评估
要提交您的模型以在开放医疗大型语言模型排行榜上进行评估,请遵循以下步骤:
1. 将模型权重转换为 Safetensors 格式
首先,将您的模型权重转换为 safetensors 格式。Safetensors 是一种用于存储权重的新格式,加载和使用更安全、更快速。将您的模型转换为此格式还将允许排行榜在主表中显示模型的参数数量。
2. 确保与 AutoClasses 兼容
在提交模型之前,请确保您可以使用 Transformers 库中的 AutoClasses 加载您的模型和分词器。使用以下代码片段测试兼容性:
from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained(MODEL_HUB_ID)
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")
如果此步骤失败,请按照错误消息调试您的模型,然后再提交。很可能是您的模型上传不当。
3. 公开您的模型
确保您的模型是公开可访问的。排行榜无法评估私有或需要特殊访问权限的模型。
4. 远程代码执行(即将推出)
目前,开放医疗大型语言模型排行榜不支持需要 use_remote_code=True
的模型。然而,排行榜团队正在积极努力添加此功能,敬请关注更新。
5. 通过排行榜网站提交您的模型
一旦您的模型采用 safetensors 格式,与 AutoClasses 兼容并公开可访问,您就可以使用开放医疗大型语言模型排行榜网站上的“在此提交!”面板提交模型进行评估。填写所需信息,例如模型名称、描述和任何其他详细信息,然后单击提交按钮。
排行榜团队将处理您的提交并评估您的模型在各种医疗问答数据集上的性能。评估完成后,您的模型分数将添加到排行榜中,以便您将其性能与其他已提交模型进行比较。
下一步是什么?扩展开放医疗大型语言模型排行榜
开放医疗大型语言模型排行榜致力于扩展和适应,以满足研究社区和医疗保健行业不断发展的需求。主要关注领域包括:
- 通过与研究人员、医疗保健组织和行业合作伙伴合作,纳入更广泛的医疗数据集,涵盖医疗保健的各个方面,如放射学、病理学和基因组学。
- 通过探索除准确度之外的额外性能指标,如点式得分和捕捉医疗应用独特要求的领域特定指标,增强评估指标和报告功能。
- 目前,一些努力已经在此方向上进行。如果您有兴趣与我们合作开展我们计划提出的下一个基准测试,请加入我们的 Discord 社区 以了解更多信息并参与进来。我们很乐意与您合作并集思广益!
如果您对人工智能与医疗保健的交叉点、为医疗保健领域构建模型以及关注医疗大型语言模型的安全和幻觉问题充满热情,我们邀请您加入我们在 Discord 上充满活力的社区。
鸣谢
特别感谢所有为此做出贡献的人,包括 Clémentine Fourrier 和 Hugging Face 团队。我要感谢 Andreas Motzfeldt、Aryo Gema 和 Logesh Kumar Umapathi 在排行榜开发过程中提供的讨论和反馈。衷心感谢 Pasquale Minervini 教授提供的时间、技术援助以及爱丁堡大学提供的 GPU 支持。
关于开放生命科学人工智能
开放生命科学人工智能是一个旨在彻底改变人工智能在生命科学和医疗保健领域应用的S项目。它作为医疗模型、数据集、基准和会议截止日期跟踪列表的中心枢纽,促进了人工智能辅助医疗保健领域的合作、创新和进步。我们致力于将开放生命科学人工智能打造成为所有对人工智能和医疗保健交叉领域感兴趣的人的首选目的地。我们提供一个平台,供研究人员、临床医生、政策制定者和行业专家进行对话、分享见解并探索该领域的最新发展。
引文
如果我们的评估对您有用,请考虑引用我们的工作:
医疗大型语言模型排行榜
@misc{Medical-LLM Leaderboard,
author = {Ankit Pal, Pasquale Minervini, Andreas Geert Motzfeldt, Aryo Pradipta Gema and Beatrice Alex},
title = {openlifescienceai/open_medical_llm_leaderboard},
year = {2024},
publisher = {Hugging Face},
howpublished = "\url{https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard}"
}