优化上下文检索，利用开源大语言模型实现经济高效、高性能的医疗AI

社区文章发布于 2025 年 4 月 14 日

Jordi Bayarri

JordiBayarri

大型语言模型（LLMs）在医疗应用中潜力巨大，从辅助医疗问答到改善临床决策支持。然而，领先的专有模型的高昂运营成本和可访问性限制常常构成重大障碍，特别是在资源有限的环境中。要在医疗领域实现所需的高水平性能和可靠性，需要创新方法，平衡能力与成本效益。

我们最近的论文 “通过上下文检索实现医疗领域帕累托优化开源LLMs” 直接解决了这一挑战。我们证明，通过策略性地使用优化上下文检索（CR）技术增强开源LLMs，可以在苛刻的医疗基准上实现最先进的性能，而成本仅为封闭模型的一小部分。

主要贡献

优化上下文检索的实用指南：我们提出了一个可复现且经过实证验证的流程，用于配置为医疗AI量身定制的经济高效的上下文检索系统。
改进帕累托前沿的实证验证：我们提供了强有力的实证证据，表明我们优化的方法显著改变了医疗问答的帕累托前沿，使开源模型能够在新的高性能和高效率状态下运行。
OpenMedQA：鉴于多项选择格式的局限性，我们引入了OpenMedQA，这是一个用于评估开放式医疗问答能力的新基准，揭示了重要的性能特征。
面向社区的开源资源：我们发布了Prompt Engine库、推理增强型CoT/ToT/Thinking数据库以及OpenMedQA基准，以促进社区的进一步研究和开发。

优化医疗领域大语言模型的上下文检索

我们的方法建立在既定的检索增强生成（RAG）原则之上，特别是受Medprompt架构的启发，但侧重于使用开源模型优化组件以实现成本效益。核心思想是将LLM的响应基于高效检索到的相关、高质量外部知识。

以下是我们优化流水线中关键组件的细分：

选项洗牌：一种简单但有效的技术，可缓解LLM在处理多项选择题时经常出现的立场偏差（例如，LLM偏爱“选项A”），并以最小的开销应用。
嵌入模型：负责对查询和数据库条目进行编码以进行语义搜索。我们发现较小的、医疗领域特定的模型（如PubMedBERT）与较大的通用模型（如SFR-Mistral）不相上下，在提供有竞争力的检索质量的同时，对资源的需求更低。
集成细化（自洽性）：通过自洽性聚合多个推理路径以实现稳健预测。我们发现使用N=5集成在准确性提升（比基线提高约3.5%）和计算成本（包括二氧化碳足迹）之间取得了很好的平衡。
高质量示例作为上下文：外部上下文的来源。我们发现，用高质量推理示例（思维链、思维树或来自强大模型的蒸馏推理）丰富数据库可以显著提升性能。我们的“Thinking”数据库，经DeepSeek-R1推理痕迹增强后，在各个基准测试中平均准确率提升了3.61%。

用开源模型重新定义成本-准确率帕累托前沿

帕累托前沿代表了准确性和计算成本之间的最佳平衡。在医疗领域，将这一前沿推向更高的准确性和更低的成本对于实际部署至关重要。历史上，像MedQA这样的基准测试中，这一前沿的顶端一直由大型、昂贵的专有模型（如GPT和Med-Palm）占据。我们的工作改写了这一历史，证明了开源LLMs，通过优化的上下文检索技术，不仅能够竞争，而且能够进一步推动这一前沿。

通过我们优化的流水线，我们对开源模型进行了基准测试，并取得了有竞争力的结果。经过我们方法增强的DeepSeek-R1在MedQA上达到了超过94%的准确率，超越了之前专有系统创造的最先进记录。同时，仅有70亿参数的Aloe-Beta-70B达到了89%的准确率，在保持更小的计算足迹的同时，缩小了与大型模型的差距。这些结果建立了一个新的效率标准，证明了无需依赖最昂贵的专有解决方案也能实现顶尖准确率。

背景：全面性能表现

我们优化的上下文检索方法在各种模型和基准测试中都表现出一致的有效性。下表展示了将上下文检索应用于几种最先进的开源LLM时的性能提升。

模型	CareQA	MedMCQA	MedQA	MMLU	平均分
Llama-3.1-8B	69.95	59.22	63.71	75.72	67.15
带 CR	+6.07	+12.79	+17.36	+9.33	+11.39

Qwen2.5-7B	72.14	56.18	61.59	77.92	66.96
带 CR	+3.08	+13.00	+12.64	+6.13	+8.71

Aloe-Beta-8B	70.77	59.57	64.65	76.50	67.87
带 CR	+5.37	+12.72	+16.26	+7.60	+10.49

Llama-3.1-70B	83.72	72.15	79.73	87.45	80.76
带 CR	+3.15	+5.69	+9.66	+3.84	+5.54

Qwen2.5-72B	85.45	69.26	77.85	88.81	80.34
带 CR	+1.08	+7.55	+7.46	+2.75	+4.71

Aloe-Beta-70B	83.19	72.15	79.73	88.44	80.88
带 CR	+4.38	+5.28	+9.11	+3.01	+5.45

DeepSeek-R1	88.33	73.34	82.48	91.27	83.86
带 CR	+4.18	+8.94	+11.94	+3.61	+7.17

GPT-4 + Medprompt*	-	79.10	90.20	94.2	-
MedPalm-2 + ER*	-	72.30	85.40	89.40	-
O1 + TPE*	-	83.90	96.00	95.28	-

*结果由他人报告。ER：Ensemble Refinement（谷歌的自定义提示技术）。TPE：Tailored Prompt Ensemble（自定义OpenAI集成技术）。

结果显示，所有测试模型和数据集的准确率都有持续且统计显著的提升。值得注意的是，增益幅度通常与基础模型的性能呈负相关——小型模型往往受益更多，平均准确率增益经常超过10%。这凸显了CR在弥补小型LLM固有知识限制方面的有效性。即使是像DeepSeek-R1这样能力很强的模型也获得了显著提升（平均增益超过7%），使其性能接近理论上限。

OpenMedQA：超越选择题

虽然多项选择题问答（MCQA）基准很有用，但现实世界的临床交互通常需要生成细致入微的自由文本响应。为解决此问题，我们引入了 OpenMedQA，这是一个从MedQA派生出来的新型基准，旨在评估LLM的开放式医疗问答能力。该基准是通过系统地将MedQA测试集中的问题重新表述为开放式格式而创建的，同时保留了原始的医疗意图并基于验证过的知识。

我们的发现？将模型在MedQA (MCQA) 和 OpenMedQA (OE-QA) 上的表现进行比较，发现在转向开放式格式时，所有评估模型的性能均出现一致下降。

模型	MedQA	OpenMedQA	性能下降
Llama-3.1-8B-Instruct	63.71	33.88	-29.82
Qwen2.5-7B-Instruct	61.59	38.76	-22.83
Llama3.1-Aloe-Beta-8B	64.65	52.91	-11.74
Llama-3.1-70B-Instruct	79.73	60.46	-19.28
Qwen2.5-72B-Chat	77.85	61.24	-16.61
Llama3.1-Aloe-Beta-70B	79.73	65.02	-14.72
DeepSeek-R1	82.48	75.86	-6.62

性能下降幅度从DeepSeek-R1的-6.62%到Llama-3.1-8B-Instruct的近-30%不等。虽然推理能力更强的模型表现出更高的鲁棒性，但这一差距凸显了生成准确和相关自由文本医疗答案相对于从预定义选项中选择的难度更大。这强调了在医疗领域对OE-QA进行有针对性的研究和评估方法的必要性。OpenMedQA已公开发布以支持这项工作。

赋能社区

真正的创新发生在社区协作中。我们很荣幸能为您提供所有资源：

Prompt Engine：开始使用我们优化的检索流水线。
OpenMedQA：使用专为开放式医疗问答复杂性设计的基准评估您的模型。
CoT/ToT/Thinking databases：访问预构建的、经过推理增强的数据集，可以提升您模型的性能。

我们邀请您探索这些资源，分享您的实验，并为推动可访问的医疗AI做出贡献。

结论与未来方向

这项研究表明，优化的上下文检索是提高开源LLM在要求苛刻的医疗领域性能和成本效益的强大技术。通过精心调整检索流程，我们使开放模型能够在医疗MCQA基准上实现最先进的准确率，同时与专有替代方案相比显著降低了成本障碍。

OpenMedQA的引入凸显了开放式医疗推理中仍存在的挑战，即使是顶级模型也表现出性能下降。未来的工作应侧重于进一步完善上下文检索策略，可能探索专门针对OE-QA的自适应集成方法，并整合领域特定的检索机制以弥合这一差距。

通过推进这些技术，我们可以开发出更可靠、更经济、更易于访问的AI解决方案，以支持医疗专业人员并改善患者预后。

📄 阅读完整论文

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论