解锁医疗健康AI:我免费发布最先进的医疗模型。永久免费。

社区文章 发布于 2025 年 7 月 16 日

image/png

OpenMed 简介:380 多个免费医疗 NER 模型

医疗健康 AI 长期以来一直被昂贵的付费墙和封闭系统所束缚。研究人员、医生和开发人员不得不面对高昂的费用和神秘的“黑箱”工具,这些都拖慢了进展。现在,OpenMed超过 380 个顶尖的命名实体识别 (NER) 模型,用于医疗和临床文本,并且全部在 Apache 2.0 许可证下免费开放,正在改变这一局面。

这些模型不仅能与昂贵的商业选项相媲美,甚至超越它们,提供卓越的性能和便捷的访问,以加速全球医疗健康领域的突破。

问题:医疗AI被锁定

医疗 AI 面临一些重大障碍

  • 昂贵的许可证:小型团队和大学无法负担。
  • 隐藏的细节:商业工具不展示其工作原理。
  • 落后:许多付费模型未能跟上新技术。
  • 有限的覆盖范围:只有大型机构才能获得优质资源。

这阻碍了研究、临床进展和对更好医疗保健的公平访问。

解决方案:OpenMed NER 模型

OpenMed 提供了 380 多个免费 NER 模型,可用于处理各种医疗和临床术语,例如药品名称、疾病等。以下是它们的突出特点:

  • 完全免费:采用 Apache 2.0 许可证的开源模型。
  • 即插即用:专为实际应用而设计,开箱即用。
  • 灵活的尺寸:参数范围从 109M 到 568M。
  • 严格测试:通过 13 多个标准数据集的验证。
  • 兼容性强:与 Hugging Face 和 PyTorch 无缝协作。

这些模型打破了旧有的壁垒,使医疗 AI 对所有人开放且实用。

OpenMed 工具箱里有什么?

OpenMed 的 380 多个模型13 个关键医疗数据集上进行了微调和测试,取得了卓越成果——例如 F1 分数高达 0.998。它们有不同的尺寸,无论您需要轻量级还是超强性能的模型,总有一款适合您。

🔬 覆盖所有领域

这些模型在以下许多领域表现出色:

  • 药物与化学品:识别化合物,用于药物研究或安全跟踪。
  • 疾病与临床:提取疾病状况,以改进诊断工具。
  • 基因与分子:深入基因组学和精准医学。
  • 解剖学与术语:提升医疗记录和编码效率。
  • 癌症研究:助力肿瘤学研究。

它们非常适用于从研究论文到医院工作流程的各种场景。

🎯 OpenMed(开源)与巨头(闭源)

数据集 OpenMed 最佳 F1 (%) 闭源 SOTA F1 (%)† Δ (OpenMed – SOTA) 当前闭源领导者
BC4CHEMD 95.40 94.39 +1.01 Spark NLP BertForTokenClassification
BC5CDR-Chem 96.10 94.88 +1.22 Spark NLP BertForTokenClassification
BC5CDR-Disease 91.20 88.5 +2.70 BioMegatron
NCBI-Disease 91.10 89.71 +1.39 BioBERT
JNLPBA 81.90 82.00 –0.10 KeBioLM(知识增强型语言模型)
Linnaeus 96.50 92.70 +3.80 BERN2 工具包
Species-800 86.40 82.59 +3.81 Spark NLP BertForTokenClassification
BC2GM 90.10 88.75 +1.35 Spark NLP Bi-LSTM-CNN-Char
AnatEM 90.60 91.65 –1.05 Spark NLP BertForTokenClassification
BioNLP 2013 CG 89.90 87.83 +2.07 Spark NLP BertForTokenClassification
Gellus 99.80 63.40 +36.40 ConNER
CLL 95.70 85.98 (无已发布 SOTA)
FSU 96.10 (无已发布 SOTA)

† 闭源分数是文献中(通常是 Spark NLP、NEEDLE、BERN2 等商业模型)发现的最高同行评审/排行榜结果。

OpenMed (open-source) vs. latest closed-source SOTA

🔬 按领域分类

此表将数据集映射到其各自领域,并根据每个领域数据集的最佳性能推荐模型。

领域 包含的数据集 可用模型 大小范围(参数) 推荐模型
药理学 bc5cdr_chem, bc4chemd, fsu 90 个模型 109M - 568M OpenMed-NER-PharmaDetect-SuperClinical-434M
疾病/病理学 bc5cdr_disease, ncbi_disease 60 个模型 109M - 434M OpenMed-NER-PathologyDetect-PubMed-v2-109M
基因组学 jnlpba, bc2gm, species800, linnaeus, gellus 150 个模型 335M - 568M OpenMed-NER-GenomicDetect-SnowMed-568M
解剖学 解剖学 30 个模型 560M OpenMed-NER-AnatomyDetect-ElectraMed-560M
肿瘤学 bionlp2013_cg 30 个模型 3.55亿 OpenMed-NER-OncologyDetect-SuperMedical-355M
临床笔记 cll 30 个模型 560M OpenMed-NER-BloodCancerDetect-ElectraMed-560M

⚡ 选择您的规模

大小 参数量 最适合
紧凑型 109M 快速设置
大型 335M - 355M 准确可靠
超大 434M 综合性能优异
特大 560M - 568M 最大性能

Model size comparison showing trade-offs between performance and computational requirements

📊 各数据集中的最佳模型

下表总结了每个数据集表现最佳的模型,展示了它们的 F1 分数和大小。

这份扩展的概览详细展示了 OpenMed 的模型集合,强调了数据集覆盖的广度、模型尺寸的多样性以及针对生物医学和临床 NER 任务的卓越性能。

试用:3行代码

通过 Hugging Face Transformers,集成 OpenMed NER 模型轻而易举。

from transformers import pipeline

ner_pipeline = pipeline("token-classification", model="OpenMed/OpenMed-NER-PharmaDetect-SuperClinical-434M", aggregation_strategy="simple")
text = "Patient prescribed 10mg aspirin for hypertension."
entities = ner_pipeline(text)
print(entities)

就是这样!您会发现“阿司匹林”被识别为一种化学品,就像这样。

针对大型数据集的扩展

为了在 CPU 或 GPU 上高效处理大型数据集:

from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd

# Load your data
# Load a medical dataset from Hugging Face
from datasets import load_dataset

# Load a public medical dataset (using a subset for testing)
medical_dataset = load_dataset("BI55/MedText", split="train[:100]")  # Load first 100 examples
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)

# Process with optimal batching for your hardware
batch_size = 16  # Tune this based on your GPU memory
results = []

for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
    results.extend(out)

print(f"Processed {len(results)} texts with batching")

实际用例:医疗保健中的命名实体识别(NER)

命名实体识别(NER)是一种从非结构化文本中提取并分类关键信息(如名称、日期或医学术语)的技术。在医疗保健领域,临床笔记、患者记录和研究论文往往是混杂的自由格式数据,NER 能为这些混乱带来秩序。下面,我们将探讨 NER 如何助力三项关键任务:去识别化、实体关系提取和 HCC 编码,以及它们在医疗领域的重要性。

🔒 去识别化:保护患者隐私

是什么:去识别化是将医疗记录中的个人健康信息 (PHI)——例如姓名、地址或社会安全号码——剥离。目标:使数据匿名化,同时保持其可用性。为什么重要:患者隐私并非可选项,而是法律和道德的必然要求。美国的 HIPAA 等法律对此有明确规定。通过使用 NER 自动检测和遮蔽 PHI,医疗保健提供者和研究人员可以在不冒数据泄露风险的情况下分析数据。这比人工手动清理记录更快、更可靠。

影响:去识别化数据推动了研究并改善了医疗护理,同时确保了患者身份的安全。

🔗 实体关系提取:绘制医疗联系图

是什么:此任务识别文本中实体之间的关系——例如将药物与其副作用关联起来,或将疾病与其症状关联起来。NER 首先识别实体;然后,将这些关系串联起来。为什么重要:了解事物之间的联系可以解锁更智能的医疗保健。它为临床决策支持构建知识图谱,辅助药物发现,并根据患者情况量身定制治疗方案。没有它,医疗数据中的关键联系可能会被埋没。

影响:医生能做出更好的判断,研究人员能发现新的见解,患者也能获得符合其独特需求的护理。

💡 HCC 编码:简化成本和护理

是什么:分层条件类别(HCC)编码将代码分配给患者记录中的诊断,帮助 Medicare 等付款方预测成本并设定报销费率。NER 从笔记中提取条件,以支持这一过程。为什么重要:准确的编码确保提供者能够公平地获得复杂病例的治疗费用。它还能识别高风险患者,以便提供积极的护理。手动编码速度慢且容易出错——NER 可以加快速度并确保准确性。

影响:医疗系统节省时间,优化预算,并将资源集中用于最需要的人。

🌟 更大的图景

NER 不仅仅是一种工具,它还是一种催化剂。通过解决这些任务,它能:

加强数据安全性和合规性。通过清晰、可用的数据集加速研究。通过更敏锐的洞察力提升患者治疗效果。通过自动化繁琐流程来降低成本。

在医疗保健领域,每个细节都至关重要,NER 将原始文本转化为实际解决方案。

加入 OpenMed

加入 Hugging Face 上的 OpenMed 社区,随时了解最新动态并分享想法。

公平与开放

  • 许可证:Apache 2.0——随意使用、修改和分享。
  • 清晰信息:每个模型都附有详细说明卡。

总结

OpenMed 的 380 多个 NER 模型将卓越性能与零成本相结合,向所有人开放医疗 AI。无论您是研究人员、医生还是工具开发者,这些模型都能助您一臂之力。

  • 🥇 更佳结果:性能超越知名产品高达 36%。
  • 🆓 免费提供:完全免费且开源。
  • 🚀 轻松上手:与您现有工具无缝衔接。
  • 🌍 团队协作:加入不断壮大的社区。

访问 huggingface.co/OpenMed 开始探索吧。让我们共同让医疗健康更智能!

社区

一位开发者正在免费提供先进的医疗AI模型,以改善医疗可及性和创新——永远向所有人开放。

我们是一个小团队,带着一个疯狂的梦想和大量的痴迷,希望基于尖端的LLM/LRM技术+机器学习+量子力学来构建一个预测诊断和假设生成引擎。我是一名神经免疫学家,是2015年发现硬脑膜淋巴管的团队成员之一(参见 Louveau, Nature);我的合作伙伴是另一位神经免疫学家,也是一个为服务不足人群提供心理健康服务的非营利组织的创始人,还有一位杰出的绅士,他正在照顾患有胶质瘤的儿子,并希望彻底改变医疗体制。这应该很好地解释了为什么我希望对您说声“谢谢”。*鞠躬*

出色的工作!我正在尝试使用 NER 模型构建医疗知识图谱,我想问一下是否有任何解决方案可以描述实体之间的关系。

·
文章作者

很好的问题!关系提取是每个 NER 流水线的下一个重要步骤。我实际上正在训练一些用于关系提取的模型,我也会展示如何通过现代 LLM(如 Gemma)来查找实体之间的关系。

@R00TSEN 很有趣;我发现医疗 NER 不仅在提高吞吐量和粒度分类/本体创建方面具有吸引力,因为它能提供结构,而且还能并行化许多其他端点,作为递归数据丰富和自然语言与专业结构化语言之间二级转换的方法。

@Maziyar Panahi,我知道您从事模型合并工作;数据合并是否与潜在收益存在关联?在数据合并中,如果一个数据集稀疏而另一个数据集高度丰富,您是否曾尝试对稀疏数据集进行合成丰富,而不是采用“最小公分母”方法或数据结构中的空值?

·
文章作者

是的!我经常通过合并数据集来扩充或丰富它们。现在在 LLM 时代,我经常将较弱的数据集作为种子,以合成方式生成一个更好的数据集,并将其合并到另一个数据集以实现多样性。

注册登录发表评论