解锁医疗健康AI:我免费发布最先进的医疗模型。永久免费。

OpenMed 简介:380 多个免费医疗 NER 模型
医疗健康 AI 长期以来一直被昂贵的付费墙和封闭系统所束缚。研究人员、医生和开发人员不得不面对高昂的费用和神秘的“黑箱”工具,这些都拖慢了进展。现在,OpenMed 以超过 380 个顶尖的命名实体识别 (NER) 模型,用于医疗和临床文本,并且全部在 Apache 2.0 许可证下免费开放,正在改变这一局面。
这些模型不仅能与昂贵的商业选项相媲美,甚至超越它们,提供卓越的性能和便捷的访问,以加速全球医疗健康领域的突破。
问题:医疗AI被锁定
医疗 AI 面临一些重大障碍
- 昂贵的许可证:小型团队和大学无法负担。
- 隐藏的细节:商业工具不展示其工作原理。
- 落后:许多付费模型未能跟上新技术。
- 有限的覆盖范围:只有大型机构才能获得优质资源。
这阻碍了研究、临床进展和对更好医疗保健的公平访问。
解决方案:OpenMed NER 模型
OpenMed 提供了 380 多个免费 NER 模型,可用于处理各种医疗和临床术语,例如药品名称、疾病等。以下是它们的突出特点:
- ✅ 完全免费:采用 Apache 2.0 许可证的开源模型。
- ✅ 即插即用:专为实际应用而设计,开箱即用。
- ✅ 灵活的尺寸:参数范围从 109M 到 568M。
- ✅ 严格测试:通过 13 多个标准数据集的验证。
- ✅ 兼容性强:与 Hugging Face 和 PyTorch 无缝协作。
这些模型打破了旧有的壁垒,使医疗 AI 对所有人开放且实用。
OpenMed 工具箱里有什么?
OpenMed 的 380 多个模型在 13 个关键医疗数据集上进行了微调和测试,取得了卓越成果——例如 F1 分数高达 0.998。它们有不同的尺寸,无论您需要轻量级还是超强性能的模型,总有一款适合您。
🔬 覆盖所有领域
这些模型在以下许多领域表现出色:
- 药物与化学品:识别化合物,用于药物研究或安全跟踪。
- 疾病与临床:提取疾病状况,以改进诊断工具。
- 基因与分子:深入基因组学和精准医学。
- 解剖学与术语:提升医疗记录和编码效率。
- 癌症研究:助力肿瘤学研究。
它们非常适用于从研究论文到医院工作流程的各种场景。
🎯 OpenMed(开源)与巨头(闭源)
数据集 | OpenMed 最佳 F1 (%) | 闭源 SOTA F1 (%)† | Δ (OpenMed – SOTA) | 当前闭源领导者 |
---|---|---|---|---|
BC4CHEMD | 95.40 | 94.39 | +1.01 | Spark NLP BertForTokenClassification |
BC5CDR-Chem | 96.10 | 94.88 | +1.22 | Spark NLP BertForTokenClassification |
BC5CDR-Disease | 91.20 | 88.5 | +2.70 | BioMegatron |
NCBI-Disease | 91.10 | 89.71 | +1.39 | BioBERT |
JNLPBA | 81.90 | 82.00 | –0.10 | KeBioLM(知识增强型语言模型) |
Linnaeus | 96.50 | 92.70 | +3.80 | BERN2 工具包 |
Species-800 | 86.40 | 82.59 | +3.81 | Spark NLP BertForTokenClassification |
BC2GM | 90.10 | 88.75 | +1.35 | Spark NLP Bi-LSTM-CNN-Char |
AnatEM | 90.60 | 91.65 | –1.05 | Spark NLP BertForTokenClassification |
BioNLP 2013 CG | 89.90 | 87.83 | +2.07 | Spark NLP BertForTokenClassification |
Gellus | 99.80 | 63.40 | +36.40 | ConNER |
CLL | 95.70 | 85.98 | — | (无已发布 SOTA) |
FSU | 96.10 | — | — | (无已发布 SOTA) |
† 闭源分数是文献中(通常是 Spark NLP、NEEDLE、BERN2 等商业模型)发现的最高同行评审/排行榜结果。
🔬 按领域分类
此表将数据集映射到其各自领域,并根据每个领域数据集的最佳性能推荐模型。
领域 | 包含的数据集 | 可用模型 | 大小范围(参数) | 推荐模型 |
---|---|---|---|---|
药理学 | bc5cdr_chem , bc4chemd , fsu |
90 个模型 | 109M - 568M | OpenMed-NER-PharmaDetect-SuperClinical-434M |
疾病/病理学 | bc5cdr_disease , ncbi_disease |
60 个模型 | 109M - 434M | OpenMed-NER-PathologyDetect-PubMed-v2-109M |
基因组学 | jnlpba , bc2gm , species800 , linnaeus , gellus |
150 个模型 | 335M - 568M | OpenMed-NER-GenomicDetect-SnowMed-568M |
解剖学 | 解剖学 |
30 个模型 | 560M | OpenMed-NER-AnatomyDetect-ElectraMed-560M |
肿瘤学 | bionlp2013_cg |
30 个模型 | 3.55亿 | OpenMed-NER-OncologyDetect-SuperMedical-355M |
临床笔记 | cll |
30 个模型 | 560M | OpenMed-NER-BloodCancerDetect-ElectraMed-560M |
⚡ 选择您的规模
大小 | 参数量 | 最适合 |
---|---|---|
紧凑型 | 109M | 快速设置 |
大型 | 335M - 355M | 准确可靠 |
超大 | 434M | 综合性能优异 |
特大 | 560M - 568M | 最大性能 |
📊 各数据集中的最佳模型
下表总结了每个数据集表现最佳的模型,展示了它们的 F1 分数和大小。
数据集 | 最佳模型 | F1 分数 | 模型大小(参数) |
---|---|---|---|
bc5cdr_chem |
OpenMed-NER-PharmaDetect-SuperClinical-434M |
0.961 | 434M |
bionlp2013_cg |
OpenMed-NER-OncologyDetect-SuperMedical-355M |
0.899 | 3.55亿 |
bc4chemd |
OpenMed-NER-ChemicalDetect-PubMed-335M |
0.954 | 335M |
linnaeus |
OpenMed-NER-SpeciesDetect-PubMed-335M |
0.965 | 335M |
jnlpba |
OpenMed-NER-DNADetect-SuperClinical-434M |
0.819 | 434M |
bc5cdr_disease |
OpenMed-NER-DiseaseDetect-SuperClinical-434M |
0.912 | 434M |
fsu |
OpenMed-NER-ProteinDetect-SnowMed-568M |
0.961 | 568M |
ncbi_disease |
OpenMed-NER-PathologyDetect-PubMed-v2-109M |
0.911 | 109M |
bc2gm |
OpenMed-NER-GenomeDetect-SuperClinical-434M |
0.901 | 434M |
cll |
OpenMed-NER-BloodCancerDetect-ElectraMed-560M |
0.957 | 560M |
gellus |
OpenMed-NER-GenomicDetect-SnowMed-568M |
0.998 | 568M |
解剖学 |
OpenMed-NER-AnatomyDetect-ElectraMed-560M |
0.906 | 560M |
species800 |
OpenMed-NER-OrganismDetect-BioMed-335M |
0.864 | 335M |
这份扩展的概览详细展示了 OpenMed 的模型集合,强调了数据集覆盖的广度、模型尺寸的多样性以及针对生物医学和临床 NER 任务的卓越性能。
试用:3行代码
通过 Hugging Face Transformers,集成 OpenMed NER 模型轻而易举。
from transformers import pipeline
ner_pipeline = pipeline("token-classification", model="OpenMed/OpenMed-NER-PharmaDetect-SuperClinical-434M", aggregation_strategy="simple")
text = "Patient prescribed 10mg aspirin for hypertension."
entities = ner_pipeline(text)
print(entities)
就是这样!您会发现“阿司匹林”被识别为一种化学品,就像这样。
针对大型数据集的扩展
为了在 CPU 或 GPU 上高效处理大型数据集:
from transformers.pipelines.pt_utils import KeyDataset
from datasets import Dataset
import pandas as pd
# Load your data
# Load a medical dataset from Hugging Face
from datasets import load_dataset
# Load a public medical dataset (using a subset for testing)
medical_dataset = load_dataset("BI55/MedText", split="train[:100]") # Load first 100 examples
data = pd.DataFrame({"text": medical_dataset["Completion"]})
dataset = Dataset.from_pandas(data)
# Process with optimal batching for your hardware
batch_size = 16 # Tune this based on your GPU memory
results = []
for out in medical_ner_pipeline(KeyDataset(dataset, "text"), batch_size=batch_size):
results.extend(out)
print(f"Processed {len(results)} texts with batching")
实际用例:医疗保健中的命名实体识别(NER)
命名实体识别(NER)是一种从非结构化文本中提取并分类关键信息(如名称、日期或医学术语)的技术。在医疗保健领域,临床笔记、患者记录和研究论文往往是混杂的自由格式数据,NER 能为这些混乱带来秩序。下面,我们将探讨 NER 如何助力三项关键任务:去识别化、实体关系提取和 HCC 编码,以及它们在医疗领域的重要性。
🔒 去识别化:保护患者隐私
是什么:去识别化是将医疗记录中的个人健康信息 (PHI)——例如姓名、地址或社会安全号码——剥离。目标:使数据匿名化,同时保持其可用性。为什么重要:患者隐私并非可选项,而是法律和道德的必然要求。美国的 HIPAA 等法律对此有明确规定。通过使用 NER 自动检测和遮蔽 PHI,医疗保健提供者和研究人员可以在不冒数据泄露风险的情况下分析数据。这比人工手动清理记录更快、更可靠。
影响:去识别化数据推动了研究并改善了医疗护理,同时确保了患者身份的安全。
🔗 实体关系提取:绘制医疗联系图
是什么:此任务识别文本中实体之间的关系——例如将药物与其副作用关联起来,或将疾病与其症状关联起来。NER 首先识别实体;然后,将这些关系串联起来。为什么重要:了解事物之间的联系可以解锁更智能的医疗保健。它为临床决策支持构建知识图谱,辅助药物发现,并根据患者情况量身定制治疗方案。没有它,医疗数据中的关键联系可能会被埋没。
影响:医生能做出更好的判断,研究人员能发现新的见解,患者也能获得符合其独特需求的护理。
💡 HCC 编码:简化成本和护理
是什么:分层条件类别(HCC)编码将代码分配给患者记录中的诊断,帮助 Medicare 等付款方预测成本并设定报销费率。NER 从笔记中提取条件,以支持这一过程。为什么重要:准确的编码确保提供者能够公平地获得复杂病例的治疗费用。它还能识别高风险患者,以便提供积极的护理。手动编码速度慢且容易出错——NER 可以加快速度并确保准确性。
影响:医疗系统节省时间,优化预算,并将资源集中用于最需要的人。
🌟 更大的图景
NER 不仅仅是一种工具,它还是一种催化剂。通过解决这些任务,它能:
加强数据安全性和合规性。通过清晰、可用的数据集加速研究。通过更敏锐的洞察力提升患者治疗效果。通过自动化繁琐流程来降低成本。
在医疗保健领域,每个细节都至关重要,NER 将原始文本转化为实际解决方案。
加入 OpenMed
加入 Hugging Face 上的 OpenMed 社区,随时了解最新动态并分享想法。
公平与开放
- 许可证:Apache 2.0——随意使用、修改和分享。
- 清晰信息:每个模型都附有详细说明卡。
总结
OpenMed 的 380 多个 NER 模型将卓越性能与零成本相结合,向所有人开放医疗 AI。无论您是研究人员、医生还是工具开发者,这些模型都能助您一臂之力。
- 🥇 更佳结果:性能超越知名产品高达 36%。
- 🆓 免费提供:完全免费且开源。
- 🚀 轻松上手:与您现有工具无缝衔接。
- 🌍 团队协作:加入不断壮大的社区。
访问 huggingface.co/OpenMed 开始探索吧。让我们共同让医疗健康更智能!