加速AI药物发现:银杏生物(Ginkgo)的GDPx功能基因组学和GDPa抗体可开发性数据集系列
作者:John Androsavich,银杏生物数据点总经理
以及Georgia Channing,Hugging Face科学机器学习工程师
我们很高兴地宣布,银杏生物(Ginkgo Datapoints)的一套高质量、大规模生物数据集现已在Hugging Face上可用:完整的GDPx功能基因组学和GDPa抗体可开发性系列。
此版本包含您探索细胞内分子相互作用(基因、蛋白质、抗体等之间)所需的一切,从而解锁生物研究和药物发现中的关键应用。从转录组反应预测到抗体特性推断,这些数据集支持扰动反应建模、作用机制(MoA)表征等用例,并使得构建扰动反应和抗体可开发性模型成为可能。
TL;DR: 在这里下载最新数据集!
功能基因组学
抗体可开发性
挑战:AI药物发现中的数据瓶颈
尽管机器学习在药物发现方面取得了快速进展,但仍存在一个主要瓶颈:缺乏标准化、大规模、注释良好的生物数据。功能基因组学和蛋白质工程任务通常需要不仅庞大,而且一致、多样化并配有丰富元数据集的数据。
直到最近,大多数此类数据集要么是专有的,要么分散在不同的实验室和格式中。
GDPx和GDPa数据集旨在弥补这一空白。它们通过银杏生物的高通量实验平台创建,汇集了:
- 不同人类细胞类型中的数千种化学扰动条件
- 剂量-反应和时间进程基因表达及成像数据
- 数百种IgG抗体的生物物理可开发性特征,以及匹配的序列数据
具体而言,此版本包括:
- GDPx1–2:对小分子的转录组反应
- GDPx3:通过高内涵成像捕获的形态学表型
- GDPa1:治疗性抗体的可开发性指标
所有数据集现已在Hugging Face Hub上完全可访问,并内置数据集加载器——可随时插入您的模型训练工作流程或用于探索性分析。
无论您是构建药物机制预测模型、生成新抗体序列,还是将RNA、形态学和序列数据整合到统一表示中,这些数据集都非常适合您!
基因组学和抗体可开发性快速入门
如果您是初次接触生物数据的机器学习研究人员,这里有一个简要的入门知识,以帮助您了解GDPx和GDPa数据集:
功能基因组学
功能基因组学研究基因及其产物(如RNA或蛋白质)在不同条件(如药物治疗或基因修饰)下的行为。
在GDPx中,功能基因组学数据通过RNA测序(DRUG-seq)捕获,以观察小分子如何影响通路和基因表达。
DRUG-seq
一种高通量、低成本的RNA测序方法,针对化合物筛选进行了优化。输出是UMI计数矩阵,非常适合基因表达建模、扰动聚类、作用机制预测和对比学习任务。
细胞着色(Cell Painting)
一种高内涵成像检测方法,使用多种荧光染料对不同的细胞器进行染色。
- GDPx3包含原始16位TIFF图像
- 适用于基于视觉的学习和跨模态分析
扰动
任何改变细胞内部状态的治疗或修饰——例如,药物、基因编辑、应激源。在GDPx中,扰动是经过剂量、细胞类型和时间测试的小分子化合物。
扰动-反应建模
根据基因表达或形态预测细胞对干预的反应。对药物发现和系统生物学至关重要。
作用机制(MoA)表征
推断化合物在细胞内的工作方式,包括靶向通路和下游效应。
可开发性(抗体)
指抗体的可制造性、稳定性和临床可行性。GDPa1包括对246种抗体的10项检测:聚集、疏水性、热稳定性、多反应性等。
多组学
结合转录组学、蛋白质组学和成像数据,用于全面的生物建模。GDPx在不同条件下对齐DRUG-seq和细胞着色数据。
LOPAC1280
在GDPx1和GDPx2中使用的1280种生物活性化合物的参考库。
那么,这些数据是如何收集的?
扰动反应分析
银杏生物开发了智能发现扰动响应分析(RAPID)平台,以实现对细胞对化学、生物和遗传扰动的响应进行分析。通过利用先进的自动化和分析技术,银杏生物数据点(Ginkgo Datapoints)提供对化合物效应和通路调节的全面洞察——提供客户快速自信地做出明智决策所需的数据。该平台自动化了整个过程:从细胞培养到扰动再到数据分析,并提供以下读数:
- DRUG-seq:生成大规模转录组数据集,支持从靶点识别到毒性分析的多种用例。DRUG-seq专注于对3'端进行测序,以高效量化mRNA丰度。
- 高内涵成像:获取细胞形态的高通量洞察。我们使用荧光染料可视化细胞成分,以创建细胞响应的丰富形态学特征。
- 组合方法:通过整合转录组学和形态学数据,RAPID平台提供对细胞对扰动响应的无与伦比的洞察。这种多模态方法能够更深入地理解作用机制和更准确地预测化合物效应。
抗体可开发性
为了生成用于训练抗体特性机器学习模型的大规模结构化数据集,银杏生物开发了一个名为**PROPHET-Ab**的高通量实验平台。
该平台自动化了治疗性抗体的生产和表征过程——实质上将湿实验室工作流程转化为一个为机器学习设计的生数据管道。
该过程始于哺乳动物细胞系统(HEK或CHO细胞)中抗体候选物的瞬时表达。该平台兼容各种抗体形式,包括全长IgG、单域抗体(VHH)以及更复杂的多特异性抗体。
然后通过一套标准化的生物物理和功能检测来评估每种抗体,这些检测衡量:
- 生产质量(例如产量、纯度、聚集)
- 生物物理特性(例如疏水性、自相互作用、热稳定性)
- 药代动力学(例如通过Fc受体结合的清除潜力)
- 功能性(例如抗体与其靶点结合的良好程度)
这些检测结果会自动跟踪、质量控制并格式化为结构化表格数据,其中包含原始测量值和精选特征。
GDPx和GDPa数据中有什么?


GDPx1:A549细胞中的DRUG-seq + 化学扰动
- 背景:在A549肺癌细胞中测试了来自LOPAC1280的1,264种化合物,浓度为2种
- 数据:
- 元数据
- UMI计数表
- 用途:
- 预测扰动-响应
- 转录组表征学习
- 药物响应基准测试
GDPx2:4种原代细胞中的DRUG-seq + 化学扰动
- 背景:85种化合物,6种剂量,4种细胞类型(例如,肌母细胞、黑素细胞)
- 数据:
- 元数据
- UMI计数表
- 剂量-反应和通路表(参见预印本)
- 用途:
- 细胞类型特异性药物建模
- 剂量依赖性基因程序学习
- 迁移学习
GDPx3:3种原代细胞中的细胞着色 + 化学扰动
- 背景:40种化合物,4种剂量,2个时间点,4种细胞类型(例如,成纤维细胞、内皮细胞)
- 数据:
- 元数据
.tiff
图像
- 用途:
- 形态学响应建模
- 跨模态嵌入比较
- 多模态学习
GDPa1:抗体可开发性数据集(246种IgG,10项检测)
- 背景:来自10项可开发性检测的生物物理指标
- 数据:
- 序列
- 已处理的检测数据
- 原始整洁检测数据
- 文献对比表(参见预印本)
- 用途:
- 序列到属性预测
- 预训练模型评估
- 热稳定性和可开发性基准
开始使用
通过在Hugging Face上发布完整的GDPx和GDPa数据集系列,银杏生物数据点正在支持药物发现领域的开放研究。
了解更多:https://datapoints.ginkgo.bio/
立即探索数据集:
功能基因组学
抗体可开发性
使用Hugging Face数据集加载:
from datasets import load_dataset
# Login using e.g. `huggingface-cli login` to access this dataset
ds = load_dataset("ginkgo-datapoints/GDPx1")
我们迫不及待地想看看您会构建出什么!