🐦 IBIS 挑战赛
社区文章 发布于 2024 年 4 月 6 日
加入 IBIS 挑战赛:一项关于推断和预测转录因子结合特异性的公开竞赛。
解读人类基因调控是现代分子生物学和生物医学的基石。在调控序列层面,基因调控的语法由特殊蛋白质(即转录因子)的结合特异性定义,它们通过识别基因调控区域中的 🧬 DNA 序列模式在特定的“基因组地址”上发挥作用。受 DREAM 和 Kaggle 竞赛的启发,我们邀请您加入 IBIS(ibis.autosome.org),这是一项计算序列分析的开放挑战赛,旨在利用经典生物信息学和先进机器学习 (ML) 推断人类转录因子的结合特异性。
IBIS 旨在公平评估现有和新颖的方法,以解决 DNA 基序发现这一长期存在的问题:识别和建模人类转录因子识别的重复 DNA 文本模式。在 IBIS 中,我们将评估经典方法以及各种复杂程度的现代方法。
🚀 这些方法包括但不限于基于 k-mer 频率的决策树、隐马尔可夫模型(HMMs)、卷积神经网络(CNNs)、循环神经网络(RNNs)、长短期记忆(LSTM)模型,以及注意力和基于 Transformer 的模型。
💡 IBIS 允许任意使用人类基因组或随机 DNA 序列进行预训练人工神经网络或从头提取特征。特别地,我们允许使用:
- hg38 人类基因组组装(包括任何仅在基因组序列上预训练的现有DNA 语言模型);
- 从 DNA 序列衍生的预计算生物物理特征,例如 DNA 形状特征;
- RepeatMasker 轨迹;
- UniProt 中直接提供的转录因子蛋白质水平元数据(包括但不限于蛋白质序列和结构域信息)(因此,理论上,您可以展示在蛋白质序列上进行预训练的强大功能)。更多详情请参见 IBIS 文档。
📊 为了解决挑战问题,IBIS 提供了关于 40 种人类调控蛋白质的各种未发表的实验数据,其中许多在首选 DNA 结合模式方面仍未被探索。
挑战赛分两个阶段进行:在线排行榜(10 个转录因子)和离线决赛(剩余 30 个转录因子)。每个阶段的获胜者将单独公布。🏆 两个阶段的最佳方法都将在挑战赛后的高影响力科学论文中重点介绍,而决赛主要赛道的获胜者将被邀请作为共同作者参与撰稿。
- 了解更多信息,请访问 IBIS 挑战赛网站
- 阅读 IBIS 挑战赛 Twitter 推文
- 组织者: GRECO-BIT & Codebook 联盟