AlphaFold3 发生了什么?

社区文章 发布于2024年5月21日

蛋白质科学领域的一场革命?

protein_structure

2024年5月8日,Google DeepMind和Isomorphic Labs向世界推出了他们用于蛋白质结构预测的新工具**AlphaFold3**,它是现有AlphaFold2的更强大版本,Google DeepMind已经利用AlphaFold2重建了超过2亿个蛋白质结构(几乎所有已知蛋白质),并解决了困扰生物信息学家数十年的“先验蛋白质结构预测”挑战(我在这里更详细地讨论过)。

我们正处于另一场革命的边缘吗?AlphaFold3真的像其前身那样改变游戏规则吗?在这篇博文中,我们将探讨其潜在的突破和新应用,以及作者自己承认的一些限制。

有什么新进展?

如果您阅读了已在Nature上开放获取发表的论文摘要,您会看到一些有趣的新闻

AlphaFold 2的引入推动了蛋白质结构及其相互作用建模的革命,从而实现了蛋白质建模和设计的广泛应用。在本文中,我们描述了AlphaFold 3模型,其具有显著更新的基于扩散的架构,能够联合预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的结构。新的AlphaFold模型在许多先前的专用工具上表现出显著提高的准确性:在蛋白质-配体相互作用上比最先进的对接工具具有更高的准确性,在蛋白质-核酸相互作用上比核酸特异性预测器具有更高的准确性,并且比AlphaFold-Multimer v2.3具有更高的抗体-抗原预测准确性。这些结果共同表明,在单一统一的深度学习框架内,生物分子空间的高精度建模是可能的。

让我们分解一下,以便生物学家理解人工智能概念,人工智能科学家理解生物学概念

0. 术语介绍

0a. 致生物学家

  • 机器学习:机器学习是计算机基于先进的统计和数学模型,而不是人类制定的指令,从一些数据中进行抽象学习的过程。
  • 深度学习:深度学习是一种机器学习框架,其主要设计基于神经网络,并使用类似大脑的架构进行学习。
  • 神经网络:神经网络有点像大脑中的神经元网络,尽管简单得多:在这种意义上,有几个检查点(神经元)相互连接,如果它们达到激活阈值,就会接收并传递信息,就像真实神经细胞的动作电位一样。

0b. 致人工智能科学家

  • 蛋白质:蛋白质是由称为氨基酸的小构建块组成的尺寸不等的生物分子。它们是细胞的“万事通”:如果你将细胞想象成一个城市,蛋白质实际上代表了运输系统、通信网络、警察、工厂工人……蛋白质具有一级(平链)、二级(大部分是3D但稀疏)和三级(3D且有序)结构。
  • 配体:配体是结合其他物质的物质:在蛋白质的语境中,它可以是结合其受体的神经激素信号(如肾上腺素)。
  • 核酸:核酸(DNA和RNA)是包含生命系统信息的生物分子:它们以通用语言书写,由其构建块(核苷酸)定义,并且可以被翻译成蛋白质。以前面城市为例,它们可以被表示为城市的行政服务。核酸通常与蛋白质相互作用。

1. 扩散架构

扩散是指能够从文本提示生成图像的生成式人工智能应用。扩散背后的思想非常适合蛋白质结构预测问题,因为它是一项基于文本的任务:尽管蛋白质的3D结构看起来与它的1D氨基酸链完全不相关,但实际上两者之间存在着比任何人想象的都要强的联系。归根结底,氨基酸之间所有的3D相互作用都已由它们在主链中的顺序所定义。

AlphaFold3中的扩散架构接收原始原子坐标,这意味着在经过一系列神经网络模块(与AlphaFold2的类似但不完全相同)的首次预测步骤之后,模型能够将一个“模糊”的图像(包含大量位置和立体化学噪声)转化为一个清晰明确的结构。扩散模型的巨大优势在于,即使上游网络不确定正确的氨基酸坐标,它也能够预测局部结构:这得益于生成过程,它能够生成一个能够捕捉蛋白质结构中大多数可能变异的答案分布。

和所有生成模型一样,AlphaFold3的扩散模型也容易产生幻觉:当涉及到蛋白质的非结构化区域(缺乏明确稳定的三级结构)时尤其如此,AlphaFold3的扩散块经过训练,在这些区域中,它们会生成随机卷曲的氨基酸链,就像AlphaFold-Multimeter v2.3所做的那样(AlphaFold-Multimeter v2.3 生成了用于幻觉校正训练的图像)。

2. 新任务和更高的准确性

如摘要所述,AlphaFold 现在在以下任务中超越了专用软件:

  • 蛋白质-核酸相互作用
  • 蛋白质-配体相互作用
  • 抗原-抗体相互作用

为什么这三项任务对我们如此重要?

  • 蛋白质通常与DNA和RNA相互作用:正如Cozzolino等人(2021)所报道的,这些相互作用“影响着DNA复制、转录和修复等基本过程,以及RNA转运、翻译、剪接和沉默等过程”。所有这些都是关键的细胞功能,如果受到干扰,可能导致严重疾病。此外,了解蛋白质如何结合DNA和RNA对基因组编辑(CRISPR-Cas9实际上是一种RNA-蛋白质-DNA系统)以及对抗细菌和抗微生物耐药性(许多抗微生物耐药性取决于激活特定基因的蛋白质-DNA相互作用,该基因使细菌对抗菌素产生抗药性)非常有用。
  • 蛋白质-配体相互作用在药物设计中至关重要:到目前为止,我们使用**“对接”**技术,即通过对具有微小化学结构和位置差异的分子类型和蛋白质之间的相互作用进行重复模拟。不用说,这既耗时又计算密集,而AlphaFold3无疑可以在这些方面进行改进,同时还能保持更高的准确性。
  • 抗原-抗体相互作用是我们免疫系统产生的一些蛋白质(抗体)与外来或变异的、潜在有害的分子结合的过程:它是发现和消除病原体的方法之一。预测这些相互作用对于理解免疫系统对某些病原体的反应至关重要,也对于我们为了治疗而引入体内的物质同样重要。它在肿瘤细胞识别中也发挥着极其重要的作用,因为肿瘤细胞可能对其细胞特异性抗原有一些轻微的修饰,这些修饰不被我们的免疫系统识别为威胁,但可以通过计算方法识别(并因此可能治疗)。

有哪些限制?

正如论文作者所报道的,他们意识到五个主要限制:

  1. 预测手性困难:手性是分子的一种固有属性,与分子如何旋转偏振光有关。两种仅在手性上不同的分子就像你的双手:它们完美相似,但你无法将手掌和手背叠合。尽管引入了一些手性惩罚,但模型仍然会产生大约4%的违反手性的蛋白质。
  2. 原子冲突:尤其是在大于100个核苷酸的核酸与大于2000个氨基酸的蛋白质相互作用时,存在原子在相同空间区域重叠的趋势(这实际上是不可能的)。
  3. 如前所述,幻觉仍然可能发生,因此引入了内在排序系统来帮助模型丢弃幻觉结构。
  4. 仍然有一些任务,例如抗原-抗体预测,AlphaFold3可以改进。作者观察到当扩散模型被赋予更多种子(最多1000个)时,即一系列“指导”模型如何生成图像的数字,预测效果有所改善,而更稳定的扩散样本则没有实质性进展。
  5. 与所有蛋白质预测模型一样,蛋白质是以其“静态”形式预测的,而不是在动态插入活细胞时的“活跃”形式。

结论和开放性问题

AlphaFold3无疑代表了蛋白质科学领域的突破:尽管如此,我们尚未到达终点。

该模型标志着生成式人工智能解决复杂生物问题的新方法迈出了第一步,我们在OpenCRISPR中也看到了这一点:一方面,这蕴含着巨大的潜力,但另一方面,风险在于我们可能会降低模型的解释性,让科学家只能依靠一些自动生成的准确性指标,而这些指标不一定能告诉他们蛋白质为何具有某种结构。

另一个非常重要的问题是AlphaFold3并非完全开源:谷歌提供了一个在线服务器,但论文中声明代码并未公开(除了一些模拟架构的模拟代码)。这提出了一个重大的伦理问题:我们是否确定希望生活在一个先进科学工具的获取受到严格许可保护,并非所有人都可以通过访问代码来了解软件内部运作的世界?

而且,现在比以往任何时候都更重要的是,我们必须自问:我们真的要依赖并非完全开源的人工智能来设计药物、实现靶向基因组编辑和治疗疾病吗?

参考文献

  • Abramson, J.、Adler, J.、Dunger, J. 等人。《用AlphaFold 3精确预测生物分子相互作用的结构》。Nature (2024)。https://doi.org/10.1038/s41586-024-07487-w
  • Cozzolino F, Iacobucci I, Monaco V, Monti M. Protein-DNA/RNA Interactions: An Overview of Investigation Methods in the -Omics Era. J Proteome Res. 2021;20(6):3018-3030. doi:10.1021/acs.jproteome.1c00074

请到我的博客这里查看原文。

社区

注册登录评论