多步酶设计的新时代

社区文章 发布于2024年10月16日

酶是一类有趣的蛋白质,它们在人类健康以及生命和生态系统方面发挥着广泛的重要功能。酶执行一种被称为“催化”的功能,消耗一些底物(通常是小分子),并产生一种以某种方式修饰底物的催化反应。酶对许多生物功能和工业过程都很重要,有些酶可以执行广泛的催化反应。然而,设计新酶非常棘手,需要考虑侧链构象和中等尺度动力学等细微差别。幸运的是,最近开发了几种新工具,这些工具显著提高了成功率,并减轻和减少了设计过程中的困难。在这篇文章中,我们将介绍其中一些工具,它们如何(以及应该如何)在简单的酶设计流程中协同使用,以及在设计新的从头酶时需要考虑的一些独特酶特性。

RFdiffusion 或 FrameFlow 的基序支架搭建

image/png

自 RFdiffusion 以来,出现了多个可以执行基序支架搭建的新 AI 模型,例如 FrameFlow。FrameFlow 作为一种工具,正在逐渐赶上 RFdiffusion 的能力,它使用了最近的“流匹配目标函数”,这使得推理更快,实现和训练更简单。基序支架搭建能力允许我们从已知或预测的蛋白质中选择一个或多个基序,然后为它们生成一个新的支架以将其固定到位。这里的想法是选择具有重要功能的基序,例如活性位点和结合位点,并在它们周围构建一个新的蛋白质支架,以便我们能够设计的酶。然而,这样做有些细微差别,并且涉及根据各种标准过滤和排名设计,我们将在后面讨论。

<video controls autoplay src="

">

RFdiffusion,正如你们许多人可能已经知道的那样,具有“底物势能”,可用于阻止与底物或一般小分子的碰撞。然而,在《从头酶的高活性计算设计》一文的“结果”部分,我们有以下内容:

对于酶设计,香草味的 RFdiffusion 实现了辅助电位来模拟底物的物理存在。我们发现这种电位减少了配体和主链之间的冲突数量,但并未促进良好定义的底物结合口袋的形成,导致冲突和底物相互作用之间存在权衡。因此,在基序支架搭建之前,我们在结合口袋的位置为每个人工基序添加了另一个 α-螺旋作为入口通道占位符。然后,我们实现了一个自定义辅助电位,将去噪轨迹的中心置于螺旋上,并强制所有主链原子到该中心的距离约束。扩散后,“占位符”螺旋被移除,留下一个空置的结合口袋。此过程使我们能够放弃底物辅助电位,并能够扩散具有自定义口袋的蛋白质主链。

使用 LigandMPNN 进行序列设计

通常,在这一点上,我们希望设计一种能折叠成所需形状的蛋白质序列。这通常通过 ProteinMPNN 等模型完成,同时固定一些进化上最保守的残基,例如那些直接参与催化的残基。然而,ProteinMPNN 不考虑非蛋白质配体,例如酶的小分子和底物。幸运的是,ProteinMPNN 的新版本已经发布,并且能够理解非蛋白质配体。因此,LigandMPNN 对非蛋白质配体的结合有所了解,将这些额外信息作为上下文对于酶序列设计非常有用。

结构预测、验证和排名

在这一点上,我们需要某种方法来验证和评估我们设计的酶序列。特别是,我们需要知道从 AlphaFold 等蛋白质折叠模型获得的预测结构是否与 RFdiffusion 在基序支架搭建步骤完成后返回的设计结构良好匹配。为此,我们只需预测设计序列的结构,然后计算 RFdiffusion 设计的支架与我们设计序列的预测结构之间的 RMSD。如果 RMSD 较低,低于一或两埃,那么我们设计的序列很可能折叠成所需的形状。此外,如果使用 pLDDT 高于约 80 的序列,那么我们将自己限制在 AlphaFold 具有更高置信度预测的设计中。

使用 ChemNet 过滤侧链集合

前一个步骤,虽然蛋白质工程师经常使用,但通常不足以过滤和评估我们的酶序列设计。为了获得更好的过滤和评估,我们需要考虑的不仅仅是主链 Cα 原子的位置。我们还需要考虑侧链。为此,Baker 实验室最近训练了一个名为 ChemNet 的新模型,并在论文《使用 ChemNet 对蛋白质-小分子构象集合进行建模》中对其进行了介绍。

image/png

图 1. ChemNet 概述。A) ChemNet 是一种去噪神经网络,它以部分损坏的蛋白质结构和任何相互作用分子的化学结构(但不是坐标)作为输入,并预测复合物的全原子结构,以及生成模型中原子位置的不确定性。B) ChemNet 可用于广泛的任务,包括将小分子和金属对接至蛋白质靶标,建模非标准残基,以及预测蛋白质-DNA 界面处氨基酸残基和核苷酸的侧链构象。图中显示了叠加有 ChemNet 模型(蓝色和橙色)的 X 射线结构(灰色)。C) 作为输入,分子系统由带注释的图表示,其中节点是单个原子,边是原子之间的化学键。关于手性中心的信息以 (O,A,B,C) 元组的形式提供给网络,其中 O 是中心锥体或四面体原子,其相邻原子 A、B、C 按顺时针顺序排列。D) ChemNet 是一个三轨网络,它迭代更新 1D 和 2D 嵌入以及 3D 结构,在每次迭代中生成精炼的原子结构模型并估计原子放置的不确定性。E) 三个单位向量 V=eAeB×eCV = e_A \cdot e_B \times e_C(从中心手性原子指向其相邻原子,灰色箭头)的三重积是一个伪标量,其符号在 R 和 S 构型中不同:对于理想的四面体几何结构,VR=433,VS=+433V_R = \frac{-4}{3 \sqrt{3}}, V_S = \frac{+4}{3 \sqrt{3}}。通过比较模型结构非理想几何中的 VV 与理想值 VRV_RVSV_S 并对原子坐标取梯度,可以得到偏置向量 fR/S=r(VVR/S)2f_{R/S} = \nabla_r(V-V_{R/S})^2,显示了原子应如何移动以重现所需构型。F) 全原子 FAPE 是通过对模型和参考结构在每三个相应的键合原子 a,ba, bcc 上对齐来计算的,并计算对齐结构之间原子位置的偏差。FAPEall atom 随后是所有原子和所有叠加的平均值。原子间距离钳制在 10 Å。G) 假设模型结构中原子位置的不确定性呈正态分布,我们让网络的专用头部预测系统每个原子的方差 σi2\sigma_i^2,以重现实际偏差 did_i。这些方差通过最大化似然 N(di,0,σi2)N(d_i, 0, \sigma_i^2) 在训练期间学习。

现在,尚不清楚是否可以使用类似于 FAFE: Immune Complex Modeling with Geodesic Distance Loss on Noisy Group Frames 中首次使用的 FAFE 损失来代替 ChemNet 中使用的全原子 FAPE 版本,但 AlphaFold2.3 简单 LoRA 微调与 FAFE 损失而不是 FAPE 损失的结果非常好,不提及它将是短视的。如果 FAFE 损失的版本可以替代 FAPE,并且 ChemNet 用 LoRA 微调,性能可能会提高。

现在,使用 ChemNet,我们能够将小分子和底物对接到我们新设计的酶上,并随后研究侧链构象的集合,这与需要保持活性位点附近区域的动力学一样,对于酶的功能和催化非常重要。这为我们提供了第二种更健壮的过滤和评估设计的方法,这在运行高通量工作流和生成数千个从头酶候选物时非常重要。

分子的 Sora:用 MDGen 和 ENCORE 比较玻尔兹曼分布

在论文《保守的构象动力学决定酶活性》中,作者讨论了酶活性(即酶催化特定反应的有效性)可能编码在蛋白质动力学中的可能性。考虑到催化是一个动态过程,涉及酶复杂但非常精确的运动,这些运动执行诸如裂解底物分子和产生更简单产物等任务,这并不令人惊讶。这里需要注意的是,同源酶通常表现出不同的催化速率,尽管活性位点和一般结合位点完全保守。换句话说,尽管蛋白质上最重要的催化位点或区域(活性位点和结合位点)可以在两种酶变体之间保守且完全相同,但这两种变体可能具有截然不同的催化速率。特定酶变体在固定时间内可以处理的底物量可能会因我们突变活性位点或结合位点而发生巨大变化,但距离催化发生位置(在三维空间中)较远的残基也很重要。在论文中,作者提到 PTP1B 活性位点周围的残基促进了酶发挥功能和执行催化反应所必需的动态协调化学作用。然而,远离活性位点的残基也经历了不同的中间时间尺度动力学,并且这些动力学与其催化活性相关,从而允许该酶家族不同变体之间具有不同的催化速率。

因此,我们需要一种分析酶动力学的方法。我们需要研究酶的“玻尔兹曼分布”,而不仅仅是研究 PDB 中或 AlphaFold 等结构预测模型给出的静态、低能态。如果我们要设计酶变体、优化已知酶变体或工程化具有所需催化的从头酶,我们将需要某种方法来比较玻尔兹曼分布和玻尔兹曼加权集合。我们需要一些可以取代 RMSD(用于比较静态结构)并比较两种分布的东西。现在,此时应该想到 KL 散度或 Jensen-Shannon 散度。

现在,有多种模型可以用来模拟玻尔兹曼分布。我之前写过的一种是分布式图变形器 (DiG)。DiG 虽然有用,但只模拟主链的 N、Cα 和 C 原子,包括氧主链原子或侧链。如果我们只是想在没有氧原子的情况下采样主链的玻尔兹曼分布,然后获得玻尔兹曼加权集合,这就足够了。我们可以简单地获取 RFdiffusion 的输出,并在为该输出设计序列的同时,用 LigandMPNN 填充侧链。然后我们将其提供给 DiG,并在单独的运行中提供所讨论序列的预测结构。然后我们使用 ENCORE 中建立的方法比较玻尔兹曼加权集合。

另一种方法是生成实际的轨迹,类似于 Sora 生成电影的方式,使用最近发布的 MDGen。MDGen 是麻省理工学院开发的一种新的生成模型,可以执行多种相关任务。它本质上是分子的 Sora,以物理为条件而不是文本(但没有理由我们不能也以文本为条件!)。

image/png

MDGen 具有以下功能:

  1. 正向模拟——给定轨迹的初始帧,我们采样分子系统潜在的时间演化。
  2. 插值——给定轨迹两端点的帧,我们采样连接两者的合理路径。在化学中,这被称为过渡路径采样,对研究反应和构象转变很重要。
  3. 上采样——给定一个帧间时间步 ∆t 的轨迹,我们将“帧率”上采样 M 倍,以获得时间步 ∆t/M 的轨迹。这从保存频率较低的轨迹中推断出快速运动。
  4. 补全——给定分子的一部分及其轨迹,我们生成分子的其余部分(及其时间演化),使其与轨迹的已知部分一致。此功能可应用于设计分子以支架所需的动力学。

应用和总结

使用这些模型和方法,我们可以开发出强大而稳健的酶设计流程。目前,唯一阻碍我们设计具有完全新颖催化功能的从头酶的,是构建“理论酶”的简单、通用方法,即活性位点和结合位点的三维排列,随后可以使用 RFdiffusion 和 FrameFlow 等模型将其嫁接到支架中。构建活性位点、氧阴离子空腔、结合位点等的三维排列,即定义理论酶的三维结构并将其编码到 CIF 或 PDB 文件中,是一项非平凡的工作。它需要对多步催化反应有深入的了解,然而,像 OAReactDiffEnzymeFlow 这样的模型有望帮助理解这些反应并构建理论酶。

我们将留给读者进一步研究,但酶设计的未来看起来非常有希望,目前已有几个高质量的 AI 模型经过训练并可用,它们都为酶工程师提供了实质性的能力。利用现有工具,我们现在可以轻松优化已知酶,提高其催化、功能、表达速率和热稳定性。此外,我们实际上拥有从已知理论酶设计完全从头酶的工具,我们甚至拥有进行完全新颖催化反应的某些从头设计所需的工具。

Lilypad 网络上的 BioML 工作流

构建有助于多步酶设计和其他重要 BioML 任务的工作流需要强大的基础设施和工具!此外,需要大量按需计算资源来运行这些复杂的工作流。为了提供解决方案并发展 BioML 领域,Lilypad 网络与 BioML 研究社区紧密合作,提供 GPU 计算和软件解决方案,以构建、测试和运行 ML 工作流。

Lilypad 是一个无服务器的分布式计算网络,能够实现互联网规模的 AI、ML 和其他任意计算的数据处理。通过利用去中心化基础设施网络释放闲置处理能力,Lilypad 开辟了一个新的计算市场,使 AI 对开发人员和用户来说更易于访问、高效和透明。

社区

注册登录 发表评论