利用生成式AI设计新型功能蛋白,并提升蛋白质功能、稳定性及多样性的指南

社区文章 发布于2024年7月2日

image/png

上图展示了由RFDiffusion All Atom生成的蛋白质骨架图像,它能够结合到特定的小分子配体,其在这方面表现出色,并使用Discovery Studio进行可视化。

引言

最近,在深度学习应用于生物化学领域的研究中,出现了大量新型AI模型。这些模型在通过修改蛋白质的3D结构和序列来提升其热稳定性、结合亲和力及功能方面具有极高的实用性、强大性和有效性。它们对于从头设计具有特定功能的全新蛋白质也极其有用。尽管这些模型非常有效,但其新颖性意味着研究人员尚未广泛理解和使用它们。此外,对于新接触者来说,理解如何将这些模型组合使用以解决生物化学中的复杂问题也存在多重困难。使用这些模型通常需要一些编程经验,而许多生物化学家并不具备。其次,理解其能力和用例需要对深度学习有一定了解,由于其中一些模型的复杂性及其内部工作原理的数学深度,许多生物化学家也觉得难以掌握,导致它们被贴上“不可解释的黑盒”的标签,并引起一些生物化学家的不满。此外,AI方法的产出量巨大,筛选研究并确定哪些方法真正有效可能既耗时又费力。所有这些障碍相互作用,阻碍了这些方法的采用、有效使用和理解,目前有一些平台正试图解决这些障碍。

在下文中,我们将详细讨论如何利用一套针对蛋白质和小分子的AI模型来优化蛋白质并使其多样化,以及如何创建与目标蛋白质功能相似的新蛋白质。我们将提供一些具体的真实蛋白质和小分子实例,以说明该方法论的实用性,重点关注两个特定例子:

(1) 结合PET聚合物的塑料降解蛋白

  • 涉及的分子:PETase (PDB ID: 5XJH) 和 PET配体
  • 增强相互作用的好处:增强PETase与PET聚合物的相互作用可以更有效地分解PET塑料,PET塑料常用于瓶子和包装材料。更强的结合亲和力可以提高水解速率,从而加速降解过程。
  • 解释:PETase是一种水解PET为更小、更易处理分子的酶,这些分子可以进一步降解或升级再造。通过增强这种相互作用,PET在回收过程和自然环境中的降解效率将得到提高,有助于减少塑料废物。

(2) 脑源性神经营养因子 (BDNF, PDB ID: 1BND) 与酪氨酸激酶B受体 (TrkB, PDB ID: 4AT3) 之间的蛋白质-蛋白质相互作用 (PPI)

  • 涉及的蛋白质:脑源性神经营养因子 (BDNF, PDB ID: 1BND) 和酪氨酸激酶B受体 (TrkB, PDB ID: 4AT3)
  • 增强相互作用的好处:增加BDNF和TrkB之间的相互作用强度可以改善神经元的存活、生长和分化,这对于抑郁症、阿尔茨海默病和其他神经退行性疾病等神经系统疾病至关重要。
  • 影响:更强的BDNF-TrkB相互作用可以促进神经元健康和可塑性。模拟或增强这种相互作用的治疗策略有可能减缓神经退行性过程并改善各种神经系统疾病的预后。

我们将描述一个使用一系列AI模型来改善结合亲和力和热稳定性的程序。一般程序如下:

  1. 利用RoseTTAFold All Atom预测蛋白质-小分子或蛋白质-蛋白质复合物的结构
  2. 将上一步获得的PDB输出提供给RFDiffusion All Atom(或RFDiffusion)以进行部分扩散,从而获得与原始蛋白质相似的多样化蛋白质骨架
  3. 使用AF2Bind、Evo、ESM-2等蛋白质语言模型、AlphaMissense和/或UniProt或PDB注释来识别原始蛋白质中的重要结构基序,如结合位点和活性位点,并使用RFDiffusion All Atom(或RFDiffusion)来搭建这些基序,以获得与原始蛋白质不同的新蛋白质
  4. 可选地,使用AlphaFlow获取能够重现蛋白质骨架分子动力学模拟(MD模拟)的构象集合,以更好地处理瞬时结合口袋并获得额外的残基或重要基序
  5. 可选地,使用Distributional Graphormer对您的蛋白质的玻尔兹曼分布进行采样(这可以代替上一步,并将提供关于您的蛋白质动力学以及各种亚稳态之间过渡的更多信息)
  6. 使用RFDiffusion或RFDiffusion All Atom搭建功能性结构基序
  7. 可选地,使用Evo确定哪些点突变可能改善功能,哪些可能损害功能,以便在使用LigandMPNN设计序列时,将这些位置的残基偏向或偏离特定氨基酸
  8. 使用LigandMPNN为前几步生成的蛋白质骨架设计多样化且化学上有利的序列,可选地利用Evo、AF2Bind、AlphaMissense等提供的信息,将特定残基偏向或偏离某些氨基酸
  9. 使用AlphaFold2(或OpenFold)验证和评估您新设计的蛋白质序列的质量
  10. 通过计算RoseTTAFold All Atom的PAE输出中的LIS分数来预测您的蛋白质与小分子配体或蛋白质-蛋白质相互作用之间的结合亲和力,以筛选出最佳序列
  11. 可选地,使用ThermoMPNN预测热稳定性
  12. 随后进行实验验证!

利用RoseTTAFold All Atom预测蛋白质-小分子复合物的结构

RoseTTAFold All Atom的设置说明可在其GitHub页面找到。您还需要确保有足够的空间来存储步骤(7)中提到的MSA和模板数据库,该数据库大小略超过300GB。此数据库将显著加快计算速度,这对于使用RoseTTAFold All Atom的PAE输出中获得的LIS分数进行高通量结合亲和力预测非常有用。一旦您设置好RoseTTAFold All Atom,您可以提供配体的SMILES字符串和蛋白质的序列来预测塑料降解蛋白和PET分子的结构,或者如果您对第二个例子感兴趣,您可以将两个蛋白质序列提供给RoseTTAFold All Atom来预测PPI的结构。这将为我们提供一个蛋白质-小分子复合物或蛋白质-蛋白质复合物的PDB文件,我们将把它用作RFDiffusion All Atom(或RFDiffusion)的输入。

利用RFDiffusion或RFDiffusion All Atom通过部分扩散使蛋白质结构多样化

有关RFDiffusion的Google Colab (.ipynb) 版本,请参见以下链接:.

链接 1

链接 2

一旦您从RoseTTAFold All Atom获得了PDB输出,您可以将其作为输入提供给RFDiffusion All AtomRFDiffusion。RFDiffusion All Atom能够理解并使用小分子配体作为上下文,而RFDiffusion则只适用于蛋白质。给定您在步骤(1)中获得的PDB文件,您可以对蛋白质结构执行“部分扩散”。这将向蛋白质骨架结构添加少量由您指定的噪声,然后对其进行去噪以获得一个与原始蛋白质相似但不完全相同的新骨架。您添加的噪声越多,您的蛋白质骨架的多样性就越大。如果您使用RFDiffusion All Atom并以小分子配体作为上下文执行此操作,您将能够设计出与配体具有更高形状互补性的新骨架。这意味着蛋白质和配体将更好地契合,结合亲和力可能会增加。如果您在蛋白质-蛋白质复合物上使用RFDiffusion执行此操作,这将再次改善您的蛋白质结合物和蛋白质靶标之间的形状互补性,从而可能增加结合亲和力。在此过程中,您可以选择向蛋白质的特定残基添加噪声,或者您可以对整个蛋白质结构添加噪声。选择蛋白质的哪些部分添加噪声可以基于蛋白质的先验知识,或基于使用AF2Bind和/或Evo或pLM的后续步骤。

虽然我们在此不作详细讨论,但RFDiffusion还具备从头设计全新蛋白质结合物的能力,其设计通常具有很高的亲和力和特异性,这意味着它们能很好地结合预期的蛋白质靶标,并且几乎没有脱靶相互作用。类似地,RFDiffusion All Atom可以从头设计与指定小分子结合的全新蛋白质,其结合口袋通常与配体具有高度的形状互补性。如果您有兴趣破坏特定的蛋白质-蛋白质相互作用,例如,您应该尝试利用此功能。

我们还应指出,RFDiffusion还有许多其他功能,例如对称寡聚体生成、对称基序骨架、蛋白质骨架的无条件生成、折叠条件,以及使用引导势的选项,这些我们在此不作讨论。

识别重要结构基序

AF2Bind

我们还需要使用RFDiffusion的基序骨架功能来设计与原始蛋白质截然不同但包含相同重要基序的新蛋白质。例如,我们可能希望识别蛋白质的结合位点。我们可以使用距离配体或靶蛋白与我们蛋白质结构界面一定截止距离内的残基,或者我们可以使用像AF2Bind这样的方法来识别结合位点。此外,我们还可以查阅UniProtPDB中的注释来获取活性位点、催化位点或其他感兴趣的区域。AF2Bind将帮助我们确定结合位点,同时它也会很好地提示我们哪些“诱饵氨基酸”与我们蛋白质的每个残基具有有利的相互作用,这表明了这些残基的化学性质。这可以帮助我们选择如何偏置LigandMPNN来设计具有有利化学性质的蛋白质骨架序列,从而帮助提高结合亲和力。AF2Bind的工作原理图如下所示。

image/png

Evo和蛋白质语言模型

Evo是一个基于条纹鬣狗架构的DNA语言模型,它可以执行各种生成性和预测性任务。其用例之一是预测变异效应,确定哪些突变可能对功能有益,哪些可能有害,并为我们提供这些突变有益或有害程度的描述。

这类似于使用对数似然比(LLR)来预测蛋白质每个点突变的影响,并将结果绘制成热图,这可以通过蛋白质语言模型(pLM)如ESM-2进行,如下所示:

from transformers import AutoTokenizer, EsmForMaskedLM
import torch
import matplotlib.pyplot as plt
import numpy as np

# Load the model and tokenizer
model_name = "facebook/esm2_t6_8M_UR50D"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = EsmForMaskedLM.from_pretrained(model_name)

# Input protein sequence
protein_sequence = "MAPLRKTYVLKLYVAGNTPNSVRALKTLNNILEKEFKGVYALKVIDVLKNPQLAEEDKILATPTLAKVLPPPVRRIIGDLSNREKVLIGLDLLYEEIGDQAEDDLGLE"

# Tokenize the input sequence
input_ids = tokenizer.encode(protein_sequence, return_tensors="pt")
sequence_length = input_ids.shape[1] - 2  # Excluding the special tokens

# List of amino acids
amino_acids = list("ACDEFGHIKLMNPQRSTVWY")

# Initialize heatmap
heatmap = np.zeros((20, sequence_length))

# Calculate LLRs for each position and amino acid
for position in range(1, sequence_length + 1):
    # Mask the target position
    masked_input_ids = input_ids.clone()
    masked_input_ids[0, position] = tokenizer.mask_token_id
    
    # Get logits for the masked token
    with torch.no_grad():
        logits = model(masked_input_ids).logits
        
    # Calculate log probabilities
    probabilities = torch.nn.functional.softmax(logits[0, position], dim=0)
    log_probabilities = torch.log(probabilities)
    
    # Get the log probability of the wild-type residue
    wt_residue = input_ids[0, position].item()
    log_prob_wt = log_probabilities[wt_residue].item()
    
    # Calculate LLR for each variant
    for i, amino_acid in enumerate(amino_acids):
        log_prob_mt = log_probabilities[tokenizer.convert_tokens_to_ids(amino_acid)].item()
        heatmap[i, position - 1] = log_prob_mt - log_prob_wt

# Visualize the heatmap
plt.figure(figsize=(15, 5))
plt.imshow(heatmap, cmap="viridis", aspect="auto")
plt.xticks(range(sequence_length), list(protein_sequence))
plt.yticks(range(20), amino_acids)
plt.xlabel("Position in Protein Sequence")
plt.ylabel("Amino Acid")
plt.title("Predicted Effects of Mutations on Protein Sequence (LLR)")
plt.colorbar(label="Log Likelihood Ratio (LLR)")
plt.show()

这将打印类似以下内容:

image/png

在这张热图中,我们可以看到高度保守且不易突变或只有非常受限的非有害突变的区域。我们还看到相反的情况,即存在可以轻易突变为几乎任何氨基酸而无不利影响的残基或区域。这为我们提供了哪些区域可能需要保留或固定,以及哪些区域可以重新设计的思路。它还为我们提供了可能对特定残基有益或有害的氨基酸,从而使我们可以在稍后设计序列时偏置LigandMPNN。理解蛋白质序列中突变的影响对于阐明各种生物过程的分子基础至关重要。所提供的代码片段旨在预测蛋白质序列中不同位置的氨基酸替换的潜在后果。它利用预训练的Transformer模型来估计氨基酸变体的对数似然比(LLR),这表明给定突变有害、中性或有利的可能性。这可以为我们提供额外的信息,说明在使用LigandMPNN设计序列时,如何将特定残基偏向或偏离20种标准氨基酸的某个子集。

方法

  1. 分词

代码首先导入必要的库,加载预训练的ESM-2模型和分词器,并指定输入蛋白质序列。序列使用分词器进行分词,生成一个token ID序列。蛋白质序列中的每个氨基酸都使用分词器的词汇表映射到相应的token。

  1. LLR计算

对于蛋白质序列上的每个位置p,计算20种标准氨基酸中每一种的LLR。设i代表氨基酸列表中氨基酸变体的索引。氨基酸替换i在位置p处的LLR由下式给出:

LLRi,p=log(Pi,pPwt,p) LLR_{i,p} = \log\left(\frac{P_{i,p}}{P_{\text{wt},p}}\right)

其中

Pi,p P_{i,p}

是氨基酸i在位置p处出现的概率。

Pwt,p P_{\text{wt},p}

是野生型氨基酸在位置p处出现的概率。

  1. 模型推断

在每个位置p,目标氨基酸被遮蔽,模型用于预测该位置氨基酸标记的概率分布。模型对每个氨基酸标记输出的 logits 通过 softmax 函数转换为概率:

Pi,p=softmax(logitsi,p) P_{i,p} = \text{softmax}\left(\text{logits}_{i,p}\right)

  1. 对数概率计算

然后使用预测的概率来计算对数概率:

logPi,p=log(softmax(logitsi,p)) \log P_{i,p} = \log\left(\text{softmax}\left(\text{logits}_{i,p}\right)\right)

  1. 野生型LLR计算

野生型氨基酸在位置p处的对数概率,表示为logPwt,p log P_{wt, p},从对数概率张量中检索。

  1. 变体氨基酸的LLR计算

氨基酸变体i在位置p处的对数概率,表示为logPi,p \log P_{i, p},计算方法类似。

结果

所有氨基酸替换在每个位置的LLR都被计算并存储在一个热图中,其中行对应氨基酸变体,列对应蛋白质序列上的位置。LLR值表示将野生型氨基酸替换为对应变体在特定位置的相对影响。

AlphaMissense

另一种非常稳健的预测哪些突变对蛋白质功能有利、中性或有害的方法是AlphaMissense,它使用了AlphaFold2。AlphaMissense的工作原理图如下所示。

image/png

image/png

如果您不熟悉这些方法的工作原理,选择正确的变异效应确定方法可能会很困难。对于最先进的性能,我们推荐使用Evo,但如果您不进行编码,最简单的实现可能是我们上面提供的ESM-2示例。如果您进行编码,使用Evo实现相同类型的评分和热图可视化相对简单,并且思路非常相似。AlphaMissense是这三种方法中受关注度最高的一种,因为它使用了非常流行且广为人知的AlphaFold2,并且其结果发表在《自然》杂志上。它的性能可能优于ESM-2等pLM,但不如Evo。

利用AlphaFlow获得构象集合

AlphaFlow是一种流匹配模型,它是扩散模型的推广,部分基于MD模拟数据进行训练。AlphaFlow具有生成性,但与RFDiffusion生成单一静态蛋白质骨架不同,它生成指定数量的蛋白质骨架构象,这些构象可以重现分子动力学模拟。下面,我们可以看到AlphaFlow如何重现MD轨迹的帧。

image/gif

利用分布图谱转换器对蛋白质的玻尔兹曼分布进行采样

<video controls autoplay src="

">

Distributional Graphormer或“DiG”是一个生成式扩散模型,它为我们提供了采样蛋白质玻尔兹曼分布、亚稳态之间的过渡路径、给定蛋白质口袋的配体结合结构生成、催化表面吸附物构型采样以及性质引导结构生成(逆向设计)的方法。

image/png

通过使用DiG,我们可以更好地掌握瞬时结合口袋,这些口袋可能只存在于特定的亚稳态或这些亚稳态之间的过渡态中。这可以为我们提供更全面的涉及配体或蛋白质结合的残基或结构基序集合,从而为我们提供更多可用于RFDiffusion或RFDiffusion All Atom进行骨架搭建的基序或位点。为了获得这些新的结合位点,我们只需对AlphaFlow或Distributional Graphormer生成的各种构象运行AF2Bind。

利用RFDiffusion或RFDiffusion All Atom通过基序骨架和序列填充创建额外的蛋白质骨架

一旦我们获得了所有我们想使用的重要结构基序,无论是来自AF2Bind还是来自UniProt或PDB的注释,我们就可以设计全新的蛋白质骨架,这些骨架能够固定这些基序,或者说“搭建基序”。我们可以为基序之间的区域指定长度范围,这些长度可以精确指定,也可以在每次生成新骨架时随机采样。我们还可以利用RFDiffusion的序列填充功能,让RFDiffusion重新设计对蛋白质结构或功能不太重要的特定残基。下面,我们展示了使用EvoDiff进行功能基序骨架可视化的示例,EvoDiff是另一个在蛋白质序列空间而非蛋白质结构空间(如RFDiffusion和RFDiffusion All Atom)中工作的扩散模型。我们在此不讨论EvoDiff,但它是一个非常适合功能基序骨架的优秀模型。然而,使用EvoDiff也有其缺点和局限性。例如,它无法使用第二个蛋白质或小分子配体作为上下文来提高其性能并生成与蛋白质或小分子靶标具有高形状互补性的结合物或骨架。此外,它无法生成从头结合物、对称寡聚体或对称基序骨架。它也不具备部分扩散和骨架多样化的功能。它也不支持引导势。因此,我们不建议使用它,而更倾向于RFDiffusion和RFDiffusion All Atom。

image/gif

利用LigandMPNN设计序列

LigandMPNN模型(如下图所示)是另一个生成模型,它能够自回归地为给定骨架结构设计蛋白质序列。LigandMPNN在三个不同的图上操作。首先,一个只有蛋白质的图,其中残基作为节点,残基i和j的N、Cα、C、O和虚拟Cβ原子之间有25埃的距离。其次,一个配体内部图,其中原子作为节点,编码化学元素类型和原子之间的距离作为边。第三,一个蛋白质-配体图,其中残基和配体原子作为节点,边编码残基j和配体原子的几何形状。LigandMPNN模型有三个神经网络块:一个蛋白质骨架编码器、一个蛋白质-配体编码器和一个解码器。蛋白质序列和侧链扭转角被自回归解码以获得序列和完整的蛋白质结构样本。

image/png

此模型用于为我们目前生成的骨架设计序列。关于其前身如何用于改善蛋白质表达、稳定性和功能(使用ProteinMPNN)的解释,也可以用LigandMPNN实现,并且由于LigandMPNN在性能上优于ProteinMPNN,我们期望在序列设计(逆折叠)任务上获得更好的性能。此外,LigandMPNN使用配体作为额外上下文,这也改善了性能。您可以选择将特定残基偏向20种标准氨基酸的子集,并远离您选择的其他氨基酸,这可以通过调整单个残基的权重来实现。这与我们从AF2Bind、Evo、像ESM-2这样的pLM、AlphaMissense和/或UniProt或PDB注释中获得的知识相结合,使我们能够更精细地控制生成蛋白质序列的化学性质。仅此序列设计步骤就可以提高蛋白质的结合亲和力和热稳定性,并且可以用于我们原始的起始蛋白质骨架,以及我们使用RFDiffusion或RFDiffusion All Atom通过部分扩散和/或基序骨架生成的骨架。

LigandMPNN还有许多其他功能和各种可调节的旋钮。与RFDiffusion和RFDiffusion All Atom一样,它能够处理对称性。它还可以根据用户输入生成跨膜埋藏残基或跨膜界面残基。此外,它还可以生成侧链构象,并且可以调整温度等超参数以增加序列多样性与序列恢复率。您还可以调整添加到模型训练的骨架中的高斯噪声,或使用SolubleMPNN生成更可溶的蛋白质序列。此外,还有各种输出,例如以下内容:

out_dict = {}
out_dict["logits"] - raw logits from the model
out_dict["probs"] - softmax(logits)
out_dict["log_probs"] - log_softmax(logits)
out_dict["decoding_order"] - decoding order used (logits will depend on the decoding order)
out_dict["native_sequence"] - parsed input sequence in integers
out_dict["mask"] - mask for missing residues (usually all ones)
out_dict["chain_mask"] - controls which residues are decoded first
out_dict["alphabet"] - amino acid alphabet used
out_dict["residue_names"] - dictionary to map integers to residue_names, e.g. {0: "C10", 1: "C11"}
out_dict["sequence"] - parsed input sequence in alphabet
out_dict["mean_of_probs"] - averaged over batch_size*number_of_batches probabilities, [protein_length, 21]
out_dict["std_of_probs"] - same as above, but std

或形式为p(AAibackbone)p(AA_i|backbone)p(AAibackbone,AAall except AAi)p(AA_i|backbone, AA_{all\ except\ AA_i})的logits或概率,可以作为输出返回。

利用AlphaFold2验证设计序列

一旦您使用LigandMPNN为每个蛋白质骨架设计了一个或多个序列,通常需要使用AlphaFold2(或OpenFold)验证并检查其质量。我们通过使用OpenFold预测LigandMPNN生成的序列的结构来完成此操作,预测时仅使用序列,不使用MSA或模板。然后,我们使用RMSD等指标将此预测结构与RFDiffusion或RFDiffusion All Atom生成的结构进行比较。虽然可以使用其他指标,但RMSD是标准方法。此验证步骤允许我们根据RMSD分数筛选出低质量序列。如果预测结构与RFDiffusion或RFDiffusion All Atom结构之间的RMSD较高,则我们知道LigandMPNN设计的序列质量较低。

利用RoseTTAFold All Atom的LIS分数预测结合亲和力

AlphaFold-Multimer LIS分数是根据AlphaFold-Multimer(或OpenFold)的PAE(“预测对齐误差”)输出计算得出的一种指标。该分数是一种非常有效的新方法,用于预测蛋白质-蛋白质相互作用。目前,尚无人将其用于RoseTTAFold All Atom来预测蛋白质与小分子或蛋白质与DNA/RNA之间的相互作用,但该方法可推广到这两种情况。PAE(以及某种程度上错误的ipTM和pLDDT分数)常被研究人员用于帮助预测PPI的强度。LIS分数从PAE计算得出,与PAE以及专门用于预测结合亲和力的各种深度学习模型相比,它具有更好的预测能力。下图展示了AFM-LIS如何计算LIS。

image/png

我们推荐使用OpenFoldRoseTTAFold All Atom的PAE输出来计算LIS分数并预测蛋白质-蛋白质相互作用,对于蛋白质-小分子或蛋白质-DNA/RNA相互作用,我们推荐使用RoseTTAFold All Atom。这使我们能够根据LIS分数进一步筛选出低质量序列。

利用ThermoMPNN预测热稳定性

最后,如果提高热稳定性是您的目标之一,我们推荐使用ThermoMPNN预印本在此),它是ProteinMPNN的微调版本。

ThermoMPNN架构和主要数据集统计数据如下图所示。(a) ThermoMPNN的模型架构,这是一个图神经网络,根据从预训练序列恢复模型(ProteinMPNN,左图)中提取的嵌入进行训练,以预测蛋白质点突变引起的热稳定性变化。输入蛋白质通过ProteinMPNN,从中提取每个解码器层学习到的嵌入,并与学习到的序列嵌入连接起来,以创建残基环境的向量表示。该向量通过一个轻量注意块(LA,紫色块),该块使用自注意力根据学习到的上下文重新加权向量。最后,一个小型多层感知机(MLP,红色块)预测每个可能氨基酸突变的ΔΔG°。(b) 本研究中使用的Megascale和Fireprot数据集的筛选、聚类和数据分割程序。每个分割都标有其突变总数,同源物以黄色显示。每个聚类结果都标有每个数据集中的聚类数量。(c) 每个数据集的蛋白质突变分布直方图。(d) 每个数据集的蛋白质长度分布直方图。(e) 每个数据集与丙氨酸相比,其他极性和非极性残基突变百分比的圆环图,以及SwissProt数据库中所有蛋白质的自然残基丰度以供比较。

image/png

这使我们能够进一步筛选设计的蛋白质序列,并淘汰热稳定性低的蛋白质。

总结

结合所有这些方法,您现在应该能够同时提高蛋白质的结合亲和力、热稳定性和功能,或者设计能够结合您的目标小分子或蛋白质的全新蛋白质。这为我们提供了一个具有巨大影响的流程,可用于改善环境、治愈疾病、增进人类健康以及许多其他感兴趣的任务。希望本指南能为您成为一名卓越的蛋白质工程师、计算生物化学家和人工智能科学家提供一个良好的起点,这些技能的交叉将对世界产生极其积极的影响。

社区

注册登录 以发表评论