使用多模态文本-结构表示进行分子检索和编辑

社区文章发布于 2024 年 2 月 26 日

人造材料无处不在：从我们生病时服用的处方药，到食品生产中使用的杀虫剂和防腐剂，再到我们穿的衣服和使用的交通工具。分子设计的搜索空间非常巨大。仅就药物而言，据信可能存在约 10^23 到 10^60 种化合物，而迄今为止仅合成了约 10^8 种。这使得分子设计成为人类面临的最基本和最复杂的挑战之一。当然，随着人工智能和基础模型的最新进展，我们现在拥有强大的工具来应对这一挑战。想象一下，下一代抗生素、高能量密度电池或环保塑料的开发速度比以前快 10 倍。该学科对人类和地球的积极影响潜力巨大！在本期 Frontier AI 中，与我一起探索人工智能驱动的材料设计的迷人世界。

文本提示分子编辑概览

有几种方法可以使用计算机表示化合物。最广泛使用的是2D 图、3D 分子结构，以及一种名为 smiles（及其变体如 selfies 和 SAFE）的文本表示。在分子设计的背景下，多模态是指同时关联这些表示中的几个。巨大的挑战是确保潜在空间中的嵌入表示确实跨模态共享语义属性。因此，我们希望分子结构的嵌入在潜在空间中接近它们的文本描述和 SMILES。

Example of representation of a molecule (Aspirine). From left to right: 3D graph, 2D structure, smiles and text description. Source: [Pubchem](https://pubchem.ncbi.nlm.nih.gov/compound/Aspirin)

分子（阿司匹林）表示示例。从左到右：3D 图、2D 结构、SMILES 和文本描述。来源：Pubchem。

事实证明，当对每种模态使用不同的预训练编码器时，生成多模态嵌入并非易事。解决此问题的一种方法是在分子结构嵌入和文本描述嵌入对之间进行对比学习。论文《用于基于文本检索和编辑的多模态分子结构-文本模型》展示了一个很好的例子。首先，作者使用独立的预训练编码器生成文本和分子的嵌入。然后，他们通过对比学习将嵌入投射到单个有意义的潜在空间中。这个过程最了不起的部分是这些嵌入所实现的各种有趣应用。例如，我们可以根据文本描述在数据集中找到分子结构（这对于药物筛选和用途再利用很有用）。我们还可以通过文本提示修改分子的结构，使其以零样本方式满足所需的属性（是的，这可能！）。作者使用广为人知的 MoleculeNet 框架测试了该技术。该基准专门设计用于测试预测分子性质的机器学习方法，例如溶解度、毒性、原子化能、HOMO/LUMO 等。

Description of the multi-modal (structure and text) contrastive learning approach to generate semantic embeddings. Source: [Liu and Al. 2023](https://arxiv.org/pdf/2212.10789.pdf)

多模态（结构和文本）对比学习方法生成语义嵌入的描述。来源：Liu et al., 2023。

文本提示分子检索

假设您有一个庞大的分子数据集（2D 和 3D 结构或 SMILES），并且您想找到一些可能对您的应用程序感兴趣的分子。在这种情况下，您只需生成结构嵌入并对其进行查询。然后计算相似度分数以找到最有希望的候选者。此过程是跨模态双向的。因此，如果您有一个代表性的数据集，您也可以找到与您的结构匹配的描述。分子检索的主要应用是：

验证您的分子是否已存在或已投入商业使用。
查找可用于您预期应用现有分子。
生成未知结构的文本描述。

Schema of multi-modal molecule retrieval (structure and text)

多模态分子检索（结构和文本）示意图。来源：Liu et al., 2023。

零样本分子编辑

现在假设您有一个已知的分子结构，并且您想修改它以增加一些相关属性。例如，您可能希望使化合物更易溶于水，或增加或减少给定的机械性能。在此设置中，作者首先编码原始分子和所需属性的文本提示。下一步是直接学习一个潜在代码，该代码同时接近原始分子和文本描述的嵌入。这通过使用两个相似性分数（一个用于文本，一个用于结构）作为目标函数来完成。这可以形式化为：

$w = \text{argmin}_{w \in W} \left( -L_{\text{cosine-sim}}(g_2 f(w), p_t \circ f_t(x_t)) + \lambda \cdot L_{\ell2}(w, f_g(x_c, in)) \right)$

其中 W 是潜在代码空间，Lcosine-sim 是余弦相似度，Ll2 是 L2 距离，λ 是一个平衡系数。由此产生的潜在向量更接近期望的文本描述，但与原始结构相距不远。

零样本分子编辑示意图。来源：Liu et al., 2023。

在使用基于 BERT 的预训练解码器解码潜在代码后，我们获得了满足文本提示指定所需属性的修改结构。下图显示了多目标分子编辑的一些示例。多目标意味着同时优化两个或更多属性（例如，使分子溶于水并降低其渗透性）。这可以通过零样本方式实现，因为优化是在潜在空间中完成的，使用文本查询的嵌入。结构的修改片段以粉色（原始）和紫色（替换）突出显示。报告了预测的属性，证实了根据文本提示进行的扩展/缩小。

Examples of zero-shot molecule editing with text prompts

文本提示零样本分子编辑示例
来源：Liu et al., 2023。

分子编辑的潜在应用有很多

微调现有化合物以改善其性能（例如，降低对某种抗生素的耐药性）。
提供关于哪些官能团与给定属性的增加/减少相关的见解和解释。
更快地生成现有专利化合物的非平凡替代品。

前景展望

就是这样！我希望您喜欢阅读这篇文章，并对人工智能在药物发现中引人入胜的领域学到了一些新知识。感谢 Shengchao Liu 及其团队的这项卓越工作！以下是相关资源的链接（MIT 许可证 :））

在 HF 🤗、领英上关注我，敬请期待下一期 Frontier AI！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论