Transformers 文档

ESM

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

ESM

概述

本页面提供了来自 Meta AI 基础人工智能研究团队的 Transformer 蛋白质语言模型的代码和预训练权重，提供了最先进的 ESMFold 和 ESM-2，以及之前发布的 ESM-1b 和 ESM-1v。Transformer 蛋白质语言模型是在 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus 的论文 Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 中介绍的。该论文的第一个版本于 2019 年预印。

ESM-2 在一系列结构预测任务中优于所有已测试的单序列蛋白质语言模型，并实现了原子级分辨率的结构预测。它与 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido 和 Alexander Rives 的论文 Language models of protein sequences at the scale of evolution enable accurate structure prediction 一同发布。

这篇论文还介绍了 ESMFold。它使用一个 ESM-2 主干和一个头部，可以预测具有最先进精度的折叠蛋白质结构。与 AlphaFold2 不同，它依赖于大型预训练蛋白质语言模型主干的词元嵌入，并且在推理时不执行多序列比对（MSA）步骤，这意味着 ESMFold 检查点是完全“独立”的——它们不需要已知蛋白质序列和结构的数据库以及相关的外部查询工具来进行预测，因此速度要快得多。

“Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences” 一文的摘要如下：

在人工智能领域，由无监督学习实现的数据规模和模型容量的结合，在表示学习和统计生成方面取得了重大进展。在生命科学领域，测序的预期增长有望提供关于自然序列多样性的前所未有数据。演化规模的蛋白质语言模型是实现生物学预测性和生成性人工智能的合乎逻辑的一步。为此，我们使用无监督学习，在跨越演化多样性的 2.5 亿个蛋白质序列的 860 亿个氨基酸上训练一个深度上下文语言模型。最终模型在其表示中包含了关于生物学特性的信息。这些表示仅从序列数据中学习。学习到的表示空间具有多尺度组织，反映了从氨基酸生化特性到蛋白质远缘同源性水平的结构。关于二级和三级结构的信息被编码在表示中，并可以通过线性投影来识别。表示学习产生了可在多种应用中泛化的特征，从而实现了突变效应和二级结构的最先进监督预测，并改进了用于远距离接触预测的最先进特征。

“Language models of protein sequences at the scale of evolution enable accurate structure prediction” 一文的摘要如下：

最近，大型语言模型已被证明随着规模的扩大而发展出涌现能力，超越了简单的模式匹配，可以执行更高层次的推理并生成逼真的图像和文本。虽然在较小规模上对蛋白质序列训练的语言模型进行了研究，但随着它们规模的扩大，它们对生物学的了解仍然知之甚少。在这项工作中，我们训练了高达 150 亿参数的模型，这是迄今为止评估过的最大的蛋白质语言模型。我们发现，随着模型规模的扩大，它们会学习到能够以单个原子分辨率预测蛋白质三维结构的信息。我们提出了 ESMFold，用于直接从蛋白质的单个序列进行高精度的端到端原子级结构预测。对于语言模型能够很好理解的低困惑度序列，ESMFold 的准确性与 AlphaFold2 和 RoseTTAFold 相似。ESMFold 的推理速度比 AlphaFold2 快一个数量级，使得在实际时间尺度内探索宏基因组蛋白质的结构空间成为可能。

原始代码可以在这里找到，由 Meta AI 的基础人工智能研究团队开发。ESM-1b、ESM-1v 和 ESM-2 由 jasonliu 和 Matt 贡献给 huggingface。

ESMFold 由 Matt 和 Sylvain 贡献给 huggingface，非常感谢 Nikita Smetanin、Roshan Rao 和 Tom Sercu 在整个过程中的帮助！

使用技巧

ESM 模型使用掩码语言模型（MLM）目标进行训练。
HuggingFace 移植的 ESMFold 使用了 openfold 库的部分代码。`openfold` 库采用 Apache License 2.0 许可。

资源

EsmConfig

class transformers.EsmConfig

< 来源 >

( vocab_size = None mask_token_id = None pad_token_id = None hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 1026 initializer_range = 0.02 layer_norm_eps = 1e-12 position_embedding_type = 'absolute' use_cache = True emb_layer_norm_before = None token_dropout = False is_folding_model = False esmfold_config = None vocab_list = None **kwargs )

参数

vocab_size (int, 可选) — ESM 模型的词汇表大小。定义了在调用 ESMModel 时，`inputs_ids` 可以表示的不同词元的数量。
mask_token_id (int, 可选) — 词汇表中掩码词元的索引。此项必须包含在配置中，因为“掩码-丢弃”缩放技巧会根据掩码词元的数量来缩放输入。
pad_token_id (int, 可选) — 词汇表中填充词元的索引。此项必须包含在配置中，因为 ESM 代码的某些部分使用它而不是注意力掩码。
hidden_size (int, 可选, 默认为 768) — 编码器层和池化层的维度。
num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。
intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间”层（通常称为前馈层）的维度。
hidden_dropout_prob (float, 可选, 默认为 0.1) — 嵌入层、编码器和池化层中所有全连接层的丢弃概率。
attention_probs_dropout_prob (float, 可选, 默认为 0.1) — 注意力概率的丢弃率。
max_position_embeddings (int, 可选, 默认为 1026) — 此模型可能使用的最大序列长度。通常将其设置为一个较大的值以备不时之需（例如 512、1024 或 2048）。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。
position_embedding_type (str, 可选, 默认为 "absolute") — 位置嵌入的类型。选择 `“absolute”`、`“relative_key”`、`“relative_key_query”`、`“rotary”` 之一。对于位置嵌入，使用 `“absolute”`。有关 `“relative_key”` 的更多信息，请参阅 Self-Attention with Relative Position Representations (Shaw et al.)。有关 `“relative_key_query”` 的更多信息，请参阅 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的_方法 4_。
is_decoder (bool, 可选, 默认为 False) — 模型是否用作解码器。如果为 False，则模型用作编码器。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。仅当 `config.is_decoder=True` 时相关。
emb_layer_norm_before (bool, 可选) — 是否在嵌入层之后、网络主干之前应用层归一化。
token_dropout (bool, 默认为 False) — 启用时，被掩码的词元将被视为被输入丢弃。

这是用于存储 ESMModel 配置的配置类。它用于根据指定的参数实例化一个 ESM 模型，定义模型架构。使用默认值实例化配置将产生与 ESM facebook/esm-1b 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import EsmModel, EsmConfig

>>> # Initializing a ESM facebook/esm-1b style configuration
>>> configuration = EsmConfig(vocab_size=33)

>>> # Initializing a model from the configuration
>>> model = EsmModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

to_dict

< 来源 >

( ) → dict[str, any]

dict[str, any]

所有构成此配置实例的属性的字典，

将此实例序列化为 Python 字典。覆盖默认的 to_dict()。

EsmTokenizer

class transformers.EsmTokenizer

< 来源 >

( vocab_file unk_token = '<unk>' cls_token = '<cls>' pad_token = '<pad>' mask_token = '<mask>' eos_token = '<eos>' **kwargs )

构建一个 ESM tokenizer。

Transformers

ESM

概述

使用技巧

资源

EsmConfig

class transformers.EsmConfig

to_dict

EsmTokenizer

class transformers.EsmTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

EsmModel

class transformers.EsmModel

forward

EsmForMaskedLM

class transformers.EsmForMaskedLM

forward

EsmForSequenceClassification

class transformers.EsmForSequenceClassification

forward

EsmForTokenClassification

class transformers.EsmForTokenClassification

forward

EsmForProteinFolding

class transformers.EsmForProteinFolding

forward

TFEsmModel

class transformers.TFEsmModel

调用

TFEsmForMaskedLM

class transformers.TFEsmForMaskedLM

调用

TFEsmForSequenceClassification

class transformers.TFEsmForSequenceClassification

调用

TFEsmForTokenClassification

class transformers.TFEsmForTokenClassification

调用