Transformers

ESM

概述

本页面提供了来自Meta AI基础AI研究团队的Transformer蛋白质语言模型的代码和预训练权重，包括最先进的ESMFold和ESM-2，以及之前发布的ESM-1b和ESM-1v。Transformer蛋白质语言模型在论文《通过将无监督学习扩展到2.5亿个蛋白质序列，生物结构和功能得以涌现》中首次提出，作者包括Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma和Rob Fergus。该论文的第一版于2019年预印。

ESM-2 在一系列结构预测任务中优于所有测试的单序列蛋白质语言模型，并能够实现原子分辨率的结构预测。它随论文Language models of protein sequences at the scale of evolution enable accurate structure prediction发布，作者为Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Sal Candido 和 Alexander Rives。

本文还介绍了ESMFold。它使用了一个ESM-2主干和一个能够以最先进的准确度预测折叠蛋白质结构的头部。与AlphaFold2不同，它依赖于来自大型预训练蛋白质语言模型主干的标记嵌入，并且在推理时不执行多序列比对（MSA）步骤，这意味着ESMFold检查点是完全“独立”的——它们不需要已知蛋白质序列和结构的数据库以及相关的外部查询工具来进行预测，因此速度更快。

来自“生物结构和功能通过将无监督学习扩展到2.5亿个蛋白质序列而出现”的摘要是

在人工智能领域，通过无监督学习实现的数据规模和模型能力的结合，推动了表示学习和统计生成方面的重大进展。在生命科学领域，测序技术的预期增长有望提供关于自然序列多样性的前所未有的数据。在进化规模上进行蛋白质语言建模，是朝着生物学预测和生成人工智能迈出的逻辑性一步。为此，我们使用无监督学习在跨越进化多样性的2.5亿个蛋白质序列中的860亿个氨基酸上训练了一个深度上下文语言模型。生成的模型在其表示中包含了关于生物特性的信息。这些表示仅从序列数据中学习得到。学习到的表示空间具有多尺度组织，反映了从氨基酸的生化特性水平到蛋白质的远程同源性的结构。关于二级和三级结构的信息被编码在表示中，并且可以通过线性投影来识别。表示学习产生的特征可以在一系列应用中泛化，使得突变效应和二级结构的监督预测达到最先进水平，并改进了用于远程接触预测的最先进特征。

来自“在进化规模上的蛋白质序列语言模型能够准确预测结构”的摘要是

最近，大型语言模型已经显示出随着规模的扩大而发展出新兴能力，超越了简单的模式匹配，能够进行更高层次的推理并生成逼真的图像和文本。虽然在小规模上已经研究了基于蛋白质序列训练的语言模型，但对于它们在规模扩大时对生物学的了解知之甚少。在这项工作中，我们训练了多达150亿参数的模型，这是迄今为止评估的最大的蛋白质语言模型。我们发现，随着模型的规模扩大，它们学习到的信息能够以单个原子的分辨率预测蛋白质的三维结构。我们提出了ESMFold，用于直接从蛋白质的单个序列进行高精度的端到端原子级结构预测。对于语言模型理解良好的低困惑度序列，ESMFold的准确性与AlphaFold2和RoseTTAFold相似。ESMFold的推理速度比AlphaFold2快一个数量级，使得在实际时间尺度内探索宏基因组蛋白质的结构空间成为可能。

原始代码可以在这里找到，并且是由Meta AI的基础人工智能研究团队开发的。 ESM-1b、ESM-1v和ESM-2由jasonliu和Matt贡献给huggingface。

ESMFold 是由 Matt 和 Sylvain 贡献给 huggingface 的，非常感谢 Nikita Smetanin、Roshan Rao 和 Tom Sercu 在整个过程中的帮助！

使用提示

ESM模型是通过掩码语言建模（MLM）目标进行训练的。
ESMFold的HuggingFace移植版使用了openfold库的部分内容。openfold库是根据Apache License 2.0许可的。

Transformers

ESM

概述

使用提示

资源

EsmConfig

类 transformers.EsmConfig

to_dict

EsmTokenizer

类 transformers.EsmTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

EsmModel

类 transformers.EsmModel

前进

EsmForMaskedLM

类 transformers.EsmForMaskedLM

前进

EsmForSequenceClassification

类 transformers.EsmForSequenceClassification

前进

EsmForTokenClassification

类 transformers.EsmForTokenClassification

前进

EsmForProteinFolding

类 transformers.EsmForProteinFolding

前进

TFEsmModel

类 transformers.TFEsmModel

调用

TFEsmForMaskedLM

类 transformers.TFEsmForMaskedLM

调用

TFEsmForSequenceClassification

类 transformers.TFEsmForSequenceClassification

调用

TFEsmForTokenClassification

类 transformers.TFEsmForTokenClassification

调用