【佳作推荐】 百度科研团队NMI期刊论文:一种使用蛋白质语言模型进行结构预测的新方法

2023-11-24 ComputArt计算有乐趣 ComputArt计算有乐趣 发表于上海

作者提出了一种无需MSA搜索的蛋白质结构预测方法——HelixFold-Single。

基于人工智能的蛋白质结构预测方法,例如Alphafold2,已经达到了接近实验的准确性。这些方法主要依靠多序列比对(multiple sequence alignments, MSA)作为输入来从若干同源序列中学习共同进化信息。然而,过度依赖MSA也成为各种蛋白质相关任务的瓶颈,耗时的MSA搜索给需要高通量的任务(例如蛋白质设计)带来了巨大的阻碍。为了解决这一问题,作者提出了一种无需MSA搜索的蛋白质结构预测方法——HelixFold-Single,该方法采用大规模蛋白质语言模型(large scale protein language model, PLM)作为 MSA 的替代,以学习无MSA搜索的共同进化知识,而后通过结合预先训练的蛋白质语言模型和AlphaFold2的基本模块得到最终端到端的可微模型,该模型可以仅从一级序列预测蛋白质的三维坐标。近日,该项研究工作发表在Nature Machine Intelligence期刊上。(Nat Mach Intell 2023, 5 (10), 1087–1096)

图片

HelixFold-Single的基本架构如图1所示。模型由三个部分组成:PLM Base、Adapter 和 Geometric Modelling。作者首先采用大规模PLM Base对蛋白质序列中的协同进化信息进行编码,作为MSA的替代方案。然后,作者采用适配层从 PLM中提取协同进化信息,以有效生成几何建模输入所需的单序列特征和残基对特征。在几何建模中,作者参考Alphafold2的基本架构,使用修改后的Evoformer(名为EvoformerS)和结构模块来充分交换单个序列特征表示和残基对特征表示之间的信息,以捕获几何信息并恢复原子的3D坐标。

HelixFold-Single的训练由两个阶段组成,在第一阶段,通过掩码语言预测任务,使用数百万个未标记的蛋白质序列训练大规模PLM base。随后在第二阶段,使用带标签的蛋白三维实验结构以及Alphafold2生成结构来训练整个模型。

图片

图1、HelixFold-Single模型架构

随后作者将HelixFold-Single与两种主流蛋白质预测模型Alphafold2和RoseTTAFold在CASP14和CAMEO数据集上进行了比较(见图2)。总体而言,HelixFold-Single显著超越了CASP14 和CAMEO 上所有无 MSA 的方法,并且在某些场景下与基于MSA 的方法相当。HelixFold-Single 展示了将 PLM 融入几何建模以进行蛋白质结构预测的潜力。研究人员还分析了HelixFold-Single在具有不同数量同源序列的靶标上的性能,结果表明HelixFold-Single的准确性与同源序列的数量有关,在具有大同源家族的靶点上HelixFold-Single的预测准确性可以与基于 MSA 的方法相媲美。

图片

图2、HelixFold-Single与其他方法在CASP14和CAMEO数据集上的总体比较

此外作者还比较了HelixFold-Single与Alphafold2的预测速度(如图3所示)。与基于 MSA 的方法相比,HelixFold-Single的优势在于其效率,因此它非常适合高通量蛋白质结构预测任务,例如蛋白质设计。

图片

图3、Alphafold2预测、MSA搜索与HelixFold-Single预测的中位数时间比较

在该项研究工作中,为了避免耗时的MSA搜索过程对大规模蛋白质预测的限制,作者提出了一种无需MSA搜索预测蛋白结构的方法HelixFold-Single。HelixFold-Single 尝试利用 PLM 和几何建模的优势,仅通过一维序列来进行端到端的蛋白质结构预测。通过利用蛋白语言模型中的大规模参数嵌入同源信息,作者证明PLM可以作为 MSA 的替代品,以减少蛋白质结构预测所需的时间。HelixFold-Single对于具有大同源家族的靶标可以与基于MSA的方法相媲美,并且比基于MSA的方法高效得多,展示了其在蛋白质研究中的应用前景。有实验结果表明:更大规模的PLM可以实现更优越的性能,后续有望通过使用更大规模的PLM并引入更多样化的数据来进一步提高模型预测蛋白质结构的性能。

参考文献:

(1) Fang, X.; Wang, F.; Liu, L.; He, J.; Lin, D.; Xiang, Y.; Zhu, K.; Zhang, X.; Wu, H.; Li, H.; Song, L. A Method for Multiple-Sequence-Alignment-Free Protein Structure Prediction Using a Protein Language Model. Nat Mach Intell 20235 (10), 1087–1096. https://doi.org/10.1038/s42256-023-00721-6.

版权声明:
本网站所有内容来源注明为“williamhill asia 医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于williamhill asia 医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“williamhill asia 医学”。其它来源的文章系转载文章,或“williamhill asia 号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与williamhill asia 联系,williamhill asia 将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2170675, encodeId=044f21e0675b9, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=d84610e795ff' target=_blank style='color:#2F92EE;'>#蛋白质结构预测方法#</a> <a href='/topic/show?id=06e310e7965f' target=_blank style='color:#2F92EE;'>#蛋白质语言模型#</a> <a href='/topic/show?id=a0c110e797f3' target=_blank style='color:#2F92EE;'>#多序列比对#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=47, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能), TopicDto(id=107797, encryptionId=a0c110e797f3, topicName=多序列比对), TopicDto(id=107795, encryptionId=d84610e795ff, topicName=蛋白质结构预测方法), TopicDto(id=107796, encryptionId=06e310e7965f, topicName=蛋白质语言模型)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=williamhill asia 管理员, createdTime=Fri Nov 24 10:08:41 CST 2023, time=2023-11-24, status=1, ipAttribution=上海)]

相关威廉亚洲官网

AlphaFold最新版——开启数字生物学时代来临! 预测几乎所有分子结构,带来药物研发新范式

大约五年前,DeepMind推出了AlphaFold,一个可以准确预测人体内许多蛋白质结构的人工智能系统,震惊全世界。后来很快又推出AlphaFold 2,进一步提高性能。2022年7月28日,Dee

Quant Imaging Med Surg:人工智能与放射科医生在基于计算机断层扫描图像的骨折检测的准确性分析

撕脱性骨折也是最常见的漏诊,延迟诊断导致更高的诉讼率。因此,本研究基于计算机断层扫描(CT)图像,评估优化前后人工智能(AI)模型的诊断效率,并与放射科医生的诊断效率进行比较,特别是对撕脱性骨折的诊断

Cell:液体活检蛋白质组学与人工智能相结合能确定眼睛老化和疾病的细胞驱动因素

本文方法可以应用于其他器官系统,有可能改变分子诊断和预后,同时发现新的细胞疾病和衰老机制。

EUROPEAN HEART JOURNAL:基于人工智能的心血管健康预测模型的五个关键质量标准

五个最低质量标准:完整的报告、精心定义的模型预期用途、严格的验证、足够大的样本量以及代码和软件的开放性。

JAMA Dermatol:从非标准化的互联网临床照片中汇聚黑色素瘤与痣的数据宝库

在创建的数据集上训练的神经网络比在预先存在的数据集上训练的神经网络表现更好。

ASN 2023:人工智能:肾衰竭最新预测模型(CureGN 研究)

机器学习通过纳入新的数据模型,提高了对肾衰竭的预测能力。在 CureGN研究 中,这些数据的加入提高了肾衰竭的预测,并检测出取代传统风险因素的新的预测因子。