文章正文简要报道



蛋白质是具有重要生物学功能的生物大分子,也是许多疾病治疗的靶点。蛋白质由氨基酸通过肽键“串联”形成一维序列(多肽链),这样的一维序列进一步通过分子内相互作用折叠形成特定的三维结构,犹如将魔尺折叠成各种造型的过程。通常,具有一定三维结构的蛋白质才能发挥生物学功能。由于蛋白质结构-功能之间的依赖关系,获取蛋白质的三维结构对研究蛋白质的功能具有重要价值。获取蛋白质三维结构最可靠的途径是利用结构生物学方法,例如X射线衍射、核磁共振、冷冻电镜等,但是这些方法一方面成本(时间、人力、经费)很高,另一方面也都有一定的局限性。例如,X射线衍射对于实验室无法获得晶体的蛋白质无能为力,冷冻电镜对较小的蛋白难以观察。因此,虽然人类目前已知的蛋白质序列有约2亿条,但通过实验获取的蛋白质结构仅有约20万个。利用实验手段解析蛋白质三维结构的困难大大限制了蛋白质功能的研究。

1961年,Christian Anfinsen等通过实验证明蛋白质的一维序列包含其三维结构信息,这一研究奠定了从蛋白质一维序列出发预测蛋白质三维结构的理论基础。随后的几十年,尤其是计算机得到普及后,科学家一直致力于从蛋白质一维序列中挖掘出其三维结构的信息,实现从蛋白质一维序列到三维结构的理论预测,降低蛋白质结构解析的成本。2018年,谷歌公司基于人工智能的蛋白质结构预测程序AlphaFold横空出世,将蛋白质三维结构的理论预测效果推到新的高度。2020年,改进的AlphaFold2再次震惊世界,将蛋白质三维结构的理论预测质量提高到与实验解析结构媲美的程度。2022年,AlphaFold2预测了人类所知的2亿条蛋白质的三维结构。
在AlphaFold2以及与其可比肩的RoseTTAFold发布后,很多媒体宣传科学家们已经解决了困扰人类五十多年的“蛋白质折叠问题(protein folding problem)”,这是一种不严谨的表述。从蛋白质一维序列预测其三维序列,是蛋白质折叠问题的一个重要部分,但不是全部。蛋白质折叠问题实际上包含三个方面的子问题(Dill KA, MacCallum JL. Science, 2012):(1)可折叠性(foldability)问题:给定一条多肽链,如何判断其是否能够折叠成三维结构?(2)折叠动力学(folding kinetics)问题:这条多肽链怎样朝着其三维结构进行折叠?(3)折叠结构(fold)问题:这条多肽链最终的折叠结构是什么?因此,AlphaFold2和RoseTTAFold等真正解决的是蛋白质折叠问题中的第三个问题,而另外两个问题依然是科学界的难题。
近期,湖北工业大学刘森教授团队在蛋白质可折叠性预测上探索并取得部分进展,相关工作以“Obtaining protein foldability information from models of AlphaFold2 and RoseTTAFold”为题发表在《Computational and Structural Biotechnology Journal》期刊上。在该工作中,研究人员主要提出的问题是:是否能够利用AlphaFold2和RoseTTAFold预测一条多肽链并且此多肽链是否能够形成三维结构(即多肽链的可折叠性)?该问题对蛋白质人工设计非常重要,例如2021年华盛顿大学David Baker团队在《Nature》期刊上发表的一个工作中人工设计了129个蛋白质,其中有102个(79%)未能有效折叠。



研究内容

在AlphaFold2和RoseTTAFold中,蛋白质一维序列的比对(alignment)对其三维结构的预测有决定性作用。为检验AlphaFold2和RoseTTAFold是否能够区分可折叠和不可折叠多肽链,研究人员采取了环形序列重组(circular permutation;CP)的蛋白质序列。CP是一种研究蛋白质折叠的实验手段,其方法是将天然蛋白质序列首尾氨基酸残基相连后,再在其它氨基酸残基间断开形成新的首末端。因此,CP序列间在氨基酸组成上完全一样,且局部序列氨基酸顺序也完全一样。这样的序列可以最大程度干扰一维序列比对,从而“欺骗”AlphaFold2和RoseTTAFold。研究人员选择了经过实验验证的大肠杆菌DHFR蛋白的CP突变体进行验证。结果表明,AlphaFold2和RoseTTAFold都不能区分可折叠和不可折叠的DHFR CP突变体。即AlphaFold2和RoseTTAFold能预测出结构的多肽链不一定能够真正折叠成三维结构。



进一步,研究人员设想,AlphaFold2和RoseTTAFold等方法是利用实际可折叠的蛋白质进行学习的,那么是否不可折叠蛋白质序列的“伪三维结构”预测精度会比较差呢?AlphaFold2对预测结构用pLDDT打分评估预测可靠性,然而该打分并不能区分可折叠和不可折叠的DHFR CP突变体。但是研究人员发现可折叠和不可折叠的DHFR CP突变体的预测结构与野生型DHFR晶体结构的差异(RMSD)存在不一样,可折叠的DHFR CP突变体的RMSD更小。进一步研究发现,RMSD的差异可以作为区分可折叠和不可折叠DHFR CP突变体的有效判断标准之一。该发现还在另一套丙氨酸插入产生的DHFR突变体实验数据上得到进一步验证。最后,研究人员还证明这种RMSD差异确实与蛋白的可折叠性而非功能相关。

上述RMSD的计算基于有已知结构的天然蛋白质,那么对于没有已知结构的人工设计蛋白质该如何预测其可折叠性呢?研究人员设想,与不可折叠蛋白相比,可折叠蛋白具有更多的序列进化信息,因此不同预测方法得到的结构一致性应该更高。基于这一设想,研究人员利用AlphaFold2和RoseTTAFold两种方法的预测结构间的RMSD差异(inter-model RMSD)分析了DHFR的可折叠性,发现确实存在这样的规律,即可折叠的DHFR序列具有更小的inter-model RMSD。


结语

多肽链的可折叠性是蛋白质折叠问题中的一个重要方面,从蛋白质一维序列预测其可折叠性对人工改造和设计自然界中没有的蛋白质尤为重要。该工作基于AlphaFold2和RoseTTAFold在预测蛋白质可折叠性方面作出了积极尝试,并提出了参考方案。基于该工作研究结论,研究人员对David Baker等人2021年在《Nature》期刊上发表的129个人工设计蛋白进行了回顾性分析,发现可折叠蛋白(占比21%)确实具有较小的inter-model RMSD。其后,研究人员注意到,David Baker等人2022年在《Science》期刊上发表的工作中,对RoseTTAFold人工设计蛋白利用AlphaFold2进行结构一致性预测后,80%的蛋白质具有良好的可折叠性。David Baker等人2022年在《Science》期刊上的发表的另一个工作中,对ProteinMPNN方法设计的蛋白质用AlphaFold2进行一致性预测后,74%的蛋白能够有效折叠。以上研究进一步从侧面证实该工作的研究结论,即不同人工智能预测方法的结构预测一致性确实可以作为蛋白质可折叠性的判断依据,能够有效提高人工设计蛋白的成功率。

该研究工作得到国家自然科学基金面上项目、湖北省杰出青年基金等资助。

原文链接:

1. BioRxiv preprint: https://doi.org/10.1101/2022.01.27.477978

2. Computational and Structural Biotechnology Journal: https://doi.org/10.1016/j.csbj.2022.08.034

– 通讯作者简介 –

湖北工业大学

刘森

教授

       

     刘森,湖北工业大学教授、博士生导师、发酵工程教育部重点实验室副主任、分子医药与代谢工程团队PI。长期从事蛋白质结构功能关系和药物设计方面的研究,提出了利用非共价对接发现共价药物的SCARdock方法,在PNAS、eLife、Bioinformatics、J. Chem. Info. Model等学术期刊上发表论文60余篇,获授权国家发明专利20余项,国际发明专利1项,主编学术专著2部,获湖北省科技进步奖1项。主持国家自然科学基金3项。入选多项省部级人才支持计划。担任国际电工委员会生物数字融合标准化评估组(IEC/SEG12)中国专家组成员、国际蛋白质设计联盟(Rosetta Commons)兼职PI及教育委员会成员、国际多胺研究组织(IPF ONLUS)顾问委员、湖北省生物信息学会副理事长、湖北省生物化学与分子生物学会常务理事、湖北省晶体学会理事等。



——— End ———

关于湖北省生物信息学会

湖北省生物信息学会,是由湖北省内从事生物信息学科技工作者自愿组成的全省性、学术性、非营利性的社会团体。学会致力于制定生物信息学专业规范,加强学术交流与合作,推动人才培养,促进理事单位及省内外生物信息学产业的健康可持续发展。