详细内容

AlphaFold2同源建模

2020年12月,谷歌人工智能 AlphaFold2在第十四届国际蛋白质结构预测竞赛CASP14比赛中,以摧枯拉朽之势击败了所有对手,成功根据氨基酸序列预测了生命基本分子——蛋白质的三维结构。

图片1.png

请记住AlphaFold这个名字,它是我们今天的主角。对于非专业的人来说,您可能觉得这个名字有点陌生,但您一定听过AlphaGo,这个打败了世界围棋冠军柯洁,被围棋界公认为棋力超过人类水准的超级算法。而AlphaFold和AlphaGo则是一母所出的孪生兄弟,都是由谷歌DeepMind公司开发的顶级人工智能。AlphaGo在围棋界已经一骑绝尘,而前者,更是转向了生命科学中最棘手的问题之一----蛋白质折叠问题!

现在我们回到最初,了解一下蛋白质的三维结构是什么,CASP比赛又是什么。

蛋白质的三维结构

蛋白质是一切生命的物质基础,是机体细胞、组织和器官的重要组成成分。而一切生命的表现形式,本质上都是蛋白质功能的体现,可以说没有蛋白质就没有生命。

图片2.png

蛋白质是由氨基酸序列组成,但真正决定蛋白质作用的是它的折叠方式,即氨基酸序列的三维结构。人体中存在众多类型的蛋白质,如血液中的白蛋白、球蛋白、血红蛋白,肌肉中的肌蛋白,骨骼、皮肤、筋腱中的胶原蛋白,各种细胞中的酶蛋白等,每种蛋白质都有自己独特的蛋白质三维结构。换句话说,蛋白质的三维结构信息蕴含着生命信息的密码,决定了蛋白质的工作方式和功能。

图片3.png


很多人体疫病,都是由蛋白质的错误折叠引发的,比如帕金森症、阿尔斯海默症、亨廷顿症等。药物原理类似于一把钥匙,锁就是疫病靶点,通常可以把它认为是一种蛋白质。钥匙小分子加入锁孔就是和蛋白质发生结合,抑制蛋白质正常作用,或者激活蛋白质的某些作用。只有绘制出人体内某些蛋白质的三维地图,才能找到药物靶点,完成精准制导。因此,了解和预测蛋白质的三维结构,对于癌症的预测、药物靶点的选择、新药物的研发、免疫疾病的精准治疗具有重要的价值。

CASP的设立

那如何得到蛋白质的三维结构呢?目前世界上蛋白质结构发现的主要方法包括X-ray晶体衍射法、核磁共振法,以及2013年后成为热门的冷冻电镜三维重构法等。但是这些设备采购成本高昂,比如一台冷冻电镜的售价大概是数千万人民币(600万美元左右),外加上一些其他配置,维护成本高昂,实在难以广泛推广。且图像重构需要耗费大量的计算力,往往需要很长时间才能解出一个新的蛋白质3D结构。

那有没有简单的获取蛋白质三维结构的方式呢?理论上讲,计算机是能够推算出来的。由于氨基酸折叠成蛋白质的力学原理很明确,包括氢键、范德华力、疏水作用等相互作用,上千个氨基酸折叠后形成的三维结构,达到了力学最稳态。1972年,生物化学家Christian Anfinsen在发表诺贝尔获奖感言时,提出一个著名的假设:理论上,蛋白质的氨基酸序列应该完全决定其三维结构。不过实际上,蛋白质折叠问题的难度非常大。在形成三维结构之前,蛋白质的理论折叠方式是一个天文数字。分子生物学家Cyrus Levinthal 估计,一种蛋白质大约存在 10^300 种可能构象。这个数字是什么概念呢,就是说即使把世界上所有的计算机算力加在一起,枚举一种蛋白质可能存在的构象,从宇宙诞生计算到宇宙毁灭也算不完。所以如果仅依靠超级计算机的蛮力计算,是无法根据氨基酸序列预测出蛋白质结构的。科学界为了解决这一问题做出了很多探索,很多蛋白质结构预测算法应运而生,开头我们提到的CASP蛋白质结构预测比赛即为了检验预测蛋白质结构的技术水平而设立。

AlphaFold2的简介

图片4.png

2021年7月15日,关于AlphaFold2的论文在“Highly accurate protein structure prediction with AlphaFold”在Nature上发表[1],公布了AlphaFold2的原理,并在Github上将AlphaFold2的代码开源[2]。

图片6.png

AlphaFold2使用多序列比对,将蛋白质结构整合到算法。2018年的AlphaFold使用的神经网络是类似ResNet的残差卷积网络,到了AlphaFold2则借鉴了AI研究中最近新兴起的Transformer构架。Transformer使用注意力机制兴起于NLP领域,用于处理一连串的文本序列。而氨基酸序列正是和文本类似的数据结构,AlphaFold2利用多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。

AlphaFold2的应用方向:

通过同源建模预测蛋白质的三维结构,可预测蛋白质之间的功能是否发生变化;计算药物虚拟筛选即蛋白质与小分子对接;预测蛋白与蛋白的互作结合位点,为突变位点的设计提供重要的参考。对于癌症的预测、药物靶点的选择、新药物的研究具有重大贡献。

案例展示:

蛋白A和蛋白C互作的结合位点  

蛋白B和蛋白C互作的结合位点

微信图片_20230328151057.png

参考文献:

[1] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021 Aug; 596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15. PMID: 34265844; PMCID: PMC8371605.

[2] GitHub - deepmind/alphafold: Open source code for AlphaFold.

南京源宝生物科技有限公司

南京市江宁区高新园乾德路9号金都科技园2栋




邮件:service@yuanbaobio.com



科研服务

新闻中心

技术资料

电话:025-52299880




手机:15210426750



企业官方公众号



联系我们

产品中心

品质源于专业

欢迎关注“源生课堂”公众号


seo seo