CCF-腾讯犀牛鸟基金人物专访 | 深度学习揭开蛋白质“生命密码”,产学研结合创新应用价值

科技工作者之家 2021-06-07


导语:

CCF-腾讯犀牛鸟基金(以下简称犀牛鸟基金)于2013年由腾讯公司和中国计算机学会(CCF)共同发起,致力于面向海内外青年学者搭建产学研合作及学术交流的平台。9年来,犀牛鸟基金为全球范围内最具创新力的青年学者提供了解产业真实问题,接触业务实际需求的机会,推动合作双方学术影响力的提升及研究成果的应用落地。来自香港中文大学(深圳)的李镇老师,正是通过本项基金与腾讯业务团队在“蛋白质结构预测”方面开展了深入的合作。


2020年,新冠病毒的大流行让人类感到措手不及。


这场人类与病毒的博弈超越了国界,全球诸多领域的科学家都投入到疫苗和药物的研究工作中,而新技术对于传统医学研究方法的助力,将有可能加快寻找新冠肺炎等疾病治疗药物的步伐。


这其中,“蛋白质结构预测”作为基于药物靶点结构的新药发现和药物设计基础步骤,在药物研究的过程中起到了重要作用。前不久,谷歌旗下人工智能技术公司DeepMind提出的深度学习算法“Alphafold2”在对蛋白质结构和折叠的预测上取得了突破性的进展,一度宣称解决了困扰人类50年的难题。这证明了在人工智能技术的支持下,基于计算进行“蛋白质结构预测”的效率和准确率可以得到显著提升。借助于人工智能的计算生物学,科学家可以更快地对新冠等病毒的蛋白质结构进行预测,从而快速进行药物靶点筛选,更早寻找到战胜病毒的方法。


2019年8月,通过CCF-腾讯犀牛鸟基金(以下简称 “犀牛鸟基金”)的桥接,香港中文大学(深圳)理工学院李镇老师腾讯AI Lab机器学习中心展开了《利用深度学习进行从头开始的蛋白质结构预测和蛋白质设计》项目研究(以下简称“蛋白质结构预测与设计项目”)。这项研究从预测蛋白质结构的算法入手,基于深度学习预测和了解蛋白质二级结构,三维结构及结构决定的功能。作为犀牛鸟基金优秀奖的获奖项目,开展一年多以来,腾讯tFold在参加相关领域的国际顶级测试竞赛(蛋白结构盲测竞赛CAMEO)期间(2020.03-2020.11),稳定获得周度、月度及季度冠军。


香港中文大学(深圳)理工学院  李镇老师


蛋白质结构预测:破解生命密码的基础研究


了解蛋白质的结构为什么如此重要,不仅因为蛋白质是人体一切细胞和组织的重要成分,更重要的是,蛋白质只有折叠成特定的空间构象才能具有相应的活性和生物学功能。因此,只有了解了蛋白质的结构,才能理解它的功能和工作原理,从而被称为“破解生命和万物的密码”。


如果说基因是生命的蓝图,蛋白质便是生命的机器。据统计,自然界中已经测定的基因序列有1.8亿个,但是已知的蛋白质结构只有17万个。多年以来,实验法一直是蛋白质结构测定的金标准。但实验法往往依赖大量试错和昂贵的设备,要得到每一种蛋白质的结构,都得花费数月甚至数年时间。对于那些在自然界中不稳定存在或者是根本不存在的蛋白质序列,实验法就更加无法准确测定。


“随着科学研究的深入,我们发现,人类面临的很多具体问题,无论是对付病毒、攻克疾病还是处理垃圾……基本上都与蛋白质及其扮演的角色有关。”李镇老师介绍道,“如果能清楚地知道蛋白质的结构,就能帮助科学家更快地解决这些问题。而我们负责的‘蛋白质二级结构预测’项目,就是从蛋白质的氨基酸序列出发在同源序列受限的情况下预测蛋白质结构中的局部特征(例如Alpha-螺旋或者Beta-折叠),这样的局部结构将为后续更好地对蛋白质的三维结构进行预测提供重要的约束。这在医学和生物技术领域都有很高的应用价值。”


李镇老师团队与腾讯AI Lab合作,共同开发了基于计算生物学与深度学习方法的蛋白质三维结构预测算法平台——腾讯tFold。腾讯tFold平台通过深度学习预测出蛋白质结构以后,结构生物学家就能有针对性地做相应的实验,加速确定蛋白质结构的过程,从而可以为新的药物分子设计提供合理的靶分子及结构或者实现其他领域的落地。


例如,tFold的成功开发也进一步辅助了与男性脱发密切相关的SRD5A2膜蛋白结构的破解。膜蛋白由于很难结晶,原本很难通过X射线晶体学等实验方法来确定其结构。而在腾讯与李镇老师团队合作开发的tFold平台的帮助下,来自香港中文大学(深圳)任若冰老师,上海科技大学,西湖大学,腾讯AI Lab的联合研究团队已经成功破解了该膜蛋白的三维结构,该成功已经被Nature Communication接收。后期,科学家们可以针对该蛋白质结构的一些位点突变,找到相关药物延缓男性脱发。


tFold使用截图


基于tFold辅助的PbSRD5A的晶体结构。基于完整的PbSRD5A晶体结构,使得设计具有更高特异性和治疗效果的SRD5A的靶向药物成为了可能。


探索深度学习,努力实现从头开始的蛋白结构预测国产化


李镇老师师从于计算机视觉和计算机图形学领域的专家俞益州教授(香港大学)以及从头开始的蛋白结构预测领域专家徐锦波教授(芝加哥丰田研究院)。在两位导师的带领下,李镇老师是国内率先利用计算机深度学习的方法研究蛋白质结构预测领域课题的研究者之一。在香港大学计算机系读博期间,李镇老师就接触相关蛋白二级结构预测以及接触图预测等相关研究,并取得了一定的成果。博士毕业以后,他先后在芝加哥大学丰田研究院和香港中文大学(深圳)从事相关领域的工作和研究,通过设计模型,利用深度学习进行蛋白质二级结构及属性的预测,从而进一步进行蛋白质三维结构预测,李镇老师在许锦波教授与王晟博士合作,在蛋白质结构预测领域权威比赛中CASP12中取得了接触图预测全球冠军,该工作第一次证明了深度学习可以在蛋白结构预测中取得成功,也成为DeepMind的AlphaFold的核心框架基础。


近年来,作为香港中文大学深圳理工学院的助理教授和深圳市大数据研究院研究科学家,李镇老师的研究方向集中在医学大数据处理、三维计算机视觉和计算生物学等方面。随着蛋白质结构预测的重要性日益凸显,通过深度学习的方式来解决蛋白质的结构预测问题这一理念逐渐成为主流,也有越来越多的国内外研究机构投身于这项研究。


李镇老师认为,深度学习的不断进步,为蛋白质预测领域开拓了非常好的前景。国际最前沿的技术已经验证了从0到1的可能性,即利用人工智能可以精准地预测蛋白质 结构以及3D折叠构象,这一复杂的过程对于人们理解生命形成的机制至关重要。而作为本土研究人员,如何迅速实现高精度从头开始的蛋白结构预测计算框架的国产化和自主化是国内研究者的共同奋斗目标。在实现自主化之后,探究从“1到100”的广阔应用场景,进一步加速该算法对于医疗诊断,推动制药研发等领域的发展,也是下一步热门的研究方向。


李镇老师研究团队


“如果我们能拥有自主研发的蛋白质结构预测的平台,并在此基础上去实现很多下游任务,包括蛋白质结构辅助药物设计、蛋白质结构辅助蛋白设计等,具有深远意义。”这是李镇老师多年来孜孜不倦探索深度学习的初心与动力所在。


但是,要想在这个领域继续更深入地研究,得到更进一步的发展,仅靠高校的力量是不够的,还需要有更多的算力和资源的支持。通过持续关注腾讯高校合作的产学合作项目,李镇老师申请了2019年“CCF-腾讯犀牛鸟科研基金”项目并成功入围。在“CCF-腾讯犀牛鸟科研基金”的支持下,李镇老师与腾讯AI Lab的深入合作,高校的科研实力与多年的理论功底积累,加上腾讯在机器学习领域的优势以及投入的算力资源,共同确保了研究的顺利进行。


“这样的一个前沿交叉学科的任务,只有在腾讯这样的企业支持下才能做好。”李镇老师说,“腾讯AI Lab团队在深度学习方面有多年的尝试和积累,他们拥有很多相关背景的专家,在研究过程中给我们很多帮助和启发;同时,腾讯在数据和算力方面非常优秀,这也从另一个层面给了我们激励。此外腾讯还为我们的学生提供了访问学习的机会,让学生一边做相关的课题,一边能有机会去腾讯历练,这对我们团队更深入了解这个项目如何落地,以及帮助学生如何以更多元的视角去思考问题提供了很大的帮助。”


一年多以来,李镇老师团队和腾讯AI Lab进行了一系列前沿的尝试。“蛋白质预测项目”其中一个目标就是研究解决“低质量同源序列搜索”问题。这也是蛋白质结构预测领域的难点和焦点。项目团队依托深度学习、腾讯的计算资源能力实现了一个针对蛋白质同源序列搜索的“超分辨率”网络,并通过对比学习,实现了输入低质量同源序列特征的增强。该工作与目前最优的AphaFold2在低同源序列的蛋白结构预测采取了殊途同归的策略,该论文也被AAAI2021接收。

 

(利用知识蒸馏和对比学习来进行低同源序列的特征增强,从而提升蛋白质二级结构预测的精度。)


同时,在蛋白质结构预测领域最前沿的竞赛方面,双方合力也取得了优异的成绩。在蛋白质结构预测自动评估平台CAMEO每周发布的蛋白质结构预测竞赛题目中,腾讯自主研发的新算法在困难案例(hard)上的提高非常显著,比业内公认的权威方法提高了10%。自2020年初参加CAMEO竞赛以来,腾讯AI Lab团队半年内五次夺得月度冠军。在双方的共同努力下,腾讯T-Fold平台可以做到一个序列2小时内得出结果,上线至今已经完成了5000+个蛋白质结构预测任务,受到了业界的普遍认可。

 

tFold server自2020年6月起至今一直保持周度 、月度、季度、半年度冠军。tFold server在一般案例上领先业内权威方法6%以上,在困难案例上则领先12%以上。


科研服务社会,犀牛鸟基金赋能产学研落地


“目前国际领先的水平只能做单体蛋白结构预测,未来我们在自主研发的前提下,可以尝试蛋白质和药物小分子结合、蛋白质和蛋白质结合等相关热门领域的进一步研究。”李镇老师说。


李镇老师的设想如今在慢慢变为现实。目前,腾讯T-Fold平台已经嵌入云深智药(iDrug)平台的底层逻辑,它为腾讯云深智药(iDrug)蛋白结构预测平台上线提供了必要的条件。云深智药(iDrug)平台是腾讯自主研发的首个AI驱动的药物发现平台,将帮助研发人员提升临床前药物发现的效率,帮助医药行业快速、低成本地进行药物研发。


云深智药平台覆盖了临床前新药研发的全流程。临床前新药发现的第一步就是靶点识别和确认,找到药物在体内的作用位点。而确定靶点蛋白质的结构是其中的关键工作,被视为药物研发的重要基石。依靠腾讯T-Fold平台,研究人员预测出蛋白质结构以及功能后,计算机便可以更快地从数亿的海量小分子中,快速而有针对性地找到潜在的苗头化合物。


具有众多功能的云深智药平台,包括了蛋白结构预测,虚拟筛选,分子合成等等。


近年来,腾讯通过开放人工智能、大数据、云计算等技术和服务,持续推动先进科学技术与医学的结合。在校企产学合作的助力下,T-Fold平台将企业的社会责任融入到产品及服务之中,践行科技向善的企业发展理念。


“从高校研究者的角度,我们的研究方向是否真正对社会有益,而不仅仅是在象牙塔里闭门造车,对于研究者是非常重要的”李镇老师认为,“CCF-腾讯犀牛鸟科研基金”搭建起了高校与企业良好的合作桥梁。2020年底,李镇老师与机器学习中心共同申请并得到了犀牛鸟基金滚动合作计划的支持,2021年,双方还将在蛋白结构预测领域有更加深入的合作。



申报截止时间为2021年6月15日24:00(北京时间)。具体申报流程及管理办法详见基金申报网站:https://withzz.com/project/detail/129。关于项目申报有任何问题,欢迎联系项目负责人邸欣晨,邮箱:xinchendi@tencent.com。


更多项目信息请访问CCF官方网站(https://www.ccf.org.cn/)、腾讯高校合作官方网站(http://ur.tencent.com)。



点击“阅读原文”,了解详情。

来源:ccfvoice 中国计算机学会

原文链接:http://mp.weixin.qq.com/s?__biz=MjM5MTY5ODE4OQ==&mid=2651492562&idx=2&sn=886d7722f18b339f74ff38e288f282d2

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn