- 0
- 0
- 0
分享
- 公益讲堂 | 马维英:人工智能赋能生命科学
-
2022-11-17
●
清华大学教育基金会为了更好地发挥高校基金会汇聚大学资源,服务国家和社会发展的桥梁与平台作用,“更好的清华”——公益讲堂、同道者说、师说心语等系列公益品牌宣传栏目。“公益讲堂”至今已发布九期,曾邀请清华大学法学院原院长申卫星教授、万科公共卫生与健康学院院长陈冯富珍教授、科学博物馆馆长吴国盛教授等一大批专家学者进行公益宣讲,受到了社会各界的广泛关注和好评,已逐渐形成一个兼具公益性、社会性、开放性、融通性的大学公益展示平台。
第十期,我们特别邀请清华大学智能产业研究院(AIR)惠妍讲席教授、首席科学家马维英教授,为我们介绍人工智能与生命科学交叉领域的相关研究和发展趋势。
从茹毛饮血的原始社会,到刀耕火种的农耕时期;从以蒸汽机为代表的“蒸汽时代”,到以电器的广泛应用为代表的“电气时代”,每一次科技发展带来生产工具的进步,都极大地推动了社会生产力的发展,对人类社会的发展产生深远的影响。
当今社会,信息时代电子计算机的诞生延伸了我们的脑力,拓宽了我们的眼界和思想。而人工智能和医药科学技术,这两个看似平行的研究领域,正逐步走向交叉与融合:人工智能已成为“工具”,逐渐渗透人类的健康生活,甚至生物医药研发的各个领域,代替人类进行重复性工作,越来越多地造福人类生命健康。那么,如何能够通过信息技术进一步促进生物医药科学的发展?如何通过跨学科的交叉融合推动人工智能多维度、多角度和深层次的认知发展,从而把握信息革命的“时”与“势”,助力推动信息科技强国下的生物医药技术?
我们今天就听一听马维英教授,为我们解答如何发挥AI在生物学医学研究中的优势,AI与医药、健康领域的科学家结合的方式是什么,智能产业研究院未来在研究方向上有什么布局等一系列前沿问题。
Q
智能产业研究院(AIR)在人工智能及相关产业和研究领域,自己的关注点或者跟其他机构的不同之处在哪里?
马维英:今天是人工智能带来的第四次的工业革命,在这个大的背景下,我们认识到人工智能其实对各个产业都能够起到一个重新定义跟颠覆式创新的机会。从清华大学角度来看,我们也进入到一个新的时期,特别是能够以科研驱动的创业创新,作为新时代的对于国家重大需求,还有科技发展、生命健康,各个方面,高校可以承担更大的任务。这个任务就要求我们围绕着以核心关键技术,可以说是硬科技为主的研发跟创新。这跟传统的过去中国二十年互联网的创新还是非常不同,因为这块需要很深度的科研,然后在技术上能进一步突破,能进一步再产业化。
清华大学在这样一个关键时间点,我们有全国最优秀的人才,全国最优秀的科研老师,我们可以一起跟产业做一个协同合作创新,所以清华大学成立了智能产业研究院,我们的定位就是一个国际化、智能化、产业化的新型的研究机构,希望借着高校和企业创新的双引擎,架起一座桥梁,可以把两边的人才与应用场景、数据、资源串联在一起,为国家的重大发展机遇提供我们最大的支持与帮助。
Q
智能产业研究院(AIR)在方向布局上有一些更进一步的考虑吗?
马维英:目前我们的三个主要的科研垂直方向,比较偏应用:1.智慧交通;2.智慧物联;3.智慧医疗。智慧医疗领域,我们看到的是一个大的产业发展的机会,今天整个生物世界也在进一步地被数字化,生物学原来的实验,也有可能进一步用AI来自动化、规模化、高通量地去产生更大的生物学实验的数据,进一步让数字生物能够用智能科学计算的方法去光速推进。因为我原来在软件产业二十几年,我深刻体验到,软件产业特别是在2000年初时,大家都在说软件正在蚕食侵吞全世界,那个时代是在走一个数字化的过程,万物一旦被数字化,我们就可以用计算来光速推进一个原来旷日费时的流程。原来的出版业变成数字图书馆,有搜索引擎,后来就有广告和内容之间光速的交易,进入到了电商。所以,可以看到先数字化,数字化之后就计算,计算之后就有智能化,人工智能其实是先把软件产业又进一步升级了,是什么意思呢?原来的软件要靠人去写,现在的软件的本质是一个非常大的模型,例如机器学习深度网络模型,它可以模拟很多非常复杂的功能。只要有足够大的数据就可以学中间的表达方式,以数据来写软件,这个数据越大,写出来的软件越智能,这是一个正循环,像摩尔定律一样,这也是一种降维打击,把一个原来就在颠覆全世界的软件技术,进一步升级成为AI,它就可以更快速地进入到各个行业,包含今天我刚刚讲的生物医药、生命科学,这个领域也进入到全新的时代。
Q
目前您正在做的生物医疗技术的研究,是一个什么状况呢?
马维英:我觉得我们今天其实是在做“药物开发”。我们做四种药,第一种叫数字药,可以说是AI增强个人健康。怎样用AI让今天每个人可以更好地管理他的健康,是一种预防性的、主动参与的、个性化的闭环,能够让各式各样的可穿戴式设备和智能手机成为人们维护他健康的重要一环,我们称之为数字疗法,或“数字药”。我们现在可以从每个人每天的生活或行动,积累更多有关他的个人健康数据,如果加以有效利用就可以对他的生活习惯、饮食习惯产生积极的影响。例如他的个人营养管理,通过计算营养摄入,在特定条件下主动向他推荐食物。又或者孕妇如何在孕期更好地管理健康,让胎儿更聪明、更健康地发育;慢性病患者,例如糖尿病,也可以用数字疗法来干预。因为医生不可能一天到晚跟着你,但现在有可穿戴式设备和智能手机,就相当于有一个智能的个性化助理,而且这个数据一旦累计下来,越多人用就越智能,用得越多,它也个性化、越了解你更多,越智能,也就更了解你的健康行为。
第二种,更多地进入科学计算了,我们现在可以用AI的方法来尝试合成化合物,例如说化学药物,小分子药,一般它的设计是根据靶点,研发靶向药。这里的问题是如何用大数据,让机器学习如何合成一个化合物,或者一个小分子药,能够符合一定的特性。还可以进入到生物药,大分子药,我们最近知道的蛋白质结构预测和蛋白质工程,以及抗体设计,也可以用AI去优化和设计其三维结构及其功能,甚至抗原跟抗体怎么结合,也可以计算获得。所以现在的化学计算变成AI for化学,生物计算变成AI for生物。我们可以在制药这个环节,特别是化学药和生物药两方面,以数据驱动的算法来优化整个AI制药的流程。传统的制药是非常旷日费时的,平均每生产一种药需要十年,投入大概25亿美金,它的成功机率是极低的,通常要从几万种药中筛出最合适的药,这个流程使今天的新药研发非常慢:首先你要有靶点,有了靶点再找苗头化合物,然后找先导化合物,再去优化,开展动物实验,最后做临床验证。那么今天AI怎样能够帮助找靶点的发现和理解呢?比如人类目前对世界上现存的大部分靶点都没有很深刻的理解,那么我可以用AI,对更多未知的靶点进行更好地研究,更多的靶点可以做更多的药,用AI来算几何结构,算它的化学属性,或者是蛋白质序列成为三维结构的属性,AI已经展现出潜力,临床都可以AI来更好地识别目标病人。所以,我们相信可以让这整个环节重新被颠覆。
Q
如何发挥AI在生物学医学研究中的优势?
马维英:AI其实在药物筛选的过程中,就能预测这个药物在后期的临床表现,成功概率更高的这些药物,能够被识别出来,所以它也能够增加后面的成功率。第二个我认为也是未来的一大趋势之一,就是“干湿闭环”。今天这些生物学家会有他的一些假设,他在这个流程中去设计一些“湿实验”,来验证他的正例。我们想象如果今天可以重新设计一个生物学实验,但是以AI模型的进化不断地迭代所需的数据,来设计的生物学实验,那它的定位就不一样。我们是不是可以重新设计一个所谓现在生物学实验的范式,每一位科学家都配备一位AI助手,帮助他探索一些原来不擅长,特别是在大数据、高维空间里找低维结构的相关性,而这刚好是计算机、AI擅长的。目前数据并没有被很好地利用起来,数据的质量、结构化以及共享在这个领域还处于非常初期的阶段。所以,我认为AI在生命科学领域的创新还刚刚开始,非常具有发展前景。
Q
我们要跟医药、健康领域结合,想跟这些科学家结合,我们结合的方式是什么?
马维英:我们也经过一段时间探索,其实有好几个领域是非常紧密相关的。第一个是医学,第二个是基因,第三是制药,第四个是传统的生物化学领域,第五个是AI,这几个都处于一种独立割裂的(状态),并没有太多的交流沟通,所以它到目前为止都是各自在发展。但是我们可以想一下,如果能推动整个环节形成闭环,从基因开始,到最后研究病理学,它到底为什么生病,什么样的基因突变了导致什么样的癌症。例如,如何找到更好的靶向药,从药物的设计到最后的临床试验,如果可以用AI在每个环节不断辅助闭环之后,那就打通了原来五个独立的学科。目前,部分生物化学领域开始用AI,但还是停留在浅层应用,数据集基本没有被标准化,不能形成可以共享的数据集,数据孤岛的情况非常严重。我觉得目前在生命科学这个领域还比较欠缺这样的标准数据集和标准的任务,以及一些好的实践方案,能够促进两方的交流。
因此,我们有一个“破壁计划”,就是打破生命科学和AI学科间的壁垒,又称Bridge to Life Science,Bridge to AI,因为两边都是要搭桥,要破壁。当前跨界人才极稀缺,这也正是机会。我们今天常常说某些领域非常红海,非常内卷了,但是我必须说,AI进入到生命科学和生命医药领域,这基本上是个蓝海,也是我们希望在这个阶段能够去培养更多这方面的人才,特别是在清华大学,我们认为这是下一个世纪的特别有价值的人才。我们这个“破壁计划”把两边的专家、科学家联系起来,一起共同定义生命科学领域里面的重要课题,因为我们还是需要有他们(生命科学领域的专家)来帮我们定义哪些问题是真正有价值,并通过合作,最终能够形成比较标准的数据集并公开,能让大家在一个共同的数据集上去彼此把科研的结果共享,我相信这个领域的发展也会大大地加速。
Q
对于做交叉或者跨学科的研究来讲,一种模式是将两个知识阵营的人放到一起来;另外一种,就是直接培养出具有两个知识体系糅合或融合的人;这两类人做类似跨学科的研究,他们的特点和承担角色会有什么差异吗?
马维英:目前的确处于比较早期的阶段,所以需要找到另外一个合作伙伴,相对更Open minded,同时也更互补。例如他们那边(生命科学领域)的确很缺AI的人才和能力,因此对于跨界合作更渴慕。我举个例子,2021年大概在暑假期间,我们与清华医学院张林琦教授团队合作,当时我们就在想能不能试着用AI来优化、重新设计新冠的综合抗体,我们做了一件什么事呢?张林琦老师把一个“三流的抗体”,就是这个抗体不够好,所以最终没有成为候选药物,给了我们,我们就在这个三流抗体的结构上用蛋白质工程和AI技术去优化它的表位。大家知道,抗体跟抗原结合它有一个区域,大概是20几个氨基酸的位置,大家不要以为只有20几个氨基酸,因为有20种氨基酸,相当于它是20的20次方的一个非常大的可能性的空间,怎样找到这20个的组合,最后形成有效的三维结构。我们就用AI把这个三流的抗体优化成了一流的抗体,我们目前在体外的试验验证它的综合性、广谱性,超过了目前市面上现有最好的抗体。这是一个很大的突破,张林琦教授当时看到这个结果都不敢相信,他看到了一个未来,就是用计算、AI加上原来生物学的方法,我们的确能够用极短的时间设计出一个抗体,这也是人类历史第一次。
今天我们做的第一个AI设计的新冠抗体,不但本身非常具有划时代意义,甚至它可能还对药物递送、癌症治疗都是一种非常创新机制的启发,这是非常令人兴奋的。我们智能产业研究院的AI研究团队,与医学院张林琦教授团队的医学、生物领域的人才一同合作是非常紧密的,紧密到每周都开会讨论,我们(AIR团队)计算算一周,(张教授团队)生物学实验两周,然后再回来,我们再算一周,他们再两周,我们等于第一次把干、湿实验闭环,这一次基本上显示了一个成功的案例。我觉得这也代表和预示着,更多跨界可以带来的一种创新,它的可能性是非常大的。
Q
我们现在作为一个清华同时也是跟产业连接的平台,我们主要的合作伙伴或者说产业界给予我们支持有哪些?
马维英:自从我们成立之后,有非常多的外部企业或者创业公司都来找我们探索这种合作的方式,我们有非常多的合作伙伴,目前正在进一步讨论,细化具体的合作方案。譬如我们跟北京智源研究院联合成立了“健康计算的研究中心”,这个研究中心的目标就是针对刚刚讲的数字疗法,就是用AI来增强个人健康,成为将来医院跟医生与病患中间非常重要的一环。另外,我们自己孵化了一家新的创业公司,叫做华深智药,这家公司最近也参与了我们AI设计的新冠综合抗体等等。
点击观看完整采访视频
清华大学惠妍人才基金
2019年12月8日,在清华大学教育基金会惠妍人才基金支持下,清华大学设立“清华大学惠妍讲席教授”席位,支持新引进的长聘教授或首席研究员,包括但不限于人工智能、机器人、数据科学等学科领域。2021年,已聘任智能产业研究院首席研究员马维英博士、医学院首席研究员张宗久博士、计算机系季铮锋教授为“清华大学惠妍讲席教授”。此外,2021年,惠妍人才基金还资助了十位在人工智能、机器人和数据科学相关领域的优秀人才。感谢广东省国强公益基金会的捐赠支持。
●
马维英
■清华大学惠妍讲席教授、清华大学智能产业研究院AIR首席科学家。他的研究方向包括人工智能的几个核心领域(机器学习、自然语言理解与生成、搜索与推荐系统、计算机视觉、大数据挖掘)以及人工智能在生命科学、生物制药、及精准医疗等领域的跨学科研究与应用。他此前曾任字节跳动副总裁兼人工智能实验室主任、前微软亚洲研究院常务副院长。
马博士曾在世界级会议和学报上发表过逾300篇论文,并拥有160多项技术专利。他是电气电子工程师学会会士(IEEE Fellow),曾任国际信息检索大会(SIGIR 2011)联合主席、国际互联网大会(WWW 2008)的程序委员会联合主席。他于2017年获得吴文俊人工智能科学技术奖二等奖,并曾入选Guide2Research 2018年计算机科学领域TOP100科学家,全球排名86。
■ 清华大学教育基金会理事长
总监制 | 袁桅 总策划 | 孙大鹏 赵劲松
总执行 | 伍伟萌 总编导 | 彩雯 总制片 | 思维
剪辑 | 模范影视
支持单位:
清华大学智能产业研究院(AIR)
关于AIR
-
阅读原文
* 文章为作者独立观点,不代表数艺网立场转载须知
- 本文内容由数艺网收录采集自微信公众号清华大学智能产业研究院 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。