资讯
展览资讯 大型展会 灯光节 大型盛典 赛事 中标捷报 产品快讯 热门话题 艺术节 活动 演出 新闻 数艺报道 俱乐部签约
观点
大咖专访 观点洞察 书籍推荐 吐槽 设计观点 企业访谈 问答 趋势创新 论文 职场方法 薪资报价 数艺专访
幕后
幕后故事 团队访谈 经验分享 解密 评测 数艺访谈
干货
设计方案 策划方案 素材资源 教程 文案资源 PPT下载 入门宝典 作品合集 产品手册 电子书 项目对接
  • 0
  • 0
  • 0

分享

祝贺!AIRFold获CAMEO蛋白质结构预测竞赛全球第一

原创 2022-09-06


由清华大学智能产业研究院(AIR)兰艳艳教授团队研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛 CAMEO 连续四周夺得全球第一。



AIRFold 在最近一个月(7.23-8.20)的评估中连续四周全球第一,并在系统响应时间上远远领先其他团队

蛋白质结构对于理解蛋白质功能以及诸多重要的生命活动有重要意义,它的结构也在一定程度上约束了蛋白质序列的突变。所幸蛋白质的同源序列中包含了丰富的结构信息,这为数据驱动的解决方案提供了可能性。目前半参数化的深度学习解决方案,如 AlphaFold2 等充分利用数据驱动的端到端深度学习模型,在结构预测上已取得与冷冻电子显微镜等实验技术相当的精度。但是,这些模型极度依赖输入的同源序列信息,在实际的很多场景中还有不小的局限性:比如在缺少同源序列的蛋白质上预测结果不理想,以及对同源输入的冗余噪声较为敏感等。

AIRFold 在 AlphaFold2 的基础上,致力于为蛋白质结构预测这一生命科学领域的关键性问题提供可拓展的系统化解决方案。AIRFold 独有的同源挖掘(Homology Miner)模块,聚焦于共进化信息的挖掘和提取,对蛋白质同源序列(MSA)中的协同进化信息进行智能化、自动化地提取、分析和处理。例如,Homology Miner 中引入了同源蛋白的语义检索和生成两个模块:检索模块利用结构和序列的共同表征学习,通过稠密检索从现有数据库中补充和完善同源蛋白信息;生成模块则基于深度生成模型,对蛋白质的接触矩阵(Contact Matrix)以及多序列比对数据进行生成式建模,从而通过生成同源蛋白序列对共进化信息进行补充。

此外,Homology Miner 的同源表征信息优化模块,还能从信息论的角度对同源序列数据中的共进化信息进行量化,多角度地利用共进化信息量作为优化的目标,如序列级的信息最大化,基于位置的信息约束等。结果显示,经过优化校正的同源蛋白表征信息在结构预测中表现更加稳定、有效。

Homology Miner 模块通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案,并取得了不俗的表现:在最近一周(8.14-8.20) “hard”分类的序列上,AIRFold 是唯一 lDDT 均分高于80分的模型;在最近一个月(7.23-8.20)以及三个月(5.21-8.20)的“hard”序列上,AIRFold均表现优异,并遥遥领先于第二名。

团队的模型在“hard”分类上表现优异,从左到右分别是最近1周、1个月和3个月在“hard”分类序列上的表现

在诸多 CAMEO 比赛的蛋白质序列中,7TVI 是一个重要但较难预测结构的蛋白,该蛋白展示的是Cas13bt3-crRNA 复合物的结构。其中 Cas13  是一类重要的 RNA 引导的 RNA 编辑工具,有望成为下一代更安全更高效的基因治疗手段。与 AlphaFold2 相比,AIRFold 预测的结构在  Helical-1 和 Helical-2 两个主要识别crRNA(下图中粉色部分)的结构域上都显著优于 AlphaFold2 的结果;AIRFold 预测的结构形成了正确的 crRNA 结合位点,而 AlphaFold2 预测的结构产生了较大的偏离不能正确结合 crRNA 。AIRFold 实现了对这类高难度蛋白的高精度结构预测,使得我们能够高效便捷地研究大量来自不同物种或宏基因组测序结果的 Cas13 同源蛋白。高精度的结构可以启发研究人员设计出更小、更准、更高效的RNA编辑工具。因此,AIRFold 未来将极大地加速 CRISPR/Cas 相关分子工具的挖掘与设计,助力下一代基因编辑疗法的研发。

CAMEO: 2022-08-20_00000216_1 | PDB: 7TVI_A ;Predicted, GroundTruth, crRNA

目前,AIRFold 的相关技术还在蛋白单点突变,多构象评估等关键问题上取得初步进展;清华大学智能产业研究院(AIRAI+生命科学研究团队将与海内外领先的科研及产业机构合作,持续推进结构预测以及蛋白设计等大分子药物开发的核心问题的研究,为 AI 赋能生命科学做出努力和贡献!


加入AIR
(AI+ 生命科学研究团队)


清华大学智能产业研究院(AIR)AI+生命科学团队招聘博士后/科研工程师/实习生,主要从事AI for Science的交叉学科研究,利用深度学习、自然语言处理、信息检索等领域的前沿方法解决交叉学科的各类挑战性问题。技术创新将落地在AI制药,健康计算等前沿领域,赋能产业,完成高水平科研成果输出。AIR将提供一流的科研平台与创新氛围,在开展前沿研究的同时为大家提供有竞争力的薪酬。其中本科和硕士实习生,还有机会成为拟2023年入学的博士生候选人(团队多位老师有计算机系直博名额)。


指导教师:马维英教授/兰艳艳教授/周浩副教授

简历请发送至 airhr@air.tsinghua.edu.cn

邮件主题:医疗健康+姓名+申请职位

关于 CAMEO比赛

CAMEO(Continous Automated Model Evaluation)是瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛,是蛋白质结构预测领域最重要的比赛之一。CAMEO 竞赛会持续收集最新即将公开的蛋白质序列,并每周从中挑选部分序列作为赛题。在赛题公开到评测的四天窗口期中,参赛团队需要对每一个蛋白序列进行三维结构预测,最终不同团队的提交结果通过标准评价指标 lDDT(local Distance Different Test)进行排名。


AIR长期招聘人工智能领域优秀科研人员
点这里关注我们

关于AIR


清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的应用研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。

AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。

智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Healthcare)是清华大学智能产业研究院的三个重点研发方向。

阅读原文

* 文章为作者独立观点,不代表数艺网立场转载须知

本文内容由数艺网收录采集自微信公众号清华大学智能产业研究院 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。

数字媒体艺术 新媒体艺术 竞赛

12470 举报
  0
登录| 注册 后参与评论