加入收藏
黔新网

DeeCamp2022?结营:蛋白质组学AI大数据模型夺冠

2022-08-31 18:06:38  来源:TechWeb   阅读量:19378   

,DeeCamp2022人工智能训练营冠军答辩暨营会闭幕式今日在创新工场北京总部举行经过精彩的答辩,挑战大规模蛋白质组学信息发现大赛的ProteinMiner团队获得了DeeCamp2022冠军,其他五个团队获得了优胜奖

DeeCamp人工智能训练营是创新工场面向全球大学生发起的公益项目它专注于培养应用型人工智能人才,迄今已举办六届

DeeCamp2022的主题是用AI探索生命科学的新边界,由创新工场和清华大学智能产业研究院联合主办来自世界各地区顶尖大学的150名计算机和生命科学专业的学生自发组成了30个团队经过两个月的课程学习和项目实践,最终共有六支队伍入围最终答辩环节

创新工场董事长兼CEO李开复,清华大学智能产业研究院院长,阿卜杜拉国王科技大学终身教授,中国人民大学高淳人工智能学院客座教授X power,深圳湾实验室系统与物理生物研究所高级研究员周,清华大学智能产业研究院副院长刘洋,聂在清, 清华大学智能产业研究院首席研究员龚,中国人民大学数理科学研究员,创新工场前沿科学基金执行董事兼总经理任担任评委,并出席了闭幕式。

创新工场董事长兼首席执行官,HICOOL商学院名誉院长李开复表示,AI+科学交叉是创新工场预测未来5到10年将爆发的创新和增长的新范式,AI+生命科学是造福人类,影响深远的黄金赛道这也是6年来一直倡导学以致用的DeeCamp首次提出AI+生命科学命题的深意所在本次总决赛的6位入围选手全部由AI和生命科学专业的优秀学生组成在顶尖科研和行业导师的指导下,他们在蛋白质的结构预测,全基因组表达预测等多种场景中探索,挑战了许多现实世界的问题很高兴入围选手在本次大赛中脱颖而出,期待在不久的将来成为中国AI+生命科学赛道的创新先锋希望有志于创业的DeeCamp同学也能把此次项目实践作为对产业价值的初步探索,同时关注北京HICOOL创业大赛,HICOOL商学院等帮助高科技创业者的丰富资源

DeeCamp2022联合发起人,清华大学智能产业研究院院长张亚勤院士表示,生命科学和生物医药领域正在步入数字3.0时代人工智能和数据驱动的第四种科研范式,将辅助人类探索和解决生命健康问题,加速生命健康和生物医学朝着更快,更准,更安全,更普惠的方向稳步发展这不仅是AI对于科学的重大机遇,也是有益于全人类的我很高兴成为这个夏令营的指导老师和评委这两个月来,我看到学生们在AI+生命科学的大命题下,积极探索AI与生命科学的交叉发展,都取得了不错的成绩

再次夺冠,致力于推动个性化免疫治疗的发展。

清华智能产业研究院院长张亚勤院士表示,很高兴能继续与创新工场联合举办本次DeeCamp生命科学领域已经进入数字3.0时代,DeeCamp2022聚焦AI+生命科学,不仅代表了当前整个科学界的研究趋势,也代表了中国科技和产业的发展趋势人工智能和数据赋能的新科学范式不仅会提高科学研究的效率,还会造福整个人类社会

随后,张亚勤院士宣布DeeCamp2022冠军称号挑战大规模蛋白质组学信息发现大赛的ProteinMiner团队成为本次DeeCamp的年度冠军团队

蛋白质是生命活动的真正承担者获取蛋白质的序列和结构信息对于疾病研究和药物研发尤为重要质谱作为一种生物表征手段,在蛋白质测序领域发挥着主导作用可是,面对大规模的未知序列蛋白质,现有的质谱从头测序技术仍然面临准确率低的问题,这是新抗原发现驱动的个性化免疫治疗中亟待解决的问题

基于AI和大数据驱动的蛋白质质谱测序技术,ProteinMiner致力于提高大规模发现未知蛋白质序列和结构信息的能力ProteinMiner首次提出了预先训练好的AI谱图语言模型,可以提高质谱从头测序的准确性,加速发现与免疫相关的新抗原/抗体,从而推动个性化免疫治疗的进程此外,ProteinMiner提出了谱图分类的深度模型,实现了交联质谱数据的快速识别,构建了实验数据支持的组学级蛋白质空间距离信息库

DeeCamp2022锦标赛

毛鹏志队长在夺冠后表示,感谢DeeCamp2022的资源和平台,让他找到志同道合的成员,将想法付诸实践,并有机会在学术和应用场景上取得突破一切才刚刚开始这个冠军是我们取得的一个小小的里程碑我们会继续做下去,希望做出对学术界有影响的产品,帮助行业降本增效,带来实际利益还有很长的路要走我非常感谢并珍惜DeeCamp为我们提供的启动资金

毛鹏志和队员叶崇杰都是第二次参加DeeCamp去年,他们在一个团队中并肩作战虽然失败了,但是激发了斗志再次参赛叶崇杰表示,第二次参加DeeCamp,是出于对DeeCamp和组委会的信任,也是出于对合作伙伴的信任彭志和我有着相同的愿景,我也相信他的能力和责任感能够带领我们走向成功

值得一提的是,团队中的薛浩楠同学,刚刚进入本科学习的第三年当被问及对科研专家云集的DeeCamp2022有何感受时,他表示非常珍惜DeeCamp提供的机会,不仅能深度体验技术落地和功能实现,还能一窥生物信息学这一目前最前沿的技术领域这些都是我在课堂上接触前沿技术+工业实践的机会我也有兴趣以后在工程领域继续探索和成长

其他五名决赛选手赢得了优胜奖。

结合神经网络和树模型的优势,以Mega—Tech为其工业导师的InfGene团队发现,分形自编码器可以选择比L1000 Panel更简洁的代表基因集作为其特征,在XGBoost模型上实现比L1000 Panel更好的全基因组表达预测性能这种方法可以进一步节省大规模测量的成本,形成可专利的新面板,并将其应用扩展到组织特异性面板的建立,从而推动精准医学

多肽由于其独特的理化性质,在当今医药市场上占有很高的份额,而亲和力是判断其能否成为药物的第一步另一个随机数团队发现肽中存在许多非标准残基,对提高与蛋白质的亲和力和进入生物体的性质有重要作用因此,团队采用大规模预训练模型来学习蛋白质和多肽的序列信息,并将多肽的结构信息作为特征引入到模型训练中,以期开发出能够准确预测多肽与蛋白质之间亲和力的模型,为多肽药物的亲和筛选和体内性质转化提供帮助

药物研发主要是通过抑制靶蛋白的活性来发挥作用目前主流的做法是寻找一种小分子药物,与蛋白质的活性区域结合,使蛋白质无法发挥作用但并不是所有的蛋白质都有这个蛋白质结合口袋事实上,人体内只有2%左右的蛋白质可以入药PROTAC技术利用自身的蛋白质降解过程来标记PoI,可以直接降解PoI其中,预测PROTAC三元复合物的结构是PROTAC研究的关键环节Alphinity团队专注于三元复合物的结构预测,并利用pre—train的欧洲Isograph神经网络提出了该领域的首个AI解决方案,将一个感染的时间从小时级减少到秒级,希望为PROTAC的研发带来新的可能性

Maifold团队使用AlphaFold2和AlphaFold多聚体预测的蛋白质结构来预测已知经历相分离的蛋白质或蛋白质复合物的结构然后用图形神经网络表征蛋白质的结构,用GCN方法训练分类模型,预测蛋白质单体或蛋白质复合物的相分离能力

我怎么能和你一起生活呢团队整理了BRENDA数据库和文献中的Km和Kcat数据,形成了初步的数据集通过已公布的数据集,团队整理出酶和底物的阴性案例数据,将酶的序列与AlphaFold预测的结构进行匹配,形成包含酶的结构数据的酶活性数据集采用自然断点法对酶活性值进行分级,并指定酶的活性水平进行分类预测以transformer模型为基础,综合考虑酶序列,酶结构和化合物数据对酶活性进行预测,并对效果进行评价

四组特别冠军,直指生物医药技术和社会痛点

最后,沙特阿卜杜拉国王科技大学的X power教授宣布了DeeCamp2022四支特别冠军队伍的归属。

最佳创新奖获得者DeepStruction团队设计了可用于药物发现的端到端分子生成平台Molecule Brewer,并在网页上提供一站式和个性化服务基于多模态思想,团队构建了结构+序列的分子生成模型,整合和挖掘蛋白质多构象的信息,高效预测蛋白质—分子亲和力,可视化关键蛋白质位点,帮助靶向发现和蛋白质修饰与QED相比,独创的BrewerScore评分函数具有更低的假阳性率,21个药物相关分子性质预测模型在TDC榜单中名列前茅,有效提高了药物分子的筛选效率基于这个平台,团队还创建了一个单蛋白孤儿疾病—靶点—潜在药物分子的数据库,以AI的名义,用于公益

最佳技术奖获得者AlphaMed系统地探索了人工智能的主流蛋白质设计方法,提出了一种可以实现更先进结果的新方法Adesign他们的方法引入了角度信息,将蛋白质主链序列的先验信息注入神经网络,简化了蛋白质图谱编码器,并在解码器处去除了自回归机制,提高了模型的推理效率Adesign model a在AlphaFold DB和真实数据集CATH 4.2上的准确率分别超过60%和51%推理速度比之前的方法至少快40倍,达到了毫秒级高效蛋白质设计的效果

中试优化作为药物合成的关键步骤,由于依赖于专家的经验设计,需要反复合成进行实验验证,因此成为药物合成中成本最高,耗时最长的步骤之一针对这一问题,阿堆堆团队为药物化学家搭建了智能先导化合物优化平台DiffLead,利用人工智能指导化合物优化,缩短研发周期,降低成本该平台创新性地提出了条件等变原子扩散算法,充分考虑了先导化合物的等变和扩散过程中蛋白质口袋的条件信息,并人工采集第一个真实先导优化数据集PDBLead进行训练,提高了优化后的化合物与蛋白质口袋的亲和力该团队还获得了DeeCamp2022最具工业价值奖

目前,中国有数千万人患有罕见病,但单一罕见病市场小,信息分散,新药研发难度极大目前,迫切需要能够高效整合疾病信息并激发药物研发的工具因此,最具社会价值奖获得者make携手团队,在临床知识图谱的基础上,聚焦罕见病,从药物,疾病,多组学等角度进行拓展,整合药理学,遗传学,病理学等生物学数据,利用NLP文献信息,形成面向医生,患者,药企,科研院所的罕见病生物解释知识图谱,获取令人振奋的罕见病潜在信息

聚焦AI+生命科学,探索改变人类命运的前沿科技

人工智能与生命科学的交叉在2021年进入爆发元年在《科学》杂志公布的2021年十大突破中,有六项来自生物学和医学领域,人工智能蛋白质结构预测技术AlphaFold和RoseTTAFold对蛋白质结构的成功预测被评为最大突破

伴随着高通量技术的发展,生物大数据不断扩大,AI算法在生命科学中得到了广泛应用例如,随机森林算法可用于预测与性状相关的基因组水平的突变位点,卷积神经网络广泛应用于蛋白质组间距计算和医学图像识别技术与AI生命科学共同进化,不断延伸新的科学边界人工智能与计算生物学,合成生物学和药物研发相结合的新交叉领域正在以前所未有的进展得到培育

DeeCamp由创新工场于2017年发起从最初的小规模实验训练营,到如今每年培训数百名高校AI+人才,旨在为学生提供技术学习,工程实践,产品转化,商业思维的完整流程,促进产学研深度融合

2022年,第六届DeeCamp首次聚焦AI+生命科学领域,以用AI探索生命科学新边界为主题,号召全球AI和生命科学领域的精英们迎接最激动人心的挑战,探索改变人类命运的可能性,助力中国AI应用型生命科学人才的培养。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。