首页 > 推荐 > 焦点

全球首款基因挖掘AI大模型发布

时间: 浏览:

近期,北京大学定量生物学中心的钱珑团队成功研发并推出了全球首个专注于功能基因挖掘的大型语言模型——SYMPLEX。该模型能够从海量生物文献中快速识别和筛选出具有特定功能的关键基因,并进行精准的功能验证,为蛋白质设计、生物制剂开发以及生物制造领域提供了重要的科学依据。

在自然界中,生物体内存在大量具有潜在应用价值的基因资源。这些基因经过长期的自然选择,演化出了多样化的序列组成和功能组合。随着现代测序技术的发展,科学家已经积累了数十亿级别的生物序列数据,这为合成生物学和生物制造领域提供了丰富的基因元件"宝库"。

然而,尽管天然基因具有巨大的应用潜力,目前只有少数热门基因被高质量地注释并建立了结构模型。基于传统技术的基因挖掘方法由于在处理复杂基因时存在技术瓶颈,严重限制了对高价值基因元件的发现和利用。

针对这一难题,钱珑团队创新性地将大型语言模型与结构化生物知识库相结合,开发出了SYMPLEX智能基因挖掘平台。该平台能够自动阅读和理解数千万级别的生物学文献,通过多维度的文本分析、概念对齐以及统计模式生成,快速提取出高质量的候选基因集合。实验结果表明,相比于传统方法,SYMPLEX在功能基因的识别和筛选方面展现出显著优势。

为了验证平台的实际应用价值,研究团队利用SYMPLEX对mRNA加帽酶进行了深入挖掘,并通过实验室验证获得了突破性进展。传统的mRNA疫苗生产过程中使用的加帽酶存在效率低下、成本高昂等问题。而SYMPLEX成功发现并验证了近2万个新型加帽酶,其中十余个表现出优异的功能特性。这些新发现的加帽酶活性显著优于现有商业产品,为mRNA疫苗和基于mRNA的基因疗法研究提供了关键的技术支持。

钱珑表示,这项研究开创了功能基因挖掘的新方法论,不仅解决了"卡脖子"技术难题,更为生物制造领域注入了新的活力。研究团队正在进一步拓展SYMPLEX的应用范围,计划利用这一人工智能平台发掘更多用于合成生物学的关键酶元件,并探索其在合成通路设计等领域的潜力。这些努力将推动生物科学研究进入"人工智能驱动"的新时代。