10 月 10 日消息,国际顶级学术期刊《Cell》发表了中山大学与阿里云合作的科研成果,研究团队利用云计算与 AI 技术发现了 180 个超群、16 万余种全新 RNA 病毒,是已知病毒种类的近 30 倍,大幅提升了业界对 RNA 病毒多样性和病毒演化历史的认知。
《Cell》是国际公认学术声誉最高的期刊,代表生命科学领域的最高水平。国内每年入选《Cell》的论文数量仅有数十篇。此次入选的论文提出了一种基于深度学习的 RNA 病毒发现方法,是深度学习算法在病毒发现领域的里程碑式进展,为病毒学研究开创了全新范式。
病毒与人类的健康密切相关,但人类已知已确认的病毒种类仅有 5000 余种,这只是病毒世界的冰山一角。传统 RNA 病毒鉴定方法高度依赖于序列同源性比对,即通过比较未知病毒与已知病毒的序列相似性来进行识别。然而,RNA 病毒种类繁多且高度分化,传统方法难以捕捉缺乏同源性或同源性极低的 " 暗物质病毒 ",新病毒发现的效率较低。
AI 与病毒学研究的结合正在突破这一难题。本篇论文提出了全新的深度学习模型 "LucaProt",它基于 Transformer 框架与大模型表征技术,结合蛋白质序列和内在结构性特征,在独立的测试数据集上表现优异,具有极高的准确性(假阳性率仅为 0.014%)和特异性(假阴性率为 1.72%)。
据介绍,研究团队对来自全球生物环境样本的 10,487 份数据进行病毒挖掘,发现了 513,134 条病毒基因组,代表 161,979 个潜在病毒种及 180 个 RNA 病毒超群。使 RNA 病毒超群数量扩容约 9 倍,病毒种类增加约 30 倍,其中 23 个超群无法通过序列同源方法识别,被称为病毒圈的 " 暗物质 "。
该论文还揭示了多个病毒学领域新发现:发现迄今为止最长的 RNA 病毒基因组,长度达到 47,250 个核苷酸;识别出超出以往认知的基因组结构,展示了 RNA 病毒基因组进化的灵活性;此外,在高温的深海热泉等极端环境中,RNA 病毒依旧存在多样性。
中山大学医学院教授施莽表示:" 在科研领域,AI 的应用已经势不可挡,通过 AI 方法探索科学问题已取得了重要突破。这种研究范式将成为未来科学界的常态,也可能成为我们认知世界的重要手段。"
该论文共同第一作者、阿里云飞天实验室算法专家贺勇表示:" 基于 AI+ 病毒学的新研究框架刷新了人类对病毒圈的认识,随着这种认识的不断完善,有助于人类对未来可能发生的大流行进行预警,以及进一步推动 RNA 病毒疫苗的研发。"
据悉,过去几年,阿里云积极与国内高校和研究机构展开合作,在生命科学领域已发表核酸和蛋白质统一基础模型 -LucaOne、RNA 病毒发现 -LucaProt、磷循环蛋白家族识别 -LucaPCycle 等研究成果。
雷峰网
登录后才可以发布评论哦
打开小程序可以发布评论哦