9月27日,“新冠病毒基因组大数据在线分析系统”攻关项目在生物岛实验室领导的大力支持下,上线运行并正式通过验收。这是一套能够支撑重大突发性传染病病原基础研究的生物信息学和计算生物学技术中台及数据中台,为新冠病毒基础科研、防控与预警研究提供强有力的支持,填补了我国相关领域的空白。

病毒将长期威胁人类,积极防控急需科技创新

新冠疫情爆发以来,国内疫情防控取得了举世瞩目的成效,在基础研究方面也取得了大量的科研成果。

但是,新冠疫情防控形势仍不容掉以轻心。一方面,各地输入性病例导致的疫情反弹时有发生;另一方面,近期有研究表明,世界上有五亿人生活在由蝙蝠带来的冠状病毒可能溢出的地区,而我国南部地区和周边国家大都位于这一区域,类似于新冠肺炎这样的新型突发性传染性疾病将会如“达摩克利斯之剑”始终高悬在人类头顶,必须时刻警惕并采取积极措施。

有效、快速地对病毒预警预防,需要在病毒溯源、病毒基因组注释、基因组变异和疫苗的有效性分析、病毒对人类可能的长期危害研究、新的药物作用靶点发现等方面予以长期关注。而此前国内一直缺少一个系统性的、依托前沿IT技术、能支撑包括新冠病毒在内的重大突发性传染病病原基础研究的生物信息学和计算生物学技术中台和数据中台。

为此,生物岛实验室牵头整合中科院北京基因组研究所(国家生物信息中心)、中科院上海营养与健康研究所、中国医学科学院系统生物学研究所、中山大学、上海同济大学的科研力量,在中科院北京基因组研究所(国家生物信息中心)新冠大数据平台和中科院B类战略性先导科技专项”多维大数据驱动的中国人群精准健康“的项目支持下,协同攻关,基于实验室与“火山引擎”合作开发的生物医学大数据“操作系统”-Bio2S的开源框架体系,构建了部署在云端的“新冠病毒基因组大数据在线分析系统”。该系统于2021年9月27日正式上线运行,除支撑本实验室的科学研究外,也为全国的科研工作者开展新冠病毒基础科研、防控与预警研究提供强有力的数据中台和技术中台,正好填补了这一空白。

大数据分析系统将为疫情防控提供有力保障

据实验室介绍,“新冠病毒基因组大数据在线分析系统”具有统一的、一站式的方便用户访问的服务界面,其具备八大功能模块。

一、新冠变异株检测系统-CMM-Group。该应用模块通过合并新冠病毒基因组上共出现的核苷酸突变对,抽提出完整的共突变模块,用于表征不同基因型组别的新冠病毒,实现对新冠病毒变异体的简单直观的分类。同时能够识别当前流行变异株以及有潜在流行能力的变异株,通过它们的时空分布揭示主要流行时间和流行区域,并提供在线分组信息、进化树和突变信息展示。用户可通过该应用实时追踪新冠病毒的进化方向和传播路径,为新冠病毒疫情防控的快速响应提供科学依据。

二、新冠病毒变异分析系统-VASS。该应用模块可以在线实时分析新冠病毒基因组变异、变异注释及其可视化。用户通过在线上传新冠病毒序列,进行变异检测与功能注释。应用会根据序列进行变异检测,并反馈检测到的变异在所有新冠菌株中的时空信息,如变异的地理分布特征、最早出现时间等,还能在结果中提醒用户注意可能影响较大的基因组变异,如与引物/探针相关的变异或影响病毒与宿主ACE2结合亲和力的变异。

三、新冠病毒抗原表位分析系统-SAS。该应用模块能够计算分析所有S蛋白突变体的表位、表位区域和潜在的抗原性。在此基础上,针对新出现的漂移突变体生成监测报告,并进一步提示具有代表性的mAbs的免疫保护覆盖率的动态变化。数据库预先定义的表位区域包括验证表位和预测表位。对于每个被查询的突变体,用户可以操作抗原聚类树或热图来可视化查询、对比S和基准S蛋白之间的抗原性相似度。提供mAbs动态监控,支持以折线图图标形式,帮助监测抗原性的变化,方便mAbs疫苗的开发,同时还可以针对S蛋白突变,评估其对疫苗保护作用的影响。

四、新冠病毒基因组分析工具集-ViGTK。该应用模块整合了超过四百万条来自所有公开数据库中的新冠病毒全基因组序列、全球疫情数据、科研论文数据,实现日级的数据更新,整合病毒系统分类、序列联配、变异分析、进化网络、病毒鉴定、免疫抗原等工具,持续对新冠病毒组学数据进行跟踪分析,每日发布新冠病毒疫情日报和变异日报,持续跟踪病毒的疫情变化、数据变化和变异情况。可以实现针对病毒基因组的所有信息的全方位智能化检索、关联统计分析、直观展示基因组变异信息,病毒动态演化趋势、时空传播路径,方便科学研究人员根据自己的科研需求,设计检索思路,发现关键信息。

五、SARS-CoV-2基因组浏览-GenBrowser。该应用模块基于自主研发的新的理论分析体系,开发了完整的数据分析流程和数据可视化模块。利用新的理论框架,基于建立的新冠病毒数据仓库,GenBrowser在线版可以顺利完成十万、百万数量级新冠病毒基因组序列的分析和日常更新,可为国内和国际防疫防控的相关团队,提供系列方便使用的免费工具,用以监测病毒变异频率的变化,监测境外输入的病毒株系可能的来源。

六、新冠病毒知识图谱系统-KGCoV。该应用模块提供可对临床数据、基因组信息和流行病学数据进行整合分析的知识图谱工具。构建并匹配新冠肺炎(COVID-19)的流行病学信息和新型冠状病毒(SARS-CoV-2)的基因组数据,并采用组合管理方法,整合了生物信息学工具生成的变异信息,为重构COVID-19感染路径及其进化趋势提供有力证据,同时可视化地展示基因组与流行病学相关的信息。此外,该应用还整合了新型冠状病毒基因组,新冠肺炎相关的流行病学、临床症状、旅行史、接触史、文献以及世界167个以上国家的新闻媒体报导等数据资源。

七、病毒基因组自动化鉴定注释系统-VIC。该应用模块是病毒基因组检测分析和注释工具。可直接对接各种宿主及环境样本的RNA二代测序原始数据,具有对数据全自动质量控制、拼接和病毒组成分析的功能,能对样本中可能存在的包括新型冠状病毒在内的各种病毒进行快速检测,并可在线分析其相对载量。

八、新冠AI影像识别系统。该模块可提供基于胸部CT影像的新冠肺炎智能辅助筛查,提供病灶智能识别与精准勾画、新冠概率百分比参考、双肺病灶容积比、双肺CT值密度分析、四维重构图显示、影像模板参考,具有PACS系统基础功能(手动勾画、窗位调节、量尺、旋转、CT值等),产品能准确、快速辅助医生对个体患者进行疾病筛查判断,精准了解个体患者在治疗后病灶的精准变化,为临床医生下一步的治疗提供有力的帮助。

生物岛实验室“新冠病毒基因组大数据在线分析系统”攻关项目验收专家组组长陈润生院士、副组长赵国屏院士代表专家组对生物岛实验室大数据团队在李亦学研究员的带领下,快速地整合、开发和部署该系统给予了高度赞赏,一致认为该系统将新冠大数据分析的技术中台与大数据体系融为一体,功能丰富,性能卓越,填补了我国新冠病毒分析缺乏系统性技术中台的空白。希望在提供服务的过程中,不断发展优化各模块的功能,拓展其应用,并强化该系统的工程化运维能力,对新冠病毒的深入研究及其预防医学与临床医学的实战处置提供有力的支撑和广泛的应用。未来,平台还将与国家呼吸医学中心等医疗机构进行数据对接,为大数据时代感染性疾病防控研究工作奠定范式转变、能力提升的基础。

来源:新华报业网