近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的癌症单细胞表达图谱数据库CancerSCEM上线。该研究成果以CancerSCEM: a database of single-cell expression map across various human cancers为题在国际学术期刊Nucleic Acid Research在线发表。

单细胞分辨率的全转录组测序技术(scRNA-seq)具有研究细胞异质性的显著优势,已成为研究肿瘤微环境、癌症发病机制、转移与侵袭以及各类癌症治疗与诊断不可或缺的手段。截至2021年11月,PubMed已有超过1300个癌症相关的单细胞转录组学研究,极大提升了人们对人类癌症发生发展的理解,推动了癌症临床诊断与治疗的进程。大规模癌症scRNA-seq数据在过去十年中呈现爆炸式增长,迫切需要对这些数据进行规范化整合与处理,对各类癌症的肿瘤微环境进行深入挖掘与比较分析。为应对这一需求,该研究团队开发了CancerSCEM数据库。

CancerSCEM 1.0版本整合分析了208个癌症scRNA-seq数据集,涵盖肺腺癌(LUAD)、结肠直肠癌(CRC)、恶性胶质瘤(GBM)等在内的20种人类癌症类型。通过标准化分析流程处理,获得了精确的细胞类型注释信息。在此基础上,团队还开展了一系列附加分析,包括不同细胞类型间基因差异表达分析(可为新型标志物筛选提供参考)、细胞表面受体-配体基因对表达谱、样本内细胞互作网络构建等,可为用户提供更加丰富的肿瘤微环境相关信息,并开展了基于TCGA表达数据与临床信息的生存分析。

数据库为用户提供浏览、多重检索、在线分析及下载等服务功能,用户可采用首页快速检索、词云及精确检索等途径查询感兴趣的癌症单细胞数据集或样本。如点击词云里的基因名“HLA-A”或通过搜索框输入,均可触发数据库查询功能,并实时获得目标基因的详细信息及其在单细胞层面与细胞群体(组织)层面的表达分布信息。为方便临床相关用户的使用,团队共审编获得36个常用免疫检查点分子(如PDCD1、CTLA4、LAG3、HMGB1),并提供专门的搜索列表,以帮助各类癌症的临床免疫治疗研究寻找更优的治疗靶点。

数据库还配备了一个交互式综合在线分析平台,共集成2个分析模块与7个分析功能。通过基因分析模块,用户可开展4个方面的实时分析及可视化展示:样本内目标基因的整体表达概况;样本内基因在不同细胞类型间的表达比较;基因表达相关性计算及筛选;208个样本中单细胞或bulk层面的基因表达比较。通过样本分析模块,用户可进行样本间细胞组成比较、样本内细胞互作网络构建以及基于TCGA的生存分析。该分析平台将为用户开展个性化的癌症scRNA-seq数据挖掘提供友好的增值服务。

该研究工作得到中科院战略性先导科技专项、国家自然科学基金、国家重点研发计划等项目资助。

论文链接

北京基因组所发布癌症单细胞表达图谱数据库CancerSCEM-肽度TIMEDOO

CancerSCEM数据库在线分析平台的7个分析功能展示

来源:中科院