近日,华大智造研发团队在Nature子刊Nature Machine Intelligence(IF=25.898)上在线发表了题为Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale的研究成果。研究人员开发了一种基于对比学习的多模态单细胞算法工具——Concerto (协奏曲)。“协奏曲”的命名, 既包含了“对比学习建模细胞表征”的英文首字母,又暗含了组织器官中不同类型、不同状态的细胞协同发挥作用之意。该算法通过自监督训练的方式,可快速对千万级无标注的单细胞多组学数据进行建模,得到的细胞表征(cell embedding)可以用于自动注释、多模态整合、聚类、跨批次整合、参考映射注释等下游应用。Concerto在各项任务中都展现了优异的性能,进一步丰富了单细胞大数据领域的算法工具。
Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO研究背景

单细胞多组学工具在解析细胞多样性的研究中发挥着至关重要的作用,可绘制单细胞水平的多组学图谱,进而从多模态角度揭示细胞功能或状态的异质性。百万甚至千万级别的单细胞多组学大数据需要通过智能高效的计算工具助力科学发现,定义细胞类型和状态。同时,已发表的大量未经人工注释或者注释颗粒度不够精细的数据集本身也是宝贵的资源,若加以有效利用,可以帮助快速解读新产生的数据集。

目前主流的单细胞数据分析工具大多依赖于统计学特征选择(如高可变基因)和线性降维方法(如主成分分析PCA[1])来提取关键信息,但该预处理方法可能会造成信息量丢失。此外,单细胞数据集不可避免地存在不同程度的批次效应,在数据整合的过程中需要在保留每个样本包含的细微生物学状态差异前提下完成批次效应的适度去除。随着单细胞大数据时代的到来,亟需可快速构建千万级别单细胞多模态图谱并可实现映射注释的算法。

华大智造自主开发的Concerto算法,采用人工智能领域新兴的对比自监督学习框架并进行优化适配,以应用在海量单细胞组学数据的建模中。何谓对比学习?简而言之,就是构造一个直观简洁的学习任务,让机器去对比和区分哪些样本与哪些样本相似,哪些样本与哪些样本不相似,从而学习到每个样本蕴含的高阶特征。这就好比是试图理解世界的婴儿,即使还未建立起认知世界的知识框架,也可能会意识到,相比于“史努比”,“加菲猫”和“黑猫警长”长得更像。婴儿通过比较不同物体之间的异同,或许可以学习到这些物体最重要的特征。

Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO

对比学习示意图

相比于传统的监督学习,在自监督学习中,机器学习的标签来自于样本自身。在真实世界中,有标签或者说有高质量标签的数据集是稀缺的,通过对比学习这样的自监督训练框架,可以很好地利用大量真实世界未注释的数据集。在机器视觉领域,Google和Meta近年来相继提出多种对比自监督学习算法,包括SimCLR[2]、 MoCo[3]等。在ImageNet分类基准测试中,最新的自监督算法甚至能优于有监督的基线方法。正如图灵奖得主Yann LeCun所预测,自监督学习是AI的未来,它就像人一样自觉观察数据,可能使AI产生类人的推理能力。

在生物学领域,通过新兴的单细胞、时空组学工具获得的全新数据集,大大拓展了人类对于复杂生物系统的认知,这些数据还有大量未被人类标记或仅仅是依赖于已有知识进行注释。借鉴机器学习领域中不依赖标签数据的智能建模思想,以无偏的方式去利用好这些全新的单细胞数据,可以帮助科学家发现新的细胞类型、细胞状态,进而重新定义细胞类型。华大智造团队通过构造对比学习任务,让每个细胞自己跟自己“学习”,类似的细胞离得更近,不类似的细胞离得更远,从而实现对千万级别单细胞数据的快速建模。基于华大智造自主研发的便携、易用、经济友好的DNBelab C4单细胞建库平台,结合GPU的使用,利用Concerto构建千万级别的单细胞参考集仅需1.5h,快速注释5万个细胞仅需8s。同时,该模型可以整合不同模态、不同批次、不同测序平台和不同单细胞建库的方法。值得一提的是,Concerto的对比学习架构可以有效支持将一个细胞的所有基因作为输入建模,避免了直接降维过程中的信息丢失,同时该优势对于跨数据集的迁移注释至关重要,可以更好地扩展跨数据集间可利用的交集基因信息。

Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO

华大智造DNBelab C4

Concerto模型架构

具体而言,研究团队对每个细胞通过非对称的“双塔”蒸馏模型框架,并借鉴自然语言处理技术中的隐空间Dropout策略[4],得到一个细胞的两个不同表征(cell embedding)并使其互为正样本,而与其他细胞则互为负样本。通过对比学习在超球面空间[5]上将正样本拉近,负样本推开,从而学习到高质量的细胞表征(图1a)。经过Concerto训练好的细胞表征,可以在zero-shot或者few-shot的场景下应用于多种下游分析任务(图1c)。

Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO

图1 Concerto模型的结构示意图

Concerto整合单细胞多模态数据

在RNA和蛋白同时测序的人类外周血单核细胞数据集中(PBMC160K),作者利用Concerto进行多模态数据整合,作者发现:细胞的不同模态信息反应了之前科学家定义的不同细胞分类的颗粒度和类型。例如:CD4 T细胞和CD8 T细胞在只用RNA模态的情况下,不能很好地区分,需要加上蛋白的信息;而如果只用蛋白的模态,单核细胞monocytes和树突状DC细胞不能很好地分开,需要加上RNA的信息(图2)。Concerto在整合了RNA和蛋白质两个模态后,学到了更好的细胞表征:细胞大类和存在细微生物差异的细胞亚群都被很好地区分,而且也很好地捕捉到了细胞发育的轨迹。如CD8 T细胞谱系,可以看到CD8 naïve — CD8 TCM — CD8 TEM的轨迹,并且可以通过高维超球面空间到二维的映射看出,杀伤性的T细胞和NK细胞的距离更近,说明Concerto学习到的映射空间可以将功能接近的细胞互相靠近。

Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO

图2 Concerto在RNA、蛋白、RNA+蛋白三种设置下学到的细胞表征

在迁移注释任务的表现

在公开的胰岛细胞数据集上(HP)迁移注释任务中,与目前主流单细胞迁移注释算法比较,Concerto准确率最高(图3),超过了纽约基因组中心Rahul Satija团队开发的Seurat V4[6]、德国亥姆霍兹慕尼黑中心Fabian Theis团队开发的scArches[7]以及Broad研究所Soumya Raychaudhuri团队开发的Symphony[8]。人类胰岛数据集(HP)包括5种单细胞测序方法得到的数据,Concerto整合4种技术构建了一个参考空间,在这个过程中没有用到任何标签信息,只是“each cell learns from itself”。然后把待注释的数据投射到这个参考空间,每个待注释的细胞都可以“找到”在参考空间里和它最像的k个参考细胞,最后只需要综合这k个参考细胞的信息就可以为待注释细胞打上注释。另外,Concerto除了可以跨技术平台进行迁移注释,也可以跨物种进行迁移注释。图3右展示了Concerto利用HP数据构建参考空间,对鼠胰岛(MP)细胞进行注释的性能。

Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO

图3 胰岛数据集上迁移注释性能比较,

华大智造Concerto模型准确率超过现有方法

就像序列比对工具BLAST 将生物序列数据比对到参考基因组的功能一样,将新产出的包含不同样本、研究、疾病状态的单细胞数据集,映射到复杂的、数百万细胞的参考图谱上,可以实现快速识别相关的细胞状态和表型,此种方法将成为单细胞数据分析的全新范式。本研究另一亮点在于,利用现有已注释数据构建大型的细胞图谱作为参考(Reference),新的数据作为查询(query),可以直接在Reference上“查找”最相近的“已知“细胞,这样我们就可以知道query细胞的性质了。

构建百万级别免疫细胞参考图谱,对新冠数据进行快速注释

在COVID-19研究中,研究人员将华大智造DNBelab C4产出的新冠病人外周血单核细胞(PBMC)数据与其他研究小组已发表的通过其他平台所采集的数据进行整合,构建了大型新冠病人外周血免疫细胞参考图谱,涵盖了健康人及轻型、重型COVID-19患者,并针对查询数据集进行快速注释,发现不同感染状态差异的免疫学信号。由于在参考数据中存在与查询数据类似的与疾病相关的细胞状态,所以Concerto可以快速将查询新冠数据集映射到参考图谱上。Schulte-Schrepping等人[9]的研究主要针对髓系细胞,如单核细胞monocytes和中性粒细胞neutrophils在不同感染状态下的差异。通过参考映射的快速注释,复现了该数据集的淋系细胞与其他新冠研究里的一致信号,如Concerto注释了稀有细胞亚群proliferative-exhausted CD8 T,与Su[10]等人的研究一致。

此前,深圳华大生命科学研究院刘龙奇团队联合中国疾控中心等机构科学家利用华大智造C4单细胞平台进行了大规模的新冠研究[11],注释出了activated CD4 T细胞,并发现这种细胞的丰度会在患者体内上调。此次,利用Concerto构建的新冠参考数据集包含了这种细胞类型,也成功在Schulte-Schrepping的数据集中注释出activated CD4 T细胞,同时发现Schulte-Schrepping数据集中新冠患者的activated CD4 T细胞差异高表达CD2AP基因,也与此前华大研究院等人的发现一致。通过此项研究也证明,华大智造C4平台产出的数据可以和其他平台适配。将来科研人员可以利用Concerto构建整合不同单细胞数据产出平台的大型参考数据集,用以对新产出的数据进行快速注释。

Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模-肽度TIMEDOO

图4 将健康人与COVID-19患者整合的参考数据集对查询数据集进行迁移注释

华大智造高级副总裁倪鸣博士表示:“单细胞组学的研究已进入高通量、大数据、多模态的研究阶段,此次基于对比学习的最新人工智能方法Concerto 用于单细胞参考数据集映射注释成果的发布,丰富了华大智造此前自主研发DNBelab C4单细胞平台,实现了单细胞组学领域硬件与软件的深度结合,相信未来会在单细胞领域赋能更多用户。”单细胞多组学时代的来临,使得重新定义细胞成为可能。华大集团联合创始人、董事长汪建曾提出 “六定”:定性、定量、定位、定时、定向、定标。未来,华大智造将继续开发用于单细胞多组学研究的硬件、试剂、软件工具,支持科研人员提高研究效率、拓展探索的边界。
华大智造杨梦、杨悦羽霄、谢辰熙是文章的第一作者
本研究所使用数据均来自公开已发表数据
参考文献
[1]  Abdi, H. & Williams, L. J. Principal component analysis. Wiley Interdiscip.Rev. Comput. Stat. 2, 433–459 (2010).

[2]  Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. A simple framework for

contrastive learning of visual representations in International Conference on

Machine Learning 1597–1607 (PMLR, 2020).

[3]  He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for

unsupervised visual representation learning in Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition 9729–9738 (IEEE,

2020).

[4]  Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R.

Dropout: a simple way to prevent neural networks from overfitting. J. Mach.

Learn. Res. 15, 1929–1958 (2014).

[5]  Wang, T. & Isola, P. Understanding contrastive representation learning

through alignment and uniformity on the hypersphere. In International

Conference on Machine Learning 9929–9939 (PMLR, 2020).

[6]  Hao, Y. et al. Integrated analysis of multimodal single-cell data. Cell 184,

3573–3587.e29 (2021).

[7]  Lotfollahi, M. et al. Mapping single-cell data to reference atlases by transfer

learning. Nat. Biotechnol. 40, 121–130 (2022).

[8]  Kang, J. B. et al. Efficient and precise single-cell reference atlas mapping with

Symphony. Nat. Commun. 12, 1–21 (2021).

[9]  Schulte-Schrepping, J. et al. Severe COVID-19 is marked by a dysregulated

myeloid cell compartment. Cell 182, 1419–1440 (2020).

[10]  Su, Y. et al. Multi-omics resolves a sharp disease-state shift between mild and

moderate COVID-19. Cell 183, 1479–1495 (2020).

[11]  Zhu, L. et al. Single-cell sequencing of peripheral mononuclear cells reveals

distinct immune response landscapes of COVID-19 and influenza patients.

Immunity 53, 685–696 (2020).