机器学习在癌症早期检测中的突破:约翰斯·霍普金斯开发ARTEMIS方法-肽度TIMEDOO

近期,美国约翰斯·霍普金斯基姆尔癌症中心的研究人员开发了一种机器学习策略,可以通过检测癌组织和细胞自由DNA(cfDNA)中的基因组中的重复序列,来预测人类早期肺癌或肝癌病例的潜在发生。该团队建议,这种新方法可以提供一种无创的手段来检测和表征癌症,或者监测对抗癌治疗的反应。

在实验室测试中,这种名为ARTEMIS(疾病中重复元素的分析)的方法检查了超过1,200种重复元素类型,涵盖了近一半的人类基因组,并确定了一大批以往未知与癌症相关的重复序列在肿瘤形成中发生了改变。研究人员还能够在cfDNA中识别这些元素的变化——这些是从肿瘤中脱落的片段,存在于血液中——从而提供了一种检测癌症并确定其起源部位的方法。

该研究的合作领导者之一、约翰斯·霍普金斯大学医学院的MD/PhD学生Akshaya Annapragada和约翰斯·霍普金斯大学的医学和肿瘤学教授维克托·E·韦尔库莱斯库(Victor E. Velculescu)博士以及其他同事,报告了ARTEMIS的开发和测试结果。他们在一篇名为《癌症和细胞自由DNA中的全基因组重复景观》的文章中写道,他们的分析“……揭示了人类癌症中重复景观的广泛变化,并提供了一种检测和表征这些变化的方法,这可能有利于患者的早期检测和疾病监测。”

DNA序列的重复,通常被称为“垃圾DNA”或“暗物质”,分布在整个人类基因组中,是“癌症和其他疾病的标志”,作者写道。然而,他们继续说道,使用标准的测序方法对这些重复序列进行表征一直是具有挑战性的。

为了解决这些挑战,研究团队开发了ARTEMIS,这是一种无需比对的、全基因组范围内分析重复景观的方法。在一系列实验中,研究人员首先检查了定义唯一重复的1.2亿个kmer(短DNA序列)在基因组中的分布,并发现它们在常见人类癌症中常见的基因中富集。

例如,他们报道说,在736个已知驱动癌症的基因中,有487个含有比预期数量高15倍的重复序列。这些重复序列在参与癌症中常见失调的细胞信号通路基因中也显著增加。研究团队指出,“这些重复kmer的定位观察表明,在人类癌症中选择性地通过与重复相关的基因组改变来选择肿瘤发生的关键基因,这一发现为我们提供了首次窥视这些序列可能对肿瘤发展至关重要的线索。”

他们还利用下一代测序技术,迅速检查了整个基因组序列的变化情况,看看重复序列是否直接在癌症中发生改变。他们使用ARTEMIS分析了525名患有不同癌症的患者的肿瘤和正常组织中的1,200多种不同类型的重复元素。分析发现,每个肿瘤中有中位数807个变化的元素。这些元素中有近三分之二以前未被观察到与人类癌症有关。

接下来,他们使用机器学习模型为每个样本生成了一个ARTEMIS分数,以提供对癌症预测的全基因组重复元素变化的总结。ARTEMIS分数以高性能将525个PCAWG参与者的肿瘤与正常组织区分开来——整体曲线下面积(AUC)=0.96——跨所有分析的癌症类型,其中1是完美分数。增加的ARTEMIS分数与较短的总体和无进展生存相关,而不管肿瘤类型如何。

“尽管不同个体之间的基因组变异性存在重复元素,但经过交叉验证的ARTEMIS分数在所有分析的癌症类型中都以高性能将525个PCAWG肿瘤与正常组织区分开来,而患者的种族无关【总体曲线下面积(AUC)=0.96】,”他们指出。“由于ARTEMIS分数捕捉了重复景观的全基因组变化,我们的观察结果与先前的分析一致,表明癌症基因组中的重复元素的重新激活和增加可能导致免疫反应或基因组不稳定性增加,这两种机制可能降低肿瘤细胞的适应性,并导致患者结果的改善。”

研究人员接下来评估了ARTEMIS用于非侵入性癌症检测的潜力。他们将该工具应用于287名参与丹麦肺癌筛查研究(LUCAS)的有和无肺癌的个体的血液样本中。ARTEMIS以0.82的整体AUC分类了肺癌患者。当与另一种名为DELFI(DNA片段早期拦截的DNA评估)的方法结合使用时,组合模型以0.91的AUC对肺癌患者进行了分类。DELFI是韦尔库莱斯库、Scharpf和他们小组的其他成员之前开发的一种检测cfDNA片段大小和分布变化的分析方法。

在一个由208名有肝癌风险的个体组成的群体中,观察到了类似的表现,ARTEMIS在肝癌患者中检测到与肝硬化或病毒性肝炎等其他情况的个体,AUC为0.87。当与DELFI结合使用时,AUC增加至0.90。

机器学习在癌症早期检测中的突破:约翰斯·霍普金斯开发ARTEMIS方法-肽度TIMEDOO

最后,研究人员评估了ARTEMIS血液检测是否能够确定癌症患者肿瘤的起源部位。当根据PCAWG参与者的信息进行训练时,该工具能够在12种肿瘤类型中将肿瘤组织的来源进行分类,平均准确率为78%。

然后,研究人员将ARTEMIS和DELFI结合起来评估了一个由226名患有乳腺癌、卵巢癌、肺癌、结直肠癌、胆道癌、胃癌或胰腺癌的个体组成的群体的血液样本。在这里,该模型以平均准确率68%的水平正确地将患者分类到不同的癌症类型中,当模型允许提出两种可能的肿瘤类型而不是单一的癌症类型时,准确率提高至83%。“尽管样本数量有限,但我们发现ARTEMIS-DELFI能够以平均68%或83%的准确率正确将不同癌症类型中检测到的患者分类,”他们表示。

Annapragada说:“我们的研究表明,ARTEMIS可以揭示反映人类癌症基因组中戏剧性变化的全基因组重复景观。” “通过照亮所谓的‘暗基因组’,这项工作为我们提供了对癌症基因组的独特见解,并为全基因组重复景观作为癌症检测、表征和监测的组织和血液标志物提供了概念验证。”

作者进一步写道:“cfDNA为检测肺癌、肝癌和其他癌症提供了重复景观分析的可能性,表明ARTEMIS单独或与其他全基因组特征结合可能为癌症的非侵入性检测、监测和确定起源提供了途径…… ARTEMIS可能通过识别全基因组变化来改善早期诊断,这些变化在其他液体活检方法中可能不明显,当未检测到肿瘤特征,例如突变或染色体臂变化时。”

下一步,韦尔库莱斯库建议在更大规模的临床试验中评估该方法。他评论说:“你可以想象,这可以用于各种癌症类型的早期检测,但也可以用于其他应用,比如监测治疗反应或检测复发。”“这是一个全新的领域。”

作者在报告中承认了研究的局限性,并得出结论说:“考虑到这些基因组区域的规模、多样性和潜在临床相关性,我们的研究为癌症基因组提供了独特见解,并提供了全基因组[序列]重复景观作为组织和血液标志物的潜在用途的概念验证……此外,现在可以全面识别的重复元素的扩展或收缩提供了一种检测和检查影响癌症和其他疾病机制的新方法。”

编辑:王洪

排版:李丽