人机对决的主角已经不再限于谷歌的 AlphaGo 。

5 月 20 日,《自然-医学》报道了来自谷歌 AI 团队的一项人工智能研究,这是根据低剂量计算机断层扫描图像来预测肺癌的。其结论是,AI 表现超越了 6 位专业的放射医学专家。

4D预测肺癌

肺癌预测的人机对决:谷歌 AI 挫败 6 位放射专家-肽度TIMEDOO图 | 肺癌细胞的扫描电子显微镜照片。(来源:ANNE WESTON / FRANCIS CRICK INSTITUTE / WELLCOME )

2018 年,全世界有 960 万人死于癌症,其中肺癌死者就有 176 万,高居癌症死亡率第一位。在中国,由于人口老龄化和空气污染的严重态势,且吸烟率居高不下,肺癌也已成为死亡率最高的恶性肿瘤。据《中国肺癌低剂量螺旋 CT 筛查指南( 2018 年版)》,在 2015 年,中国肺癌的发病和死亡例数分别达 73万 和 61 万,发病率和死亡率非常接近,其主要原因是临床诊断病例多已为晚期,失去了手术机会。

早期诊断和早期治疗是提高肺癌生存、降低肺癌死亡率的重要措施。在高危人群中,与 X 线胸片比较,低剂量计算机断层扫描( LDCT )可降低 20% 的肺癌死亡率。2013 年,美国预防医学工作组( USPSTF )推荐对高危人群进行低剂量计算机断层扫描筛查肺癌。

不过今天也只有 2% 到 4% 的符合条件的美国患者进行了筛查。谷歌产品经理 Lily Peng 博士指出,早期的微小肿瘤很难看到,超过 80% 的肺癌病例无法及早发现。

肺部影像的评估是基于图像中肺部的结节大小、密度和生长情况,但是假阴性和假阳性会导致很多不必要的活检与漏诊,于是大量肺癌在发现时已是晚期,这带来高昂的临床成本和经济成本。

目前美国食品药品监督管理局(FDA)已经批准了一些软件应用,这些应用主要是为医学成像专家提供特定图像的诊断支持,属于计算机辅助检测范畴。

为了超越先前计算机辅助检测方法的局限性,来自谷歌 AI 部门的 Daniel Tse 及同事建立了一种端到端的分析方法,仅使用输入 CT 图像就可以来预测肺癌风险。此外,他们还使用卷积神经网络(CNN)来进行训练,这种技术在图像识别方面能够给出更好的结果。

肺癌预测的人机对决:谷歌 AI 挫败 6 位放射专家-肽度TIMEDOO图 | 谷歌肺癌 AI 模型的整体建模框架。(来源:《自然-医学》论文)

肺癌预测的人机对决:谷歌 AI 挫败 6 位放射专家-肽度TIMEDOO图 | 对于每个患者,新模型采用已有的低剂量计算机断层扫描数据集,输入患者 CT 图像,经过分析输出该病例的癌症风险预测和风险评分。(来源:谷歌)

肺癌预测的人机对决:谷歌 AI 挫败 6 位放射专家-肽度TIMEDOO图 | 对于无癌症病史的无症状患者,发现了潜在的肺癌肿瘤。(来源:谷歌)

放射科医生无法像计算机一样检查 3D 扫描,他们必须审查数百个单独的 2D 扫描切片以发现问题,而肿瘤可能会很微小以至难以察觉,这种新的机器学习系统则可以分析高通量的 3D 肺部图像,不仅可以对整体肿瘤进行预测,还可以通过肺结节识别细微的恶性组织。再加上先前的扫描数据对比,就可以用来评估肺结节的生长速度。

论文共同作者、美国西北大学医学院 Mozziyar Etemadi 博士说,3D 检测早期肺癌的能力比人眼检测 2D 图像要敏感得多。事实上,新系统在技术上可以纳入 4D 范畴,因为它不仅仅是一次 CT 扫描,而是包括了当前和先前共计两次的扫描,所以可以检测肺结节随时间的生长变化。

在这项研究中,谷歌的 AI 算法至关重要。当然,这也受益于谷歌强大的计算机运行能力。

Daniel Tse 团队用 42290 张 CT 扫描图像进行训练,以便在无人类参与的情况下预测肺结节的恶性程度。他们发现,在 6716 个测试病例中,该人工智能系统能够以 94% 的准确率发现极小的恶性肺结节。在无先前 CT 扫描图像的情况下,该系统的表现超越所有 6 位放射医学专家,假阳性减少 11% ,假阴性减少 5% ;而在有先前 CT 扫描图像的情况下,两者表现不相上下。这 6 位放射专家有平均 8 年( 4 年到 20 年)的读片经验。

2019 年 5 月 7 日,Lily Peng 在 2019 年开发者大会上称,他们研发的人工智能技术可以比医生早一年查出肺癌,使患者存活的概率提升 40% 。

开发人工智能系统的谷歌工程师强调,它不是为了取代放射科医生,而是为了提高医生检测结节的能力并确定它们是否有危险。作者提醒说,这些发现还需要经过大规模的临床验证,但现有研究,仍说明这一模型有望推动改善肺癌患者的管理和预后。

鉴于专业的胸透放射医生缺乏,谷歌这个新系统对于社区医院的普通放射科医生将会是一个便捷工具,这可能会成为肺癌筛查推广的利器。

不仅仅是辅助检测

那么,这个系统能否达到 100% 的肺癌预测率呢?他们下一步有什么规划呢?对此,这项研究的负责人 Daniel Tse 接受了 DeepTech 的专访。

DeepTech:这项研究方法的特点是哪些呢?

Daniel Tse:今天的肺癌筛查存在若干挑战,包括高频率的假阳性和假阴性、评估者差异可变性(inter-grader variability)以及实施广泛成像筛查计划的现实障碍。这些弊端就给 AI 留下了施展拳脚的空间。深度学习方法可以进行复杂的自动化图像分析,检测细微的图像变化以及统一图像评估方法。

我们的模型结合了检测和诊断双重功能,并且经过深度学习算法,拥有计算机辅助检测所不能进行的解释功能。这套系统可以使用患者当前和先前的 3D CT图像来预测肺癌发展。

DeepTech:AI 的肺癌评估准确率有极限吗?现在是 94% 的准确率,那么是不是意味着还有接近 6% 的提升空间?

Daniel Tse:目前的研究主要目的是为了创建深度学习的模型,且可以解决目前肺癌筛查中的高假阳性和高假阴性问题。而现实应用中,总会有一些限制因素,这就使得 AI 不能得到 100% 的精确度。

事实上,AI 并不以精确度为唯一追求,而是兼顾特异性(假阳性)和敏感性(假阴性)。基于对实际结果的意义,后两者的重要性可能不同。比如,减少假阴性意味着将检测到更多的癌症,也就减少漏诊。

下一步,我们的系统要给医生提供这些预测结论的表述方式,以及给患者提供积极的建议。

DeepTech:下一步会如何推进大规模临床验证?在将来如何推进这方面研究的产品化?

Daniel Tse:目前这些结果令人鼓舞,但还是早期阶段。我们需要进一步改进和验证这套系统,并探索放射科医生更实用的使用方法。此外,还要与世界各地的监管机构合作,确保产品应用前有充分的研究。

DeepTech:谷歌 AI 部门之前在视网膜病变和乳腺癌方面都有很重要的工作,这些产品有哪些进展?目前你们在这方面的工作与美国 FDA 有沟通吗?

Daniel Tse:我们的大部分工作仍处于研究阶段,但我们与谷歌旗下子公司 Verily-Alphabet 合作的糖尿病视网膜病变计划现已部署在印度的诊所。这也得到了欧洲的健康、安全和环保的CE认证。我们正在与 FDA 进行研发产品的沟通。

在印度,7200 万糖尿病患者中只有 600 万人有机会接受糖尿病视网膜病变筛查,他们的眼科医生缺口超过 10 万名。在过去 3 年中,我们开发了一种机器学习算法,更容易筛查糖尿病性视网膜病变(DR)和糖尿病性黄斑水肿(DME)。

2018 年年末,我们在泰国也开展了这项工作。今年我们会在全球开展更多工作。

业内点评

关于这篇文章,DeepTech 也专访了医学成像国际权威、美国伦斯勒理工学院讲席教授王革。

“低剂量 CT 检查对于肺癌普查极为重要”, 王革说,“在这个领域人工智能 AI 方法大有作为。若干团队都先后独立报告了令人鼓舞的结果,而这篇文章是一个杰出的代表。”

王革赞同 Daniel Tse 的观点,这些结果还在早期阶段。如何改进、优化和验证,以及如何融入放射科医生的工作流程、如何实现可解释性等方面均有大量的工作要做。他最后强调,“人工智能 AI 是新的范式,道路曲折,前景光明。必将显著提高医疗质量,造福民众。”

《麻省理工科技评论》发表评论认为,这些研究虽然是令人兴奋的,但应该被视为小的进步。因为出于隐私原因,在医疗保健中使用 AI 仍然具有挑战性。此外,现实世界的数据集很少像研究中使用的那样完美。

值得注意的是,治疗癌症不仅仅涉及检测。例如,患者与患者之间多种因素的差异使得诊治难以完全实现自动化。

不过,纽约时报提出了疑问:如果这套 AI 系统得到 FDA 的批准,那么随着系统经验和更多数据的更新,开发商是否需要再次提交申请?如果是这样,多久提交一次呢?

来源:麻省理工中文评论