影像+深度学习就可以发Nature子刊?真相可能并不简单!
1
整体感知
1
题目要素拆解
文章题目提供了三条信息:
1)预测变量:PET/CT影像组学
2)结局:EGFR靶向治疗和免疫治疗的预后
3)研究对象:非小细胞肺癌(NSCLC)
2
文章基本信息
3
核心要素
研究对象(P):非小细胞肺癌病人 (n = 837),来自四家医院,影像数据可以联系通讯作者获取。
预后模型(I/C):深度卷积神经网络(CNN)
结局指标(O):病人的无进展生存期(PFS)
研究类型(S):回顾性队列研究,预后类型
研究目的:开发基于PET/CT的深度学习模型和影像标志物,用于对NSCLC病人根据EGFR靶向治疗和免疫治疗的响应进行分组。
4
变量分析
本文有两项任务�:
a. 分类任务
预测变量(X):PET/CT影像
结局变量(Y): 是否发生EGFR突变(二值变量)
注:本文也对PD-L1的表达水平构建了预测模型,但主体部分集中在EGFR突变的分析评估上。
b. 预后分析任务
预测变量(X):深度影像标志物(deep learning score, DLS)
结局变量(Y): 病人接受靶向治疗(EGFR-TKI)和免疫治疗(ICI-TKI)后的预后(PFS)
协变量(Z):临床变量,包括年龄、性别、分期、病理、吸烟情况、SUVmax。(但注意本文重点是病人分组,协变量并非重点)
5
研究背景
临床问题:靶向药物和免疫治疗为NSCLC带来了新的希望,判断EGFR突变情况是疗法选择的重要依据。
目前方法不足:目前临床上通过肿瘤活体组织检查判断EGFR突变状态,但需要依靠活检等侵入式方法,且对肿瘤的采样是有偏的,对肿瘤特性的刻画不够全面。
本文解决方式:基于此,本文从影像组学入手去预测EGFR突变状态,考虑到预定义的影像特征对精准的肿瘤边界勾画要求较高,本文采用深度学习的方法提取影像特征。作者构建了EGFR突变状态的深度影像标志物,并将其与预后相关联,最终提出了基于影像组学的疗法选择依据。
2
模型构建
1
workflow展示
① ROI分割与预处理(包括CT和PET)
② 模型训练与验证
③ 基于深度影像标志物的病人分组
④ 构建病人治疗方案的决策流程
2
纳入排除标准建立
第一部分:文章方法部分解读
纳入标准
① 经组织病理学确认为原发性肺癌
② 有EGFR的病理检验
③ 有PET/CT影像
④ 病人基线临床数据完整
排除标准
注:根据研究目的,不同队列的排除标准存在差异
•Shanghai Pulmonary Hospital (SPH) + Fourth Hospital of Hebei Medical University (HBMU)
① 无EGFR突变记录
② 接受过预治疗
③ 成像和进行免疫组化活检之间的间隔超过1个月
•Fourth Hospital of Harbin Medical University (HMU)
① 病人患有幽闭恐惧症,处于妊娠、哺乳期或胸部有金属植入物
② 无治疗前PET/CT影像
•H. Lee Moffitt Cancer Center and Research Institute (HLM)
① 成像和免疫治疗之间的间隔超过3个月,或之间接受过其他治疗
② 随访时间少于6个月
③ 同时接受了免疫治疗和化疗
第二部分:PICOS原则梳理
P:
年龄:不限制;
性别:不限制;
疾病状态:初次治疗;
疾病分期:TNM I~IV期均有;
治疗方案:靶向治疗(EGFR-TKI)和免疫治疗(ICI-TKI);
诊断标准:病理诊断;
I/C:
影像设备:18F-FDG-PET/CT;
靶区:肿瘤及周围区域;
影像检查时间点:术前;
层厚:3.75 mm(CT),3.27mm(PET);
O:
模型训练的output是EGFR突变状态(二值)
临床研究的outcome是病人接受治疗的PFS
第三部分:纳排及分组结果
最终,共纳入4个队列的837名患者,并从中获得PET/CT影像数据、EGFR突变情况、PD-L1表达情况、随访信息及临床特征资料:
•Shanghai Pulmonary Hospital (SPH) + Fourth Hospital of Hebei Medical University (HBMU):共616例患者,用于模型训练和验证,两个队列组合后划分为训练和验证集(429+187)
•Fourth Hospital of Harbin Medical University (HMU):72例,分别用于EGFR突变预测模型的外部验证,和靶向治疗响应的研究,两项研究涉及的患者有重合。
•H. Lee Moffitt Cancer Center and Research Institute (HLM):HLM:149例患者,用于免疫治疗响应的研究
详见原文Fig. 1:
原文Fig. 1
注:
本文的队列设计看起来比较复杂,可以这样理解:本文有两个相互关联的任务:EGFR突变预测和预后分析,因此队列中同时包含了EGFR突变信息和治疗后的预后数据。
两项任务的关联在于:通过预测EGFR突变,从影像中提取了EGFR突变的信息,构建得到深度影像标志物EGFR-DLS。由于EGFR突变和靶向治疗(TKI)有关,因此可以基于EGFR-DLS研究病人接受TKI治疗后的预后,也可以结合PD-L1信息分析免疫治疗的预后。
3
图像分割(+图像预处理)
PET和CT首先使用ITK-SNAP软件(version 3.6.0)进行配准,之后由3位经验丰富的放射科医生完成ROI区域标注,再进行膨胀处理以包括肿瘤周围区域。最后缩放到64x64像素用于模型输入。
原文Fig. S9
原文在Fig. S9中给出了图像分割部分的流程:
步骤a:手动标注肿瘤区域,标注的方式可以使用矩形框,也可以用不规则的边界框。由于深度学习模型的输入是正方形,因此对肿瘤区域的标注不必是像素级的segmentation;
步骤b:重采样图像和标注掩模到同样的体素间距(1mm),这样可以保证不同样本图像的像素表征的实际物理距离是一致的;
步骤c:使用正方形框定位肿瘤区域;
步骤d:将标注区域向外扩展20mm,以便纳入肿瘤周围区域;
步骤e:将肿瘤(含周围区域)影像缩放到64x64像素,因为深度学习模型要求的输入大小是一致的。之后将CT和PET影像融合到一起到Fusion ROI;
步骤f:将CT、PET和融合后的影像作为3个通道输入深度学习模型。
4
特征提取
本研究使用深度学习策略提取影像特征,由于CNN模型是端到端(end-to-end)的形式,特征提取会在训练中自动加以优化,而非经由固定的公式计算得出。
5
特征选择
CNN模型在经过训练后,其模型参数具有特征选择作用。这一过程也经由端到端的学习实现,没有显式的特征选择步骤。
6
模型建立
原文Fig. S8
模型训练的一些细节:
l初始学习率:0.0001
l优化器与参数:Adam,beta_1 = 0.9, beta_2 = 0.999
l学习率衰减策略:如果验证集loss连续10个epoch不下降,则学习率降为原来的1/5
l防过拟合策略:
1)数据扩增;
2)加入正则项;
3)加入Dropout;
4)Early stop(验证集loss连续30个epoch不下降则停止训练)
模型训练完成后,对于每个样本的输出即为该样本的deep learning score,由于预测的变量是EGFR突变,因此命名为EGFR-DLS,用于下游分析验证其临床价值。
此外,为了比较EGFR-DLS和临床变量及其互补性, 作者还使用临床变量构建了clinical signature(CS),以及二者结合的combined signature(CMS)。构建方法为训练集上对自变量进行logistic regression(标签仍为预测EGFR突变),之后取模型输出作为signature。
3
模型评价
1
模型预测效果的评估
Fig. 2展示了每个Signature预测效果的ROC曲线及其AUC水平的差异
原文Fig. 2
结果显示:
EGFR-DLS能够很好地预测EGFR突变状态,且多中心泛化性良好。其性能优于临床指标(CS),将二者结合能够取得更好的预测效果(CMS)。上述预测性能的提升在统计学上是显著的。
注:这里的MPG指的是18F-MPG (N-(3-chloro-4-fluorophenyl)-7-(2-(2-(2-(2-18F-fluoroethoxy) ethoxy) ethoxy) ethoxy)-6-methoxyquinazolin-4-amine),是近年来新提出的一种研究肿瘤中EGFR突变情况的方法,它基于PET影像,能够将肿瘤EGFR突变的情况以影像的方式定量化地呈现。详情见参考文献2。
2
EGFR-DLS鲁棒性的分析
Fig. S2展示了不同放射科医生标注肿瘤对实验结果的影响
原文Fig. S2
结果显示:
根据三位放射科医生标注计算出的EGFR-DLS差别不大(图a,每个坐标轴为一位医生标注计算得到的DLS,三组DLS构成了一个三维坐标系,数据点分布在立方体的主对角线说明了三组DLS的一致性较好),且基于三组EGFR-DLS预测EGFR突变的效果相近(图b)。以上结果说明了算法对肿瘤区域标注的鲁棒性。
3
EGFR-DLS与临床变量之间的关联
Fig. 3a、b展示了EGFR-DLS和肿瘤特性之间的相关性
原文Fig. 3
结果显示:
EGFR-DLS与肿瘤的分期、病理亚型、病人是否吸烟以及性别之间存在着显著的关联(图a)。此外,在NSCLC常见的亚型——腺癌(ADC)和鳞癌(SCC)中,EGFR-DLS与EGFR突变也有着显著关联(图b)。
4
深度学习模型可视化分析
Fig. 3c、d对深度学习模型进行了可视化,并展示了对应的组织病理学结果
图像说明:对于子图c和d,
第一行:CT/PET/18FDG PET-CT;
第二行:上述图像中的ROI,即肿瘤区域;
第三行左侧:模型关注区域;
第三行右侧:正负向滤波器(正负向指与预测目标是否一致);
第四行:CT/PET/18F-MPG PET-CT;
第五行:HE染色和免疫组化染色图像(分别为total-EGFR, phospho-EGFR, and L858-specific EGFR)。
结果显示:
•对比第三行左侧与第二行,说明了模型关注的区域与肿瘤区域重合
•对比第三行左侧与第四行,说民乐模型关注的区域与18F-MPG图像热点区域重合;
•对比子图c和子图d的第三行右侧图,说明了正向滤波器在EGFR突变肿瘤中被激活,负向滤波器在EGFR未突变肿瘤中被激活;
•对比第三行左侧与第五行,说明了模型对EGFR突变情况的判断与组织病理学检验结果一致
注1:深度学习模型的可视化可以查阅参考文献3。
注2:由于18F-MPG图像反映了肿瘤EGFR突变的情况,因此预测模型关注的区域和MPG图像热点区域一致说明了模型从影像上捕捉EGFR突变信息的有效性。
Fig. S1将ROI扩展到肿瘤周围区域进行模型可视化(可视化的肿瘤与Fig.3一致)
原文Fig. S1
结果显示:
将ROI扩展到肿瘤周围区域结果与之前一致(第一、二行:与Fig.3相同;第三、四行:ROI扩展到肿瘤周围区域的可视化结果)
5
EGFR-DLS的预后价值分析
Fig. 4a、b展示了EGFR-DLS和MPG、TKI治疗效果之间的关联
原文Fig. 4
结果显示:
EGFR-DLS越高,MPG图中的SUVmax数值越高,发生EGFR突变的肿瘤更容易对TKI产生治疗响应。
Fig. 4c、d展示了EGFR-DLS针对靶向和免疫治疗病人的分层情况
原文Fig. 4
结果显示:
EGFR-DLS可以显著区分接受靶向(图c)或免疫治疗(图d)病人的预后。
Fig. S3 补充说明了EGFR-DLS和EGFR突变状态的一致性
原文Fig. S3
结果显示:
使用EGFR-DLS和使用EGFR突变状态对病人分层, 获得的生存曲线十分接近,说明EGFR-DLS能够很好地指示EGFR突变状态。
Fig. 4e 展示了EGFR-DLS针对不同NSCLC亚型且接受免疫治疗病人的分层情况
原文Fig. 4
结果显示:
不论是在腺癌还是鳞癌的亚组中,EGFR-DLS都能够显著区分接受免疫治疗预后有显著差异的病人。
Fig. S4 展示了EGFR-DLS和PD-L1表达水平之间的关联
原文Fig. S4
结果显示:
EGFR-DLS与PD-L1表达水平之间存在较强且显著的相关性(三个子图分别为训练、验证和测试三个子队列)。
Fig. 4f、S5 展示了EGFR-DLS针对不同PD-L1水平且接受免疫治疗病人的分层情况
原文Fig. 4
原文Fig. S5
结果显示:
EGFR-DLS较高且PD-L1水平较低的情况下,病人接受免疫治疗的效果较差(Fig. 4f),这一结论在腺癌还是鳞癌的亚组中均成立(Fig. S5)。
Fig. S5 展示了EGFR-DLS与不同疗法疗效之间的关系
原文Fig. 4
结果显示:
EGFR-DLS高的组更适合使用靶向治疗(红线vs紫线);EGFR-DLS低的组更适合使用免疫治疗(青线vs绿线)。
Fig. S7 展示了影像标志物结合使用对接受两种疗法的病人的分层情况
Fig. S7
结果显示:
首先说明:可以根据EGFR-DLS的算法同样去构建PDL1-DLS,二者可以结合起来将病人分为四组。左侧为EGFR-DLS较高(>0.5, H)的生存曲线,右侧为EGFR-DLS较低(L)的生存曲线。
EGFR-DLS较高时,应当考虑使用靶向治疗;当EGFR-DLS较低,且PDL1-DLS较高时,应当考虑使用免疫治疗。
铺垫了这么多,作者基于影像组学的方法,进一步提出了NSCLC治疗方案选择的新参考,往下看:
Fig. 4h、S6 分别展示了基于影像组学标志物和2020版指南的治疗方案选择流程
原文Fig. 4
原文Fig. S6
结果显示:
影像组学标志物可以作为治疗方案选择的参考依据!
注:EGFR-DLS的阈值为训练集中样本DLS的中值,PDL1-DLS的阈值选取方式相同。
4
全文总结
1
一句话文章总结
本文基于NSCLC的PET/CT影像,开发了用于预测EGFR突变状态的深度影像标志物EGFR-DLS,并验证了其对病人预后的指示作用和辅助选择治疗方案的能力
2
优点
这篇文章将深度学习应用在了影像组学中,于是发表在了Nature子刊上。文章是做到了什么让整个过程得以入围顶刊范围呢?我认为原因在以下几点:
① 早鸟优势。文章发表于2020年,彼时深度学习刚开始应用于医学影像之中,且深度影像标志物的思路也不常见。如果搜索近期类似的工作,就会发现吃螃蟹的人越来越多了。
② 研究的广度。本文涉及到了EGFR靶向治疗和免疫治疗两种疗法,纳入了多中心的病人队列,且队列中病人的数量也较多。
③ 完备性。套路应有的步骤,文章基本都具备了,实现了比较完整的论述。
④ 临床价值新颖。肿瘤治疗方案的选择是临床研究的热点问题,本文从影像组学的角度给出了全新的诊疗方案,并与现有的指南进行了对比,实现了对结果的升华。
3
局限性
3
局限性
从文章总体的内容来看,做的比较规范、系统,质量佳,是个学习的好模板,工作量大。但从玩法上来说,本文也有一些可提升之处:
① 从信息获取的层面来说,只用了肿瘤的2D特征,应当进一步扩展到3D以更好地捕捉肿瘤特性(这一点在当下的影像组学研究中非常常见了)。
② 从病人队列的层面来说,本文受回顾性研究以及需要保证病人数量的制约,几个队列的纳入排除标准并不完全统一。
③ 从研究扩展性的层面来说,本文收集的队列中肿瘤大部分是10~20mm的,对于其他尺寸的肿瘤可能扩展性较差。
4
结语
4
结语
好啦,本期的文献分享到这里,对于追求子刊的小伙伴是不是又一次的冲击呢?继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~
参考文献
[1] Mu, W. et al. Non-invasive decision support for NSCLC treatment using PET/CT radiomics. Nat Commun 11, 5228 (2020).
[2] Sun, X. et al. A PET imaging approach for determining EGFR mutation status for improved lung cancer patient management. Sci. Transl. Med. 10, eaan8840 (2018).
[3] Selvaraju, R et al., Grad-CAM: Visual explanations from deep net- works via gradient-based localization, 2017 IEEE International Conference on Computer Vision (ICCV) : 618-626.
往期推荐
微信扫码关注该文公众号作者