影像+深度学习就可以发Nature子刊？真相可能并不简单！

公众号新闻

2023-08-22 09:08

整体感知

题目要素拆解

文章题目提供了三条信息：

1）预测变量：PET/CT影像组学

2）结局：EGFR靶向治疗和免疫治疗的预后

3）研究对象：非小细胞肺癌（NSCLC）

文章基本信息

核心要素

研究对象（P）：非小细胞肺癌病人（n = 837），来自四家医院，影像数据可以联系通讯作者获取。

预后模型（I/C）：深度卷积神经网络（CNN）

结局指标（O）：病人的无进展生存期（PFS）

研究类型（S）：回顾性队列研究，预后类型

研究目的：开发基于PET/CT的深度学习模型和影像标志物，用于对NSCLC病人根据EGFR靶向治疗和免疫治疗的响应进行分组。

变量分析

本文有两项任务�：

a. 分类任务

预测变量（X）：PET/CT影像

结局变量（Y）: 是否发生EGFR突变（二值变量）

注：本文也对PD-L1的表达水平构建了预测模型，但主体部分集中在EGFR突变的分析评估上。

b. 预后分析任务

预测变量（X）：深度影像标志物（deep learning score, DLS）

结局变量（Y）: 病人接受靶向治疗（EGFR-TKI）和免疫治疗（ICI-TKI）后的预后（PFS）

协变量（Z）：临床变量，包括年龄、性别、分期、病理、吸烟情况、SUV_max。（但注意本文重点是病人分组，协变量并非重点）

研究背景

临床问题：靶向药物和免疫治疗为NSCLC带来了新的希望，判断EGFR突变情况是疗法选择的重要依据。

目前方法不足：目前临床上通过肿瘤活体组织检查判断EGFR突变状态，但需要依靠活检等侵入式方法，且对肿瘤的采样是有偏的，对肿瘤特性的刻画不够全面。

本文解决方式：基于此，本文从影像组学入手去预测EGFR突变状态，考虑到预定义的影像特征对精准的肿瘤边界勾画要求较高，本文采用深度学习的方法提取影像特征。作者构建了EGFR突变状态的深度影像标志物，并将其与预后相关联，最终提出了基于影像组学的疗法选择依据。

模型构建

workflow展示

本文的研究主要分为以下几个部分：

① ROI分割与预处理（包括CT和PET）

② 模型训练与验证

③ 基于深度影像标志物的病人分组

④ 构建病人治疗方案的决策流程

纳入排除标准建立

第一部分：文章方法部分解读

纳入标准

① 经组织病理学确认为原发性肺癌

② 有EGFR的病理检验

③ 有PET/CT影像

④ 病人基线临床数据完整

排除标准

注：根据研究目的，不同队列的排除标准存在差异

•Shanghai Pulmonary Hospital (SPH) + Fourth Hospital of Hebei Medical University (HBMU)

① 无EGFR突变记录

② 接受过预治疗

③ 成像和进行免疫组化活检之间的间隔超过1个月

•Fourth Hospital of Harbin Medical University (HMU)

① 病人患有幽闭恐惧症，处于妊娠、哺乳期或胸部有金属植入物

② 无治疗前PET/CT影像

•H. Lee Moffitt Cancer Center and Research Institute (HLM)

① 成像和免疫治疗之间的间隔超过3个月，或之间接受过其他治疗

② 随访时间少于6个月

③ 同时接受了免疫治疗和化疗

第二部分：PICOS原则梳理

P：

年龄：不限制；

性别：不限制；

疾病状态：初次治疗；

疾病分期：TNM I~IV期均有；

治疗方案：靶向治疗（EGFR-TKI）和免疫治疗（ICI-TKI）;

诊断标准：病理诊断；

I/C：

影像设备：¹⁸F-FDG-PET/CT；

靶区：肿瘤及周围区域；

影像检查时间点：术前；

层厚：3.75 mm（CT），3.27mm（PET）；

O：

模型训练的output是EGFR突变状态（二值）

临床研究的outcome是病人接受治疗的PFS

第三部分：纳排及分组结果

最终，共纳入4个队列的837名患者，并从中获得PET/CT影像数据、EGFR突变情况、PD-L1表达情况、随访信息及临床特征资料：

•Shanghai Pulmonary Hospital (SPH) + Fourth Hospital of Hebei Medical University (HBMU)：共616例患者，用于模型训练和验证，两个队列组合后划分为训练和验证集（429+187）

•Fourth Hospital of Harbin Medical University (HMU)：72例，分别用于EGFR突变预测模型的外部验证，和靶向治疗响应的研究，两项研究涉及的患者有重合。

•H. Lee Moffitt Cancer Center and Research Institute (HLM)：HLM：149例患者，用于免疫治疗响应的研究

详见原文Fig. 1：

原文Fig. 1

注：

本文的队列设计看起来比较复杂，可以这样理解：本文有两个相互关联的任务：EGFR突变预测和预后分析，因此队列中同时包含了EGFR突变信息和治疗后的预后数据。

两项任务的关联在于：通过预测EGFR突变，从影像中提取了EGFR突变的信息，构建得到深度影像标志物EGFR-DLS。由于EGFR突变和靶向治疗（TKI）有关，因此可以基于EGFR-DLS研究病人接受TKI治疗后的预后，也可以结合PD-L1信息分析免疫治疗的预后。

图像分割（+图像预处理）

PET和CT首先使用ITK-SNAP软件（version 3.6.0）进行配准，之后由3位经验丰富的放射科医生完成ROI区域标注，再进行膨胀处理以包括肿瘤周围区域。最后缩放到64x64像素用于模型输入。

原文Fig. S9

原文在Fig. S9中给出了图像分割部分的流程：

步骤a：手动标注肿瘤区域，标注的方式可以使用矩形框，也可以用不规则的边界框。由于深度学习模型的输入是正方形，因此对肿瘤区域的标注不必是像素级的segmentation；

步骤b：重采样图像和标注掩模到同样的体素间距（1mm），这样可以保证不同样本图像的像素表征的实际物理距离是一致的；

步骤c：使用正方形框定位肿瘤区域；

步骤d：将标注区域向外扩展20mm，以便纳入肿瘤周围区域；

步骤e：将肿瘤（含周围区域）影像缩放到64x64像素，因为深度学习模型要求的输入大小是一致的。之后将CT和PET影像融合到一起到Fusion ROI；

步骤f：将CT、PET和融合后的影像作为3个通道输入深度学习模型。

特征提取

本研究使用深度学习策略提取影像特征，由于CNN模型是端到端（end-to-end）的形式，特征提取会在训练中自动加以优化，而非经由固定的公式计算得出。

特征选择

CNN模型在经过训练后，其模型参数具有特征选择作用。这一过程也经由端到端的学习实现，没有显式的特征选择步骤。

模型建立

作者参考经典的CNN网络——ResNet-18的结构，基于防止过拟合的考量，减少了卷积运算中滤波器（filter）的数量，构建了端到端的SResCNN（small-residual-convolutional-network）模型。原文在Fig. S8中给出了模型结构的图示。

原文Fig. S8

模型训练的一些细节：

l初始学习率：0.0001

l优化器与参数：Adam，beta_1 = 0.9, beta_2 = 0.999

l学习率衰减策略：如果验证集loss连续10个epoch不下降，则学习率降为原来的1/5

l防过拟合策略：

1）数据扩增；

2）加入正则项；

3）加入Dropout；

4）Early stop（验证集loss连续30个epoch不下降则停止训练）

模型训练完成后，对于每个样本的输出即为该样本的deep learning score，由于预测的变量是EGFR突变，因此命名为EGFR-DLS，用于下游分析验证其临床价值。

此外，为了比较EGFR-DLS和临床变量及其互补性，作者还使用临床变量构建了clinical signature（CS），以及二者结合的combined signature（CMS）。构建方法为训练集上对自变量进行logistic regression（标签仍为预测EGFR突变），之后取模型输出作为signature。

模型评价

模型预测效果的评估

Fig. 2展示了每个Signature预测效果的ROC曲线及其AUC水平的差异

原文Fig. 2

结果显示：

EGFR-DLS能够很好地预测EGFR突变状态，且多中心泛化性良好。其性能优于临床指标（CS），将二者结合能够取得更好的预测效果（CMS）。上述预测性能的提升在统计学上是显著的。

注：这里的MPG指的是18F-MPG (N-(3-chloro-4-fluorophenyl)-7-(2-(2-(2-(2-18F-fluoroethoxy) ethoxy) ethoxy) ethoxy)-6-methoxyquinazolin-4-amine)，是近年来新提出的一种研究肿瘤中EGFR突变情况的方法，它基于PET影像，能够将肿瘤EGFR突变的情况以影像的方式定量化地呈现。详情见参考文献2。

EGFR-DLS鲁棒性的分析

Fig. S2展示了不同放射科医生标注肿瘤对实验结果的影响

原文Fig. S2

结果显示：

根据三位放射科医生标注计算出的EGFR-DLS差别不大（图a，每个坐标轴为一位医生标注计算得到的DLS，三组DLS构成了一个三维坐标系，数据点分布在立方体的主对角线说明了三组DLS的一致性较好），且基于三组EGFR-DLS预测EGFR突变的效果相近（图b）。以上结果说明了算法对肿瘤区域标注的鲁棒性。

EGFR-DLS与临床变量之间的关联

Fig. 3a、b展示了EGFR-DLS和肿瘤特性之间的相关性

原文Fig. 3

结果显示：

EGFR-DLS与肿瘤的分期、病理亚型、病人是否吸烟以及性别之间存在着显著的关联（图a）。此外，在NSCLC常见的亚型——腺癌（ADC）和鳞癌（SCC）中，EGFR-DLS与EGFR突变也有着显著关联（图b）。

深度学习模型可视化分析

Fig. 3c、d对深度学习模型进行了可视化，并展示了对应的组织病理学结果

图像说明：对于子图c和d，

第一行：CT/PET/¹⁸FDG PET-CT；

第二行：上述图像中的ROI，即肿瘤区域；

第三行左侧：模型关注区域；

第三行右侧：正负向滤波器（正负向指与预测目标是否一致）；

第四行：CT/PET/¹⁸F-MPG PET-CT；

第五行：HE染色和免疫组化染色图像（分别为total-EGFR, phospho-EGFR, and L858-specific EGFR）。

结果显示：

•对比第三行左侧与第二行，说明了模型关注的区域与肿瘤区域重合

•对比第三行左侧与第四行，说民乐模型关注的区域与¹⁸F-MPG图像热点区域重合；

•对比子图c和子图d的第三行右侧图，说明了正向滤波器在EGFR突变肿瘤中被激活，负向滤波器在EGFR未突变肿瘤中被激活；

•对比第三行左侧与第五行，说明了模型对EGFR突变情况的判断与组织病理学检验结果一致

注1：深度学习模型的可视化可以查阅参考文献3。

注2：由于18F-MPG图像反映了肿瘤EGFR突变的情况，因此预测模型关注的区域和MPG图像热点区域一致说明了模型从影像上捕捉EGFR突变信息的有效性。

Fig. S1将ROI扩展到肿瘤周围区域进行模型可视化（可视化的肿瘤与Fig.3一致）

原文Fig. S1

结果显示：

将ROI扩展到肿瘤周围区域结果与之前一致（第一、二行：与Fig.3相同；第三、四行：ROI扩展到肿瘤周围区域的可视化结果）

EGFR-DLS的预后价值分析

Fig. 4a、b展示了EGFR-DLS和MPG、TKI治疗效果之间的关联

原文Fig. 4

结果显示：

EGFR-DLS越高，MPG图中的SUVmax数值越高，发生EGFR突变的肿瘤更容易对TKI产生治疗响应。

Fig. 4c、d展示了EGFR-DLS针对靶向和免疫治疗病人的分层情况

原文Fig. 4

结果显示：

EGFR-DLS可以显著区分接受靶向（图c）或免疫治疗（图d）病人的预后。

Fig. S3 补充说明了EGFR-DLS和EGFR突变状态的一致性

原文Fig. S3

结果显示：

使用EGFR-DLS和使用EGFR突变状态对病人分层，获得的生存曲线十分接近，说明EGFR-DLS能够很好地指示EGFR突变状态。

Fig. 4e 展示了EGFR-DLS针对不同NSCLC亚型且接受免疫治疗病人的分层情况

原文Fig. 4

结果显示：

不论是在腺癌还是鳞癌的亚组中，EGFR-DLS都能够显著区分接受免疫治疗预后有显著差异的病人。

Fig. S4 展示了EGFR-DLS和PD-L1表达水平之间的关联

原文Fig. S4

结果显示：

EGFR-DLS与PD-L1表达水平之间存在较强且显著的相关性（三个子图分别为训练、验证和测试三个子队列）。

Fig. 4f、S5 展示了EGFR-DLS针对不同PD-L1水平且接受免疫治疗病人的分层情况

原文Fig. 4

原文Fig. S5

结果显示：

EGFR-DLS较高且PD-L1水平较低的情况下，病人接受免疫治疗的效果较差（Fig. 4f），这一结论在腺癌还是鳞癌的亚组中均成立（Fig. S5）。

Fig. S5 展示了EGFR-DLS与不同疗法疗效之间的关系

原文Fig. 4

结果显示：

EGFR-DLS高的组更适合使用靶向治疗（红线vs紫线）；EGFR-DLS低的组更适合使用免疫治疗（青线vs绿线）。

Fig. S7 展示了影像标志物结合使用对接受两种疗法的病人的分层情况

Fig. S7

结果显示：

首先说明：可以根据EGFR-DLS的算法同样去构建PDL1-DLS，二者可以结合起来将病人分为四组。左侧为EGFR-DLS较高（>0.5, H）的生存曲线，右侧为EGFR-DLS较低（L）的生存曲线。

EGFR-DLS较高时，应当考虑使用靶向治疗；当EGFR-DLS较低，且PDL1-DLS较高时，应当考虑使用免疫治疗。

铺垫了这么多，作者基于影像组学的方法，进一步提出了NSCLC治疗方案选择的新参考，往下看：

Fig. 4h、S6 分别展示了基于影像组学标志物和2020版指南的治疗方案选择流程

原文Fig. 4

原文Fig. S6

结果显示：

影像组学标志物可以作为治疗方案选择的参考依据！

注：EGFR-DLS的阈值为训练集中样本DLS的中值，PDL1-DLS的阈值选取方式相同。

全文总结

1
一句话文章总结

本文基于NSCLC的PET/CT影像，开发了用于预测EGFR突变状态的深度影像标志物EGFR-DLS，并验证了其对病人预后的指示作用和辅助选择治疗方案的能力

优点

这篇文章将深度学习应用在了影像组学中，于是发表在了Nature子刊上。文章是做到了什么让整个过程得以入围顶刊范围呢？我认为原因在以下几点:

① 早鸟优势。文章发表于2020年，彼时深度学习刚开始应用于医学影像之中，且深度影像标志物的思路也不常见。如果搜索近期类似的工作，就会发现吃螃蟹的人越来越多了。

② 研究的广度。本文涉及到了EGFR靶向治疗和免疫治疗两种疗法，纳入了多中心的病人队列，且队列中病人的数量也较多。

③ 完备性。套路应有的步骤，文章基本都具备了，实现了比较完整的论述。

④ 临床价值新颖。肿瘤治疗方案的选择是临床研究的热点问题，本文从影像组学的角度给出了全新的诊疗方案，并与现有的指南进行了对比，实现了对结果的升华。

3
局限性

从文章总体的内容来看，做的比较规范、系统，质量佳，是个学习的好模板，工作量大。但从玩法上来说，本文也有一些可提升之处：

① 从信息获取的层面来说，只用了肿瘤的2D特征，应当进一步扩展到3D以更好地捕捉肿瘤特性（这一点在当下的影像组学研究中非常常见了）。

② 从病人队列的层面来说，本文受回顾性研究以及需要保证病人数量的制约，几个队列的纳入排除标准并不完全统一。

③ 从研究扩展性的层面来说，本文收集的队列中肿瘤大部分是10~20mm的，对于其他尺寸的肿瘤可能扩展性较差。

4
结语

好啦，本期的文献分享到这里，对于追求子刊的小伙伴是不是又一次的冲击呢？继续跟紧君莲数据库的平鑫而论专栏，我们下期见吧~~

参考文献

[1] Mu, W. et al. Non-invasive decision support for NSCLC treatment using PET/CT radiomics. Nat Commun 11, 5228 (2020).

[2] Sun, X. et al. A PET imaging approach for determining EGFR mutation status for improved lung cancer patient management. Sci. Transl. Med. 10, eaan8840 (2018).

[3] Selvaraju, R et al., Grad-CAM: Visual explanations from deep net- works via gradient-based localization, 2017 IEEE International Conference on Computer Vision (ICCV) : 618-626.