10分+影像组学基因突变预测，学到就是赚到！

公众号新闻

2023-03-02 09:03

一、整体感知

题目要素拆解

文章题目提供了三条信息：

1）预测变量：影像组学

2）结局：EGFR突变情况

3）研究对象：非小细胞肺癌（NSCLC）

02
文章基本信息

核心要素

研究对象（P）：109例初治 NSCLC 患者(21例 EGFR 突变型和88例 EGFR 野生型)+两个外部验证队列（TCIA+ Messina）

备注：文章中使用到的原始数据作者均已上传至补充材料中，感兴趣的小伙伴可以进入原文地址进行下载（https://aacrjournals.org/cancerres/article/81/3/724/649656/Radiomic-Detection-of-EGFR-Mutations-in）

预后模型（I/C）：机器学习诊断模型，采用“test–retest”鉴定稳定的影像组学特征

结局指标（O）：二分类变量——EGFR突变状态（野生型Wild type-突变型Mutant type）

研究类型（S）：回顾性队列研究，诊断模型

研究目的：开发基于CT的影像组学特征，用于预测NSCLC患者EGFR突变状态的诊断模型

变量分析

预测变量（X）：影像组学signature（瘤周）

结局变量（Y）: EGFR突变状态

协变量（Z）：性别+吸烟

研究背景

临床问题：EGFR突变状态对于初治的晚期NSCLC患者的分子靶向治疗具有重要指导意义。

目前方法不足：活检是侵入性的，无法确保一次成功；而且活检组织仅代表肿瘤的一小部分，由于肿瘤的异质性不能代表整个肿瘤。目前预测EGFR突变情况的影像组学模型准确性不理想。

研究GAP：既往的研究发现了某些影像特征和EGFR突变之间的相关性，也有文献报道影像组学模型预测EGFR突变情况，但准确性均不够理想——一项对228名NSCLC患者的CT扫描图像分析，ROC的AUC范围为0.54至0.64（PMID: 32548300）；一项对1010名亚洲患者的分析，预测模型AUC范围为0.740到0.811（PMID: 30746208）.

本文解决方式：基于此，作者利用CT影像组学特征构建NSCLC 的EGFR突变情况预测模型，使用“test–retest”方法来阐述更可靠和可重复的影像组学分析，提高模型准确性，以期为临床诊治决策提供参考。

二、模型构建

workflow展示

先看一下本文的流程图，作者通过获取两个时间点的CT图像（T0和T1），分别构成数据集1和数据集2，从数据集1到2的平均特征比率 > 10% 的特征被消除（即test-retest），最终筛选出42个特征，PCA降维后结合临床因素（性别和吸烟）通过SVM算法构建预测模型，预测EGFR的突变情况。

备注：Test-retest方法筛选特征在后面会详细介绍~~

纳入排除标准建立

第一部分：文章方法部分解读

纳入标准

① CT引导下活检，病理诊断原发性肺腺癌患者

② 测试EGFR突变状态

③ 可以进行分析的CT扫描影像质量

④ 临床随访数据完整

排除标准

① 曾经接受过全身性抗肿瘤治疗

② 影像资料不全或影像质量差（CT伪影、纯毛玻璃结节）

③ 临床数据不全或失访

图1：病人筛选

第二部分：PICOS原则梳理

P：

年龄：作者并未对年龄进行限制；

性别：作者并未对性别进行限制；

疾病状态：首诊初治；

疾病分期：无限制；

治疗方案：尚未接受治疗;

诊断标准：CT引导下活检的病理诊断；

I/C：

影像设备：两种CT扫描设备：Lightsped16和 Optima64;

扫描序列：CT平扫；

靶区：1个VOI（全瘤）；

影像检查时间点：治疗前；

层厚：5mm；

对比剂：无；

O：

EFGR突变状态

第三部分：纳排及分组结果

最终，训练集共纳入109名患者，两个外部数据集分别包括49名患者（TCIA）和12名患者（Messina）。并从中获得CT影像数据、EGFR突变状态、病理特征（原发肺腺癌）及临床特征资料（吸烟、性别）。

CT引导下胸部活检及图像重新格式化

图2：Test-retest影像引导下的胸部活检示例

①图像获取：

这张示例图展示了CT引导下的胸部活检流程，六张小图中前两张被纳入筛选特征和构建模型，即：时间点T0收集的图像(蓝色框架)作为数据集1；时间点 T1收集的图像(绿色框架)用于创建数据集 2（选用两个时间点是为了排除不稳定的特征）。后面T2, T3，T4的图片展示了影像引导的穿刺活检。

②重新格式化：

软件：Advanced Workstation 4.6

对象：针对训练集中数据集1和2的CT图像进行重新格式化；没有对外部数据集（TCIA和Messina）进行此操作。

参数：切片厚度为5mm，field-of-view (FOV)为32cm 和512 × 512矩阵。

图像分割

上述重新格式化后的数据集1和2的CT图像纳入后续的分割和VOI提取过程，分割过程由具有临床经验的放射科医师执行。

使用 3D Slicer的Pyradiomics软件沿肿瘤轮廓进行半自动分割：使用tracing effect算法绘制肿瘤周围的感兴趣区域(ROI)，当算法不能以足够的精度识别肿瘤的边界时，操作者手动纠正ROI）。

特征提取及选择（+数据预处理）

①特征提取：

工具：本文特征提取过程采用test–retest方法进行。

参考文献：van Timmeren, Janna E et al. “Test-Retest Data for Radiomics Feature Stability Analysis: Generalizable or Study-Specific?.” Tomography (Ann Arbor, Mich.) vol. 2,4 (2016): 361-365. doi:10.18383/j.tom.2016.00208

对象：数据集1和2的CT图像的ROI

test–retest方法：数据集1：即为Test数据集；数据集2：即为retest数据集。

第一步，从数据集1和数据集2的图像中提取了104个影像特征（表S2）。

第二步：分别计算数据集1和2中图像的特征值的比率(feature ratio, FR)以建立每个特征的患者内变异性。为了不排除在单个患者中显示可变性但在队列中相对稳定的特征，计算 FR的算术平均值(MFR)。

第三步：消除 MFR 高于10% 的特征。

结果：60个特征被删除（MFR>10%），最终选择了42个特征。

备注：这里出现了两个结果，一个是没有经过retest的104个特征，另一个是经过retest后得到的42个特征。后文作者为了体现test-retest方法的作用，在后文分别构建了包含104个特征的模型和包含42个特征的模型，并对比二者的表现。

②数据预处理

z-score

工具：MATLAB

处理方法：对训练集上提取的特征值进行z-score（）标准化处理；然后使用训练集上求得的平均值和标准差值对测试集的特征值进行标准化处理。

模型构建及优化

软件：利用 MATLAB 软件对 SVM 模型进行训练和优化。

方法：PCA降维+SVM+5折交叉验证：

模型构建：经过Z-score处理后的影像学特征（包括来自数据集1的104个特征和经过restest的42个特征）被用于后续分析。先使用主成分分析（PCA）进行降维，通过支持向量机算法SVM对PCA提取的主要成分（Principal Components）合并临床数据（吸烟和性别），用于构建预测模型

模型优化：在优化过程中，使用了5折交叉验证。在验证精度的基础上，选择二次核支持向量机模型（an SVM model with quadratic kernel ）作为最优模型。最后，将得到的预测模型在外部数据集上进行准确性测试。

再次回顾一下本文的分析流程——图3

主成分分析（PCA）是一种通过创建名为Principal Components（PC）的新复合变量降低影像组学特征维度的技术。同一PC中的特征彼此线性组合。第一个PC具有最高的方差，随后的PC具有其正交性允许的最大差异值

支持向量机（SVM）是一种用于执行回归和分类的算法。在两类分类中，SVM创建两个类之间分离范围最大的hypersurface，最接近该hypersurface的数据点称为支持向量。

5折交叉验证中，将训练队列随机分为5个相等大小的队列。在这5个队列中，单个队列被视为用于优化模型超参数的验证数据，其余4个队列被用作训练数据。然后重复5次交叉验证过程，这5个队列中的每一个都用作验证数据。这5个结果的平均值产生了估计的验证精度。

三、模型评价

ROC曲线

利用ROC曲线评估预测模型的诊断准确性，发现结合性别和吸烟情况和经过test-retest算法筛选的42个影像组学特征构建的模型，AUC=0.85。在全数据集中准确性达88%，在TCIA数据集准确性达到77.6%，在Messina 数据集中准确性达到83.3% 。

test-retest算法构建模型的优势

作者开发了两个预测模型，一个包含性别和吸烟情况及未经过retest的104个影像组学特征，另一个是包含性别和吸烟情况经过retest的42个影像组学特征，从而对比有无retest算法的模型的差别。

图片12.png

图片13.png

结果显示：未经过retest所构建的模型，预测性能显示如下：在内部队列中，21名 EGFR 突变患者中的5名(23.81%)和88名 EGFR-WT 患者中的85名(96.59%)被正确鉴定;

在 TCIA 数据集中，19名 EGFR 突变患者中的6名(31.58%)和30名 EGFR-WT 患者中的28名(93.33%)被正确鉴定;

在 Messina 数据集中，5名 EGFR 突变患者中的2名(40.00%)和7名 EGFR-WT 患者中的7名(100%)被正确鉴定。

对比可发现，经过test-retest算法所构建的模型，敏感性和准确性得到了显著提升。

突变特异性和T790M亚群分析

背景：目前诊断EGFR突变的实验意见达到了很高的灵敏度和精度，通过ddPCR检测对于常见的EGFR-敏感性相关突变的检测限制仅为0.05%（外显子19缺失和外显子21点突变），以及0.1%（外显子20上的 T790M）——目前关注是能否运用影像组学特征分析突变特征，从而利用CT影像区分EGFR TKIs治疗抵抗的患者。

分析结果：将机器学习算法用于EGFR-MT亚组时，发现不同EGFR突变之间无统计学差异（外显子19 vs. 外显子21）。

在TKI治疗期间，与未发生T790M突变的患者相比，发生T790M耐药突变的患者在17个影像组学特征中表现出显著性。

优点

本文作者选用非小细胞肺癌EGFR突变这一切入点，利用test-retest算法筛选影像组学变量，具有显著的创新性，并且模型的预测能力显著优于既往研究。

① 聚焦EGFR突变状态，切入点创新。

② test-retest算法的应用：本文首次利用test-retest算法筛选患者CT图像的影像组学特征，从而克服图像特征的不稳定性。

② 多数据集验证：选择了TCIA和Messina两个外部数据集进行验证。

③ 融合影像组学的明星特征+临床病理特征进行模型构建。

④ 模型的诊断能力相比既往研究有较大提升。

局限性

① EGFR突变患者数量少，数据集纳排标准严格，限制了模型的诊断能力。

② 不能区分具体突变，如外显子19或外显子21。

③ 本文纳入患者与吸烟有关的数据部分不完整，可能会影响模型的诊断能力。

④ 模型结果特异性（正确识别 EGFR-WT 患者的能力）强，但敏感性（正确识别 EGFR 突变患者的能力）依旧不够理想。

04 表明影像组学的牛逼，并且告诉大家这个研究是实实在在可以实现的

本研究100多例，单中心的数据，发到一区的Cancer Research，实名羡慕；作者本文的创新主要体现在切入点的选择和影像组学特征筛选两部分，一方面选择了非常具有临床意义的EGFR突变的切入点，解决该问题对于指导临床治疗具有显著意义。另一方面作者利用Test-retest算法选择特征，结合临床因素构建诊断模型，从而减少 CT 扫描背景噪声的影响，并最终提高影像组学算法的准确性。

如果有类似的研究问题，也可以模仿本文的研究方法，在“特征筛选”上下功夫，并对筛选先后的模型进行比较，突出模型的优秀之处。

结语

好啦，本期的文献分享到这里，对于追求1区的小伙伴是不是又一次的冲击呢？继续跟紧君莲数据库的平鑫而论专栏，我们下期见吧~~

参考文献

[1] Rossi, Giovanni et al. “Radiomic Detection of EGFR Mutations in NSCLC.” Cancer research vol. 81,3 (2021): 724-731. doi:10.1158/0008-5472.CAN-20-0999

[2] van Timmeren, J.E.; Leijenaar, R.T.H.; van Elmpt, W.; Wang, J.; Zhang, Z.; Dekker, A.; Lambin, P. Test–Retest Data for Radiomics Feature Stability Analysis: Generalizable or Study-Specific? Tomography 2016, 2, 361-365. https://doi.org/10.18383/j.tom.2016.00208