影像组学，单细胞首次合作！AUC=0.7能发20分+？

公众号新闻

2023-09-28 08:09

一、整体感知

1.题目要素拆解

预测变量：CT影像-基因组学融合得到的特征向量LCI-RPV

结局：治疗反应以及肺毒性

研究对象： 接受PD-1/PD-L1免疫治疗的非小细胞肺癌（NSCLC）患者

2.文章基本信息

3.核心要素

研究对象（P）：NSCLC患者共194例

预后模型（I/C）：基于CT全瘤、瘤周2mm和肺实质的影像组学特征，以及kVp，以标准化的CD274计数作为响应向量，使用弹性网络正则化线性回归进行建模

结局指标（O）： ICHNT队列（n=66），预测PD - L1表达、近期疗效（3个月肿瘤治疗反应CR或PR）以及毒性（治疗后肺炎）、远期疗效（治疗后3年总生存期）；LCWES队列（n=43），预测PD - L1表达和远期疗效（治疗后3年总生存期）

研究类型（S）：回顾性队列研究，诊断及预后预测类型

研究目的：开发一种新型的、非侵入性的、影像-基因组学复合生物标志物LCI-RPV，仅使用CT数据来指导NSCLC患者的临床决策（PD-1/PD-L1抑制剂的使用）。

4.变量分析

预测变量（X）：CT影像组学特征

结局变量（Y）：PD - L1阳性、PD - L1高表达、3年总生存期、3个月肿瘤治疗反应、免疫治疗后肺炎

协变量（Z）：组织学特征：包括组织学亚型(鳞癌或腺癌)，角化（如果是鳞状细胞癌），肿瘤原发生长方式（如果是腺癌），淋巴血管侵犯，肿瘤坏死和炎性浸润；影像征象：包括周围磨玻璃、边缘毛刺、中心坏死、血管侵犯或癌性淋巴管炎

5.研究背景

临床问题：目前，NSCLC患者是根据肿瘤组织样本的程序性细胞死亡受体配体1 ( PD-L1 )免疫组化染色结果来指导免疫检查点抑制剂的选择，但这种方法容易受到癌细胞的动态性、异质性以及组织采样过程中创伤性的影响。

目前方法不足：PD - L1的表达具有动态性，目前采用免疫组化染色百分比作为阳性阈值被认为过于简单，进而影响由PD-L1指导的治疗决策。

本文解决方式：以PD - L1的蛋白编码基因CD274作为响应变量，建立一个新的基于CT的影像-基因组学特征标志物LCI-RPV，预测NSCLC患者接受免疫治疗的结局。

二、模型构建

1.workflow展示

我们先来看一下流程图：

（1）模型建立

①实验队列，取自公告数据库，并划分为训练集和内部验证集

②图像VOI分割和预处理

③影像组学特征提取

④影像组学特征筛选（加上KVp，进行弹性网络正则化线性回归）

⑤以标准化的CD274计数作为响应向量建模，进行内部验证，生成标签LCI-RPV

（2）模型测试（2个独立外部测试集）

①　ICHNT队列（n=66），预测PD - L1阳性、PD - L1高表达、治疗后3年总生存期、3个月肿瘤反应和肺炎发生

②　LCWES队列（n=43），预测PD - L1阳性和治疗后3年总生存期

2.纳入排除标准建立

第一部分：文章方法部分解读

纳入标准

①实验队列来自5个公共数据集（包括TCIA、CPTAC-LSCC、CPTAC-LUAD:、TCGA-LUSC和CGA-LUAD），病理诊断为NSCLC，包含完整的增强CT图像和RNA测序数据

②外部测试集1 ICHNT，诊断为NSCLC，行PD-1/PD-L1免疫治疗（回顾性纳入，自2018.8到2019.12）

③外部测试集2 LCWES，诊断为NSCLC，行PD-1/PD-L1免疫治疗（回顾性纳入，自2014.2到2018.8），与ICHNT来自同一机构

注：TCIA: The Cancer Imaging Archive; CPTAC-LSCC: Clinical Proteomic Tumor Analysis Consortium squamous cell carcinoma; CPTAC-LUAD: adenocarcinoma; TCGA-LUSC: The Cancer Genome Atlas Program squamous cell carcinoma; TCGA-LUAD: adenocarcinoma datasets.

排除标准

①临床数据缺乏

②肿瘤轴位增强CT图像层厚超过3mm

第二部分：PICOS原则梳理

P：

年龄：实验队列年龄70.0±19.1岁，外部测试队列1年龄67.4±9.4岁，外部测试队列2年龄66.0±9.5岁

性别：实验队列男：女=54：31，外部测试队列1男：女=43：23，外部测试队列2男：女=23：20

疾病状态：NSCLC

治疗方案：免疫治疗

诊断标准：病理诊断

I/C：

影像设备：CT（外部测试集1 ICHNT：Siemens Definition AS+和Philips Ingenuity；外部测试集2 LCWES：Siemens Definition AS+）

扫描序列：门静脉期（或肺动脉期）

靶区：①肿瘤全瘤；②瘤周2mm；③背景肺实质（直径10mm的球形）

影像检查时间点：①治疗前2个月内；②治疗后3个月和6个月

层厚：1mm到3mm

对比剂：未提及

O：

PD - L1阳性、PD - L1高表达、3年总生存期、3个月肿瘤治疗反应、免疫治疗后肺炎

第三部分：纳排及分组结果

最终，共回顾性纳入194例，包括85例实验队列，66例外部测试队列1，43例外部测试队列2。

3.图像分割（+图像预处理）

靶区的勾画由两名分别具有7年和13年胸部影像诊断经验的放射科医生在不知道临床数据和病理结果的情况下，在纵隔窗（窗宽350Hu，窗位40Hu）和肺窗（窗宽1500Hu，窗位600Hu），使用3DSlicer 4.13.0 在门静脉期（或肺动脉期）勾画肿瘤全瘤、瘤周2mm环形区域和背景肺实质。背景肺实质定义为病灶所在肺叶（或相邻肺叶，没有气性部分）中直径为10mm的球形区域。

4. 特征提取（+数据预处理）

数据预处理：在靶区勾画后，对成像数据进行预处理，确保体素大小一致为1×1×2 mm

特征提取

工具：TexLab 2.0（基于Matlab 2020b）

特征类型：每个区域666个影像组学特征，3个靶区共1998个影像组学特征，包括肿瘤图像的强度、形状和纹理有关的特征

特征标准化：将影像组学特征以0为平均值、1为标准差进行标准化

5.特征选择

特征的一致性评价

肿瘤勾画的观察者间一致性Dice相似性系数为91%。观察者间影像组学特征的可重复性以双向随机模型为基础计算组内相关系数（ICC）来评估。

特征筛选

① 1647个影像组学特征的ICC≥0.8，被认为具有可重复性，纳入后续的模型开发中。

② 以标准化的CD274计数作为响应向量（response vector，相当于因变量），应用逐步线性回归，以错误发现率（FDR）为5 %，保留最显著的特征。

③ 筛选出的影像组学特征加上峰值千伏电压( kVp )进行弹性网络正则化线性回归。

筛选出的影像组学特征如下系统发育树所示。特征根据区域进行分层展示，增强响应向量LCI-RPV的可解释性。

注：（1）FDR (false discovery rate)，中文一般译作错误发现率。本文对影像组学特征进行统计分析以确定其与CD274之间的相关性时，进行了多次统计检验，进而产生假阳性结果，导致没有判别能力的特征在统计学上也表现具有显著性差异（每进行一次检验，都有某个固定的概率产生假阳性错误（通常是5%））。本文应用FDR用于控制线性回归筛选影像组学特征的假阳性结果比例。FDR的计算是根据假设检验的P-value进行校正而得到的。^[1]

（2）正则化是一种常用的针对过拟合的处理方式。在线性回归模型中，有两种不同的正则化项，L1和L2。Elastic Net正则化是将 L1 和 L2 正则化同时应用于线性回归的损失函数。^[2.3]

6.模型建立

影像组学模型建立：模型在实验队列的训练集(n=62)上进行训练。

将与CD274预测最相关的15个影像组学特征的加权求和，作为一个复合影像-基因组学标签，即肺癌免疫治疗-影像组学预测向量（LCI-RPV, lung cancer immunotherapy—radiomics prediction vector)。在开发过程中，模型在实验队列的内部验证集( n=23)上进行了验证。

亚组分析：为了探讨LCI - RPV在特定临床情况下的适应性，在ICHNT队列中，根据免疫检查点抑制剂治疗(PD - 1或PD - L1)的类别，以及先前是否接受放疗进行分层。以LCI - RPV通过k-means聚类将患者分为高风险预后组和低风险预后组。

基因富集分析和单细胞RNA测序：使用Spearman相关分析对LCI - RPV与GSE103584数据集的全转录组进行相关性分析，根据相关系数对基因进行排序，用于预排序基因集富集分析。Hallmark数据库用于识别与LCI - RPV相关的富集细胞通路。随后使用单细胞RNA测序鉴定与LCI - RPV强相关基因的细胞群体。

三、模型评价

采用ROC-AUC分析，对模型预测PD - L1阳性( 1 % )、PD - L1高表达( ≥50 %和≥90 %)、3个月治疗反应和肺炎发生进行外部检验。

1. 预测模型的评价

图4A和图4B分别展示ICHNT队列和LCWES队列中LCI-RPV预测PD-L1表达的ROC曲线

结果显示：在两个测试队列中，LCI - RPV对PD - L1表达阳性均有较好的预测价值。ICHNT和LCWES预测PD - L1表达阳性的AUC分别为 0.70[0.57 ~ 0.84]和 0.70[0.46 ~ 0.94]。在ICHNT队列中，LCI - RPV对PD - L1高表达病例( > 50 % : AUC =0.72 , 95 % CI : 0.59-0.85 ; > 90 % : AUC =0.66 , 95 % CI : 0.45-0.88)也有较好的预测能力。

图4C和图4D分别展示在ICHNT队列中LCI-RPV预测3个月时的治疗反应和治疗开始后肺炎发生的ROC曲线

结果显示：在ICHNT队列中，LCI-RPV预测3个月时肿瘤的治疗反应的AUC为0.68[0.52 ~ 0.85]和肺炎发生AUC为0.64 [0.48 ~ 0.80]。但在预测肺炎发生中，95 % CI范围0.48 ~ 0.80包括了机会阈值0.50 。

2. 亚组分析结果

补充表格S1中显示了亚组分析的结果

结果显示：LCI - RPV在未经放疗的病例中对3个月肿瘤治疗反应( AUC为0.74 , 95 % CI : 0.540 ~ 0.94)和在PD - L1抑制剂治疗后导致的肿瘤免疫治疗相关性肺炎( AUC为0.74 , 95 % CI : 0.53 ~ 0.95)具有优异的预测能力。相比之下，有放疗史的患者3个月疗效预测的AUC =0.55[0.27 ~ 0.74]。

图4E和图4F分别显示ICHNT队列和LCWES队列的患者高危组和低危组的从治疗开始的3年总生存率

结果显示：根据LCI - RPV将患者分为高危组和低危组，在ICHNT队列(HR=2.26 , 95 % CI : 1.21-4.24 , p=0.011)与LCWES队列（HR=2.45 , 95 % CI : 1.07-5.65 , p =0.035)中差异具有统计学意义。

图S4-S5显示了根据对治疗有无免疫应答进行分组，对LCI-RPV 与组织病理分类与特征（S4）和CT影像征象（S5）进行相关性分析结果

结果显示：在所有的存在免疫应答的病例中均在HE切片中没有观察到脉管癌栓，以及CT上均未显示血管侵犯或淋巴管炎。所有征象在分组间均没有统计学差异。

图5A和图5B分别显示在LCI - RPV - high肿瘤中与组织缺氧（红）或炎症（绿）正相关和负相关的细胞通路

结果显示：条形图按其标准化后富集得分（NES，normalized enrichment score）排序，展示与LCI - RPV最正相关（A）和最负相关（B）的通路。其中最正相关的通路是与炎症(红色)或缺氧相关(绿色)，这一发现与免疫生物学的认识一致，即有治疗反应的肿瘤倾向于通过上调炎症产生持续的免疫反应。

图5C-F展示了单细胞RNA测序的分析结果

结果显示：在t 分布随机邻域嵌入（t-SNE）分析中，T细胞和髓系细胞代表了最大的聚类（图5C）。RECOL、MAFB、SPI1和FCGR3A是与LCIRPV相关性最高的基因（图5D），且这4个基因均在髓系细胞中高表达（图5E），其中MAFB和SPI1几乎只在该髓系细胞中表达，而RECOL和FCGR3A在T细胞中也是高表达（图5F）。

2. 生物学意义

本研究仅基于肺部CT图像构建出全新的影像-基因组学复合生物标志物来预测PD-L1的表达以及预后指标。影像组学特征来源于3个VOI，即全瘤、瘤周2mm和肺实质。其中来自瘤周的影像组学特征GLSZM SzoneLoGI_HHL_25HUgl具有最大的权重。GLSZM（gray-level size zone matrix）可量化灰度区域或图像中灰度强度相同的连接体素数量，故该影像组学特征说明瘤周图像中存在许多低灰度强度的小区域，相当于病灶周围区域存在炎症改变。

免疫治疗后肺炎的发病机制目前仍不明确，临床上通常由自发性自身免疫或特发性炎症条件进行推断。本研究的统计结果显示，在所有的存在免疫应答的病例中，在组织病理学上均未查见脉管癌栓，以及CT图像上均未显示血管侵犯或淋巴管炎，说明CT影像征象在一定程度上可以推测有无发生免疫应答。此外，单细胞 RNA测序的结果显示髓系细胞是参与免疫反应的主要细胞类型，其表达与LCI - RPV高度相关的基因，说明髓系细胞和T细胞中的基因表达可能与LCI-RPV有关，髓系细胞的定位和丰度可能有助于影像组学预测向量的确立，进一步说明LCI-RPV对于特定人群接受抗PD-L1治疗免疫应答的预测作用。

四、全文总结

本文开发了一种新的、非侵入性的仅基于肺部的门静脉期CT图像构建出的影像-基因组学复合生物标志物LCI-RPV，发现其在预测PD - L1阳性、3个月肿瘤治疗反应和治疗后肺炎发生方面具有良好的性能，具有指导临床决策的意义与潜在作用。此外，本研究还结合了GSEA和单细胞RNA测序，为理解PD-1/PD-L1通路抑制提供了新的见解。

这是一篇于2023年7月刚发表于Journal of Thoracic Oncology上的文章。JTO是医学1区TOP期刊，特别是在今年众多期刊均出现影响因子的回落，其影响因子依然上涨，刊载的文章质量都是有相当保证的。这篇文章研究思路新颖清晰，流程完整，让我们看看它的亮点：

①临床问题：本研究选择的预后结局新颖且具有临床意义和价值。免疫治疗相关性肺炎是一种在使用免疫检查点抑制剂患者中发生率高达5%-20%且可危及生命的并发症^[4]，目前尚没有明确的机制和可靠的预测因子，本研究开发的LCI-RPV为免疫治疗相关性肺炎提供了一种可能的预测工具；

②结局设置：不仅有免疫治疗相关性肺炎，本研究还对其他多个预后结局进行分析和探讨（相当于多任务学习，当多个任务共享一定的底层结构或信息时，学习一个任务可以帮助提高另一个任务的性能，即可以提高学习参数的准确性），在预后分层中具有一定的应用价值，可以指导和促进个性化癌症护理；

③实验设计：在样本的纳入方面，本研究基于公共数据集进行模型开发和内部验证，并应用具有异质性（多个扫描仪、多个中心、不同的对比相）的外部测试集进行模型测试，相较于其他的单中心甚至多中心研究的模型更具泛化性、推广性和鲁棒性——从样本拓展到实验设计，现在的高分文章实验设计四个队列交叉验证，多个结局快变成必需品了；

④单细胞分析：本文创新性地结合利用GSEA和单细胞RNA测序，对免疫应答的具体人群进行了划分（可能识别预先存在T细胞自身反应的一部分患者），建立影像组学-病理学相关性，为理解PD - 1或PD - L1通路抑制的潜在免疫生物学提供了新的见解；

⑤考虑到临床实践中对比剂的使用，包括注射速率、注射量，以及扫描延迟时间均受患者个体因素影响，本研究选择适当的CT增强期相进行建模，使得后续不受对比剂细节的影响；

⑥生物学意义：本研究还对组织病理分类和CT影像征象进行亚组分析，虽然所有病理、影像学的征象在统计学上均未显示组间差异，但是发现在所有的存在免疫应答的病例中，组织学上均未见脉管癌栓，以及CT上均未显示血管侵犯或淋巴管炎，为CT影像征象与病理学特征存在一定程度的相关性以及提示有无免疫应答提供了新的依据；

⑦ 细节方法的运用：例如引入kVp进行标准化，FDR排除假阳性结果，多个层面分层进行亚组分析（PD-1/PD-L1、是否进行放疗），使得研究更加深入，结果更具科学性和可解释性；应用系统发育树来展示影像组学特征层级，使读者对本文新提出的LCI-RPV有更具体和直观的理解。

当然这篇文章也存在一些局限性：

①本研究的样本量较小，导致分析范围和力度受限；

②本研究为回顾性研究，具有选择偏倚，且训练数据的多来源会导致数据不平衡，外部测试数据的规模有限，仍需进一步外部验证；

最后作者提出未来可以继续行更长时间的随访、预测其他具有临床意义的不良事件，如结肠炎、甲状腺炎、肿瘤超进展（tumor hyperprogression）、结节病样反应（sarcoid-like reaction）等。当然，部分不良事件发生率较低，故需要相当大样本量的数据集。此外，本研究仅纳入了CT增强图像数据进行建模，后续可纳入患者的临床数据或代谢成像数据，做进一步研究。

本研究在我们熟悉的CT影像组学的基础上还结合了GSEA和单细胞RNA测序，共同构建出全新的影像-基因组学复合生物标志物来预测PD-L1的表达以及预后指标，并对PD-L1通路及其相关的临床表现做出基于基因和细胞通路层面的分析，具有创新性和缜密的科学可解释性，同时还纳入的多个公共数据集和多中心的临床数据，使模型更具泛化性和鲁棒性。该文章研究设计新颖、逻辑思路清晰、流程详细完整，是一篇很值得我们借鉴和参考的文章！

好啦，本期的文献分享就到这里啦！多组学联合是目前炙手可热的研究分析利器，本文就很好地证明了影像组学和其他组学的联合应用还是有很大的潜力和可能性！继续跟紧君莲数据库的平鑫而论专栏，我们下期再见~~

参考文献

[1] https://www.plob.org/article/13796.html

[2] https://cloud.tencent.com/developer/article/1556213

[3] https://zhuanlan.zhihu.com/p/422372647

[4] Fessas P, Possamai L A, Clark J, et al. Immunotoxicity from checkpoint inhibitor therapy: clinical features and underlying mechanisms[J]. Immunology, 2020, 159(2): 167-177.

END

撰文丨小戴

审核丨鑫仔

排版丨阿洛

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章