只有83例患者的病理组学研究竟然发到nature大子刊!
研究共包含三个队列:
队列一:2014年12月-2019年12月在北京清华长庚医院(QHCG)进行局部肝切除术并诊断为肝细胞癌的患者
队列二:TCGA数据集中有生存信息的肝细胞癌患者
队列三:Pathology AI Platform 2019 challenge (PAIP)数据集中病理诊断为肝细胞癌的患者
具体分配如下:
1)组织分割模型:来自清华长庚医院(QHCG)的151张没有患者生存信息的WSI[训练集];Pathology AI Platform 2019 challenge (PAIP)数据集的100张没有患者生存信息的WSI[外部验证集];以及2)中的WSI作为内部&外部验证集。
2)预后预测模型:清华长庚(QHCG)医院接受手术治疗,并有生存信息的肝细胞癌患者(83例)[外部验证集];TCGA队列,有生存信息的肝细胞癌患者(330例)[训练集+测试集]。
利用ResNeXt50框架构建基于病理组学的组织分割与预后预测模型
总生存期(Overall survival,OS)
回顾性队列研究,预后预测类型
H&E染色病理切片
利用深度学习建立肝癌组织病理学分割模型,基于分割模型建立预后预测模型,预测肝癌患者的总生存期(OS),并挖掘与预后相关的组织病理形态学生物标志物
预测变量(X):病理组学signature
结局变量(Y):总生存期(OS)
协变量(Z):肿瘤分期、肿瘤浸润淋巴细胞、卫星灶、甲胎蛋白(AFP)、胆道栓塞、肿瘤数目、肿瘤大小、微血管侵犯
临床问题:肝癌是最为常见和致命的恶性肿瘤之一,5年生存率在不同人群中差异很大,平均存活率低于32%。HCC的高度异质性与复杂的致病因素,使得预后预测非常具有挑战性。此外,HCC的治疗策略非常有限,因此迫切需要准确的预后预测工具指导精准治疗。组织病理学生物标志物对于癌症诊断、预后评估和治疗计划至关重要 。
本文解决方式:因此,本文提出了一种可解释的、基于深度学习的预后预测框架,帮助病理学家从良好的深度学习模型中发现新的组织生物标志物
a)建立组织分割模型PaSegNet,生成八类组织分割热图
b)使用组织分割热图建立MacroNet模型,生成预后风险评分Risk Score(RS)
c)使用归因方法显示对预后贡献大的区域,分析与分割图重叠区域,发现相关生物标志物
d)单因素、多因素cox回归验证生物标志物的预后预测能力
第一部分:文章方法部分解读
QHCG队列:
纳入标准:
①局部肝切除术
②病理诊断为肝细胞癌
排除标准:
①术前放、化疗、栓塞治疗、射频消融史
②局部肝切除史
③术前未测甲胎蛋白(AFP)
④切片质量差
第二部分:PICOS原则梳理
诊断标准:病理诊断;
病理检查时间点:术后;
第三部分:纳排及分组结果
本研究一个纳入三个队列,建立组织分割模型与预后预测模型。
从RAIP队列纳入100张无生存信息的WSIs;从QHCG队列纳入151张无生存信息的WSIs与1182张(151位患者)有生存信息的WSIs;从TCGA队列纳入342张(330位患者)有生存信息的WSIs。研究者使用所有切片进行组织分割模型(PaSegNet)的训练与测试,使用有生存信息的患者进行预后模型(Micro mode与Macro mode)的训练与测试。
临床上通常会对患者的肿瘤进行多点取材制片。由于微观模式受采样位置的影响不大,因此在微观模式上训练的预后DL模型很少讨论患者具有多个WSIs的情况。但是,不同的采样位置会造成宏观模式的巨大差异,因此如何从一个病人的多个WSI中选择具有代表性的WSI成为应用宏观指标进行临床预后不可回避的问题。
作者团队进行了10000次模拟,比较了随机抽样建模与使用最大肿瘤占比WSI建模的预测准确度
如图,使用每个患者肿瘤占比最大的切片进行模型训练的预测准确度超过94%的随机抽样建模,因此,最终选择每个患者肿瘤占比最大的切片作为代表性切片纳入预后预测模型。
所有H&E切片图像由在×20放大倍数下直接处理,以获得如上所述的代表性图像
传统WSI病理注释方法通常注释特定组织的轮廓,例如肿瘤边界。
传统注释方法的缺点:
基于上述原因,作者提出了“meta-annotation(元注解)”的注释方式,具体步骤如下:
01
对于需要注释的WSI,病理学家采用矩形框注释典型区域,降低注释难度。例如,对于占比较大的肿瘤或正常区域,病理学家只标注内部区域的一小部分,在多个空间区域进行采样,以确保数据的高多样性和低相似性。对于占比很小的组织类型,如炎症和胆管反应,病理学家尽可能多地用矩形框注释所有区域,以保证类平衡。注释的内容包括:TUM,肿瘤;NOR,正常;FIB,纤维化;INF,炎症;NEC,坏死;REA,胆管反应;STE,脂肪变性;EMP,空。
02
在注解后的矩形框的基础上自动提取非重叠的150×150像素的patch。尽管在注释过程中类不平衡的影响已经被最小化,但TUM和NOR仍然比REA和INF多得多。为了克服这一问题,在自动提取过程中,规定TUM和NOR类在一个WSI中最多提取100个patch,其他类提取所有注释区域的所有patch。
03
对提取的数据集进行重采样,以达到更好的类平衡,形成最终的元注解训练集。
使用上述注释作为标签,建立了组织分割模型,PaSegNet。
首先使用OTSU方法去除背景,将无背景区域再20×的放大倍数下分割为 150 × 150的patch(图像块),并记录下所有patch的位置。使用PaSegNet fseg,一种在ImageNet48上预训练的基于resnext50的多类分类卷积神经网络,将输入的patch I(I, j)∈ℝ150×150×3编码为概率向量p (I, j)∈ℝ8,其中(I, j)为patch I的位置,pt为patch I在8个组织类中属于t类的概率。
将八种组织类型的概率热图作为八个通道输入Resnext50中,构建宏观模型macro mode。通过深度学习提取2048维特征向量,通过全连接层、批标准化(Batch Normalization)和ReLU激活层,将特征降维至32维,最终生成预后风险评分RS(risk score)。以患者的总生存期OS作为标签值(ground truth),通过梯度下降最小化损失函数,训练预后预测模型。
在20倍放大率下,随机提取肿瘤区域的16个512 × 512 pixel 的RGB图像,以上述同样方式,构建微观模型micro mode。同时构建宏观+微观的M2M mode。
本文实验的所有代码和脚本都可以在https://github.com/Biooptics2021/PathFinder找到。
作者使用了Saliency Maps——一种归因方法(attribution),进行深度学习的可视化。
补充:Saliency Maps简单来说可以理解为是用来做模型的解释,可以用来知道哪些变量对于模型来说是重要的。也可以理解为特征图,可以告诉我们图像中的像素点对图像分类结果的影响。
(attribution map,对结果贡献越大透明度越高)
然后将生成的显著图中前30%值对应的透明度线性增加,并将显著图与相应的分割图重叠,发现可能的预后标志物。
使用混淆矩阵和ROC曲线评估组织分类模型性能,PaSegNet在QHCG、TCGA和PAIP测试集上的宏平均精度分别为0.948、0.956和0.941,AUC分别为0.9980、0.9984和0.9974。
补充:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。在图像精度评价中,通过比较将每个实测像元的位置和分类与分类图像中的相应位置和分类计算图像分类精度。对于多分类问题,或者在二分类问题中,我们有时候会有多组混淆矩阵,例如:多次训练或者在多个数据集上训练的结果,那么估算全局性能的方法有3种,分为宏平均(macro-average)、微平均(micro-average)和加权平均(Weighted-Average)。
MacroNet | MicroNet | M2MNet | |
C指数 | 0.708 | 0.717 | 0.787 |
生存AUC | 0.732 | 0.729 | 0.832 |
MacroNet | MicroNet | M2MNet | |
C指数 | 0.754 | 0.695 | 0.652 |
生存AUC | 0.796 | 0.666 | 0.733 |
为了解释为什么MacroNet可以实现高性能的预测,并探索哪些宏观特征有助于风险评分,作者从全局和个例的角度进行了综合分析。
从全局角度统计了高风险评分和低风险评分患者的组织占比差异,发现高危评分组的坏死占比明显更高,并观察到坏死发生在每一个高风险WSI,但不是在所有低风险WSI。
从个例的角度来看,使用归因方法以二维热图的形式定位MacroNet关注的区域,并将结果与分割图重叠,发现对风险评分贡献率高的区域几乎是坏死和其他组织的交界处
这些发现提示,坏死的空间分布可能与HCC预后有很强的关系。
因此,作者提出了两个新的生物标志物的假设,即坏死面积分数(NEC)和肿瘤坏死分布(TND),分别表示坏死部分占WSI比例以及肿瘤和坏死之间的空间分布和相互作用。
K-M分析显示NEC和TND可以在TCGA和QHCG数据集上显著区分高风险和低风险组。
单因素和多因素分析显示NEC(QHCG: HR4.66,95% CI 1.77 ~ 12.28,P = 0.0019; TCGA: HR 1.80,95% CI 1.13 ~ 2.87,P = 0.0133)和TND(QHCG:HR 6.67,95% CI 2.36~18.85,P = 0.0003;TCGA: HR 3.00,95%CI 1.56~5.74,P = 0.0009)对OS有独立显著影响,而且比大多数临床指标(包括TIL)更显著。
此外,NEC(HR 3.31,95%CI 1.73至6.30,P = 0.0003)和TND(HR 2.92,95%CI 1.52至5.60,P = 0.0012)对复发也有独立显著影响
结合其他临床病理因素,NEC和TND的C-指数可进一步提高至0.831和0.845,表明这两个指标在临床预后预测中的巨大价值。
总之,上述结果证实了坏死的空间分布可以作为预后的新生物标志物。
本文基于肝癌的H&E图像,建立了深度学习组织分割模型与预后预测模型,使用可视化的方式发现与肝癌预后相关的形态学生物标志物——坏死面积分数与肿瘤坏死分布。
文章套路梳理如下:
By: kiki
优点:
这篇文章的套路并不复杂,是经典的组织分割+预后预测模型。是什么让它在2023年还能发到nature machine intelligence呢?我认为原因有以下几点:
◆ 独特新颖的注释方式,以小注释量达到了高分割精度。给我们的启示是,注释不一定以量取胜,关键在于覆盖多种多样的组织形态以及不同组织类型之间的平衡性。
◆ 选择最大肿瘤面积分数的切片作为代表性切片。以往其他文章对代表性切片的选择往往一笔带过,这篇文章不仅进行了详细的描述,还进行了多达10000次的随机抽样训练与其进行对比,证明这种代表性切片选择方式的合理性与优越性。
◆ 建立了宏观模型、微观模型及宏观微观结合的预后预测模型,通过比较证明宏观模型的泛化性能更好。
◆ 使用可视化的方式对深度学习模型进行了解释。
◆ 利用可视化的方式挖掘与预后相关的形态学生物标志物,指导临床预后评估。目前,由于深度学习的“黑盒”性质,完全依赖深度学习指导临床决策并不现实,但利用深度学习挖掘可解释的生物标志物,对临床实践有很大的意义。
局限性:
✦ 深度学习模型的性能在很大程度上取决于训练集的大小和质量,本文使用TCGA(n=330)作为训练集和内部测试集,QHCG(n = 83)作为外部验证集,仍需要扩展训练数据来提高模型的准确性和泛化性;
✦ 对样本的质量描述也是决定文章质量的重要环节,但是本文对于患者的纳入排除标准和扫描仪情况未行具体描述,数据获取,模型cut-off值的选择还应该做更加详细的描述。
总之,这篇文章从预后模型出发,提出新的形态学标志物的思路很值得借鉴。深度学习已经成为大势所趋,如何提高深度学习的可解释性、可靠性,将成为推动深度学习临床实践进程的必经之路。
好啦,本期的文献分享到这里。继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~
END
2023-05-31
2023-05-30
2023-05-25
微信扫码关注该文公众号作者