Redian新闻
>
只有83例患者的病理组学研究竟然发到nature大子刊!

只有83例患者的病理组学研究竟然发到nature大子刊!

公众号新闻

         

本篇文献于2023年发表于nature machine intelligence(IF=25.898/Q1)上,题为 “Deep learning orted discovery of biomarkers for clinical prognosis of liver cancer”。
          
PART 01

整体感知

01


题目要素拆解

文章题目提供了三条信息:
1)预测变量:病理组学生物标志物
2)结局:远期疗效
3)研究对象:肝癌患者
         
02


文章基本信息


杂志
nature machine intelligence
分区
Q1
IF
25.898
发表时间
2023.4.03
03


核心要素

研究对象(P):

研究共包含三个队列:

队列一:2014年12月-2019年12月在北京清华长庚医院(QHCG)进行局部肝切除术并诊断为肝细胞癌的患者

队列二:TCGA数据集中有生存信息的肝细胞癌患者

队列三:Pathology AI Platform 2019 challenge (PAIP)数据集中病理诊断为肝细胞癌的患者


具体分配如下:

1)组织分割模型:来自清华长庚医院(QHCG)的151张没有患者生存信息的WSI[训练集];Pathology AI Platform 2019 challenge (PAIP)数据集的100张没有患者生存信息的WSI[外部验证集];以及2)中的WSI作为内部&外部验证集。

2)预后预测模型:清华长庚(QHCG)医院接受手术治疗,并有生存信息的肝细胞癌患者(83例)[外部验证集];TCGA队列,有生存信息的肝细胞癌患者(330例)[训练集+测试集]。


预测模型(I/C):

利用ResNeXt50框架构建基于病理组学的组织分割与预后预测模型


结局指标(O):

总生存期(Overall survival,OS)


研究类型(S):

回顾性队列研究,预后预测类型


图像种类:

H&E染色病理切片


研究目的:

利用深度学习建立肝癌组织病理学分割模型,基于分割模型建立预后预测模型,预测肝癌患者的总生存期(OS),并挖掘与预后相关的组织病理形态学生物标志物

04


变量分析

预测变量(X):病理组学signature

结局变量(Y):总生存期(OS)

协变量(Z):肿瘤分期、肿瘤浸润淋巴细胞、卫星灶、甲胎蛋白(AFP)、胆道栓塞、肿瘤数目、肿瘤大小、微血管侵犯

05


研究背景

临床问题:肝癌是最为常见和致命的恶性肿瘤之一,5年生存率在不同人群中差异很大,平均存活率低于32%。HCC的高度异质性与复杂的致病因素,使得预后预测非常具有挑战性。此外,HCC的治疗策略非常有限,因此迫切需要准确的预后预测工具指导精准治疗。组织病理学生物标志物对于癌症诊断、预后评估和治疗计划至关重要 。

目前方法不足:具有真正的分析和临床价值的生物标志物很少。基于深度学习(DL)的计算病理学可以作为一种预测生存的策略,但有限的可解释性和泛化性阻碍了其用于临床实践。

本文解决方式:因此,本文提出了一种可解释的、基于深度学习的预后预测框架,帮助病理学家从良好的深度学习模型中发现新的组织生物标志物

          
PART 02

模型构建

01


workflow展示


从流程图简单梳理本文的研究思路:



a)建立组织分割模型PaSegNet,生成八类组织分割热图



b)使用组织分割热图建立MacroNet模型,生成预后风险评分Risk Score(RS)



c)使用归因方法显示对预后贡献大的区域,分析与分割图重叠区域,发现相关生物标志物



d)单因素、多因素cox回归验证生物标志物的预后预测能力

         
02


纳入排除标准制定
         

第一部分:文章方法部分解读

QHCG队列:

纳入标准:

①局部肝切除术

②病理诊断为肝细胞癌

排除标准:

术前放、化疗、栓塞治疗、射频消融史

②局部肝切除史

③术前未测甲胎蛋白(AFP)

④切片质量差


TCGA队列:
纳入标准:
①病理诊断为肝细胞癌     
排除标准:
①切片质量差
②缺乏预后信息

第二部分:PICOS原则梳理


P:


年龄:不限制,本研究中患者中位年龄57岁,IQR为50-64岁;
性别:不限制;
疾病状态:未经术前放化疗、栓塞治疗、射频消融患者;
疾病分期:不限制,QHCG数据集中83%为AJCCⅢ期患者;TCGA数据集中49%为AJJJⅠ期患者,25%为AJJJⅡ期患者,24%为AJJJⅢ期患者;
治疗方案:接受局部

肝切除术;

诊断标准:病理诊断;

     



I/C:


标本类型:福尔马林固定石蜡包埋的组织样本FFPE;
病理切片染色:H&E染色;
切片扫描倍数:×20物镜;(没有找到扫描仪的说明)

病理检查时间点:术后;   

 

O:
远期疗效:OS

第三部分:纳排及分组结果

本研究一个纳入三个队列,建立组织分割模型与预后预测模型。

从RAIP队列纳入100张无生存信息的WSIs;从QHCG队列纳入151张无生存信息的WSIs与1182张(151位患者)有生存信息的WSIs;从TCGA队列纳入342张(330位患者)有生存信息的WSIs。研究者使用所有切片进行组织分割模型(PaSegNet)的训练与测试,使用有生存信息的患者进行预后模型(Micro mode与Macro mode)的训练与测试。

          
03


选择代表性切片
         

临床上通常会对患者的肿瘤进行多点取材制片。由于微观模式受采样位置的影响不大,因此在微观模式上训练的预后DL模型很少讨论患者具有多个WSIs的情况。但是,不同的采样位置会造成宏观模式的巨大差异,因此如何从一个病人的多个WSI中选择具有代表性的WSI成为应用宏观指标进行临床预后不可回避的问题。

作者团队进行了10000次模拟,比较了随机抽样建模与使用最大肿瘤占比WSI建模的预测准确度


如图,使用每个患者肿瘤占比最大的切片进行模型训练的预测准确度超过94%的随机抽样建模,因此,最终选择每个患者肿瘤占比最大的切片作为代表性切片纳入预后预测模型。

所有H&E切片图像由在×20放大倍数下直接处理,以获得如上所述的代表性图像

         
04


注释与组织分割
         

传统WSI病理注释方法通常注释特定组织的轮廓,例如肿瘤边界。

传统注释方法的缺点:

 边界复杂、规模庞大,注释WSIs费时费力。
 传统注释的组织边界内总是混杂其他难以通过注释排除的组织,一些区域完全由无法精确注释的多种组织类型混合在一起,这将把噪声标签数据引入训练集。
 WSI中不同类组织面积分数差异很大,如胆管反应组织占WSI组织面积的0.01%,而肿瘤组织占60%,这种不平衡的数据不利于机器学习训练。
 一个WSI中面积较大的组织类型在内容上总是相似的,会带来冗余数据。
机器学习期望的训练集是类平衡的,具有较高的多样性和较低的相似性。大多数分割任务都是先对patch进行分类,然后根据其空间分布将其拼接在一起,得到WSI的分割图。然而,从组织边界分割出的patch很难标注组织的分界点,也很难给出具体准确的标记。


基于上述原因,作者提出了“meta-annotation(元注解)”的注释方式,具体步骤如下:



01

对于需要注释的WSI,病理学家采用矩形框注释典型区域,降低注释难度。例如,对于占比较大的肿瘤或正常区域,病理学家只标注内部区域的一小部分,在多个空间区域进行采样,以确保数据的高多样性和低相似性。对于占比很小的组织类型,如炎症和胆管反应,病理学家尽可能多地用矩形框注释所有区域,以保证类平衡。注释的内容包括:TUM,肿瘤;NOR,正常;FIB,纤维化;INF,炎症;NEC,坏死;REA,胆管反应;STE,脂肪变性;EMP,空。

02

在注解后的矩形框的基础上自动提取非重叠的150×150像素的patch。尽管在注释过程中类不平衡的影响已经被最小化,但TUM和NOR仍然比REA和INF多得多。为了克服这一问题,在自动提取过程中,规定TUM和NOR类在一个WSI中最多提取100个patch,其他类提取所有注释区域的所有patch。

03

对提取的数据集进行重采样,以达到更好的类平衡,形成最终的元注解训练集。

使用上述注释作为标签,建立了组织分割模型,PaSegNet。

首先使用OTSU方法去除背景,将无背景区域再20×的放大倍数下分割为 150 × 150的patch(图像块),并记录下所有patch的位置。使用PaSegNet fseg,一种在ImageNet48上预训练的基于resnext50的多类分类卷积神经网络,将输入的patch I(I, j)∈ℝ150×150×3编码为概率向量p (I, j)∈ℝ8,其中(I, j)为patch I的位置,pt为patch I在8个组织类中属于t类的概率。


          
05


建立预后预测模型
         

将八种组织类型的概率热图作为八个通道输入Resnext50中,构建宏观模型macro mode。通过深度学习提取2048维特征向量,通过全连接层、批标准化(Batch Normalization)和ReLU激活层,将特征降维至32维,最终生成预后风险评分RS(risk score)。以患者的总生存期OS作为标签值(ground truth),通过梯度下降最小化损失函数,训练预后预测模型。

在20倍放大率下,随机提取肿瘤区域的16个512 × 512 pixel 的RGB图像,以上述同样方式,构建微观模型micro mode。同时构建宏观+微观的M2M mode。

本文实验的所有代码和脚本都可以在https://github.com/Biooptics2021/PathFinder找到。

          
06


模型可视化与预后标志物挖掘
      

作者使用了Saliency Maps——一种归因方法(attribution),进行深度学习的可视化。

补充:Saliency Maps简单来说可以理解为是用来做模型的解释,可以用来知道哪些变量对于模型来说是重要的。也可以理解为特征图,可以告诉我们图像中的像素点对图像分类结果的影响。






(attribution map,对结果贡献越大透明度越高)



然后将生成的显著图中前30%值对应的透明度线性增加,并将显著图与相应的分割图重叠,发现可能的预后标志物。

         
07


验证生物标志物预后预测能力
       
在临床队列和TCGA队列中对发现的预后标志物进行单因素cox回归和结合临床病理信息的多因素cox回归,以及K-M分析,验证该生物标志物预测预后的能力。
          
PART 03

研究结果

01


组织分割模型的评估

使用混淆矩阵和ROC曲线评估组织分类模型性能,PaSegNet在QHCG、TCGA和PAIP测试集上的宏平均精度分别为0.948、0.956和0.941,AUC分别为0.9980、0.9984和0.9974。

补充:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。在图像精度评价中,通过比较将每个实测像元的位置和分类与分类图像中的相应位置和分类计算图像分类精度。对于多分类问题,或者在二分类问题中,我们有时候会有多组混淆矩阵,例如:多次训练或者在多个数据集上训练的结果,那么估算全局性能的方法有3种,分为宏平均(macro-average)、微平均(micro-average)和加权平均(Weighted-Average)。

      
02


预后预测模型准确性评估

TCGA数据集(内部验证)结果:

MacroNetMicroNetM2MNet
C指数0.708
0.717
0.787
生存AUC0.732
0.729
0.832

MacroNet的预测效果优于MicroNet,略差于M2MNet
Kaplan-Meier生存曲线也显示:MacroNet能够良好地区分两个风险组(P = 1.25 × 10 - 7)。

          
03


预后预测模型泛化性评估

为了评估模型的泛化性,进一步在QHCG数据集上测试,结果如下:

MacroNetMicroNetM2MNet
C指数0.7540.6950.652
生存AUC0.7960.6660.733


MacroNet的预测效果优于MicroNet和M2MNet
MacroNet的Kaplan-Meier生存曲线在QHCG数据集上显示了两个风险组之间的良好区分(P = 7.68 × 10 - 7)


虽然在训练集中,MacroNet的预测效果略差于M2M,但在外部测试集中MacroNet显示出更好的C指数与AUC,这说明MacroNet在预测方面具有更强的泛化能力。
04


生物标志物的发现、定义和验证

为了解释为什么MacroNet可以实现高性能的预测,并探索哪些宏观特征有助于风险评分,作者从全局和个例的角度进行了综合分析。

从全局角度统计了高风险评分和低风险评分患者的组织占比差异,发现高危评分组的坏死占比明显更高,并观察到坏死发生在每一个高风险WSI,但不是在所有低风险WSI。

从个例的角度来看,使用归因方法以二维热图的形式定位MacroNet关注的区域,并将结果与分割图重叠,发现对风险评分贡献率高的区域几乎是坏死和其他组织的交界处


这些发现提示,坏死的空间分布可能与HCC预后有很强的关系。

因此,作者提出了两个新的生物标志物的假设,即坏死面积分数(NEC)和肿瘤坏死分布(TND),分别表示坏死部分占WSI比例以及肿瘤和坏死之间的空间分布和相互作用。

K-M分析显示NEC和TND可以在TCGA和QHCG数据集上显著区分高风险和低风险组。


单因素和多因素分析显示NEC(QHCG: HR4.66,95% CI 1.77 ~ 12.28,P = 0.0019; TCGA: HR 1.80,95% CI 1.13 ~ 2.87,P = 0.0133)和TND(QHCG:HR 6.67,95% CI 2.36~18.85,P = 0.0003;TCGA: HR 3.00,95%CI 1.56~5.74,P = 0.0009)对OS有独立显著影响,而且比大多数临床指标(包括TIL)更显著。

此外,NEC(HR 3.31,95%CI 1.73至6.30,P = 0.0003)和TND(HR 2.92,95%CI 1.52至5.60,P = 0.0012)对复发也有独立显著影响

结合其他临床病理因素,NEC和TND的C-指数可进一步提高至0.831和0.845,表明这两个指标在临床预后预测中的巨大价值。

总之,上述结果证实了坏死的空间分布可以作为预后的新生物标志物。

         
PART 04

全文总结

本文基于肝癌的H&E图像,建立了深度学习组织分割模型与预后预测模型,使用可视化的方式发现与肝癌预后相关的形态学生物标志物——坏死面积分数与肿瘤坏死分布。

文章套路梳理如下:

By: kiki

 优点:

这篇文章的套路并不复杂,是经典的组织分割+预后预测模型。是什么让它在2023年还能发到nature machine intelligence呢?我认为原因有以下几点:

◆ 独特新颖的注释方式,以小注释量达到了高分割精度。给我们的启示是,注释不一定以量取胜,关键在于覆盖多种多样的组织形态以及不同组织类型之间的平衡性。

◆ 选择最大肿瘤面积分数的切片作为代表性切片。以往其他文章对代表性切片的选择往往一笔带过,这篇文章不仅进行了详细的描述,还进行了多达10000次的随机抽样训练与其进行对比,证明这种代表性切片选择方式的合理性与优越性。

◆ 建立了宏观模型、微观模型及宏观微观结合的预后预测模型,通过比较证明宏观模型的泛化性能更好。

◆ 使用可视化的方式对深度学习模型进行了解释。

◆ 利用可视化的方式挖掘与预后相关的形态学生物标志物,指导临床预后评估。目前,由于深度学习的“黑盒”性质,完全依赖深度学习指导临床决策并不现实,但利用深度学习挖掘可解释的生物标志物,对临床实践有很大的意义。


 局限性:

 深度学习模型的性能在很大程度上取决于训练集的大小和质量,本文使用TCGA(n=330)作为训练集和内部测试集,QHCG(n = 83)作为外部验证集,仍需要扩展训练数据来提高模型的准确性和泛化性;

 对样本的质量描述也是决定文章质量的重要环节,但是本文对于患者的纳入排除标准和扫描仪情况未行具体描述,数据获取,模型cut-off值的选择还应该做更加详细的描述。


总之,这篇文章从预后模型出发,提出新的形态学标志物的思路很值得借鉴。深度学习已经成为大势所趋,如何提高深度学习的可解释性、可靠性,将成为推动深度学习临床实践进程的必经之路。


好啦,本期的文献分享到这里。继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~

END

撰文丨kiki 
审核丨鑫仔
排版丨顶顶


点燃你对医学的热情!分享你的经验,获取特别奖励金!与最优秀的医学同行一起,探索医学界的未来!

2023-05-31

一文说清楚近期最火热的期刊被踢指数,期刊到底怎么选?

2023-05-30

只需30min,即刻复现1表5图,孟德尔随机化助你轻松破9,银屑病 vs 肺癌

2023-05-25


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Agustín Hernández:中美洲建筑背景下的未来主义巨构项目路演征集 · 投融资对接 | 2023(第六届)单细胞多组学研究与临床应用峰会中国科学家领衔Science最新特刊!医学基因组学研究将进入AI时代少吃真能让你变年轻!Nature子刊新研究:七分饱,抗衰老!利用AI发现3种Senolytics化合物,James Collins团队新成果登Nature子刊,已落地公司推进抗衰老研究脂肪也分好坏!Nature子刊:美国斯坦福大学最新研究揭示膳食脂肪酸延长寿命的机制下一代全数字化智慧病理缔造者,江丰生物携手华为亮相第十二届中国病理年会Current Biology | 色盲患者的希望!基因治疗适度恢复了色盲患者的色觉76例患者发顶刊,时序性分析:影像组学的新赛道仅需一点点深度学习的魔法配方,这篇影像组学文章竟发到了顶刊Radiology!喜报 |全球首款AI药物完成2期临床试验首例患者给药、中国首个大规模戒烟研究:仅两成烟民能成功百度一作发Nature正刊!AI+X研究框架培训·十大子赛道 | 国海“AI+”战队长篇小说《如絮》第一百一十三章 旧金山-1956年 温柔地爱我华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来20位嘉宾已确认!有没有你pick的那位?第六届单细胞多组学研究与临床应用峰会9月14日上海召开!有奖注册 | 港大杨万岭教授、协和吴晨教授等开讲:复杂免疫疾病中的多组学研究Nature子刊丨揭示能反映AD病理改变的更优生物标志:CSF中tau T217和T205处的磷酸化占比Nature重磅:引爆生命科学界的下一个风口!普通科研人员也能快速发顶刊!南京大学钟苗课题组Nature大子刊:光驱动CO₂甲烷化,活性接近热催化极限想做免疫检查点抑制剂治疗的影像组学研究没有思路?你想知道的都在这里!腾讯提出蛋白质研究 AI 模型,预测准确率刷新纪录,入选 Nature 子刊旧金山艺术宫(Palace of Fine Arts),艺术建筑突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊生物谷上海免疫所联合主办 | 汤富酬、苏冰、曹罡等教授邀您参加第六届单细胞多组学研究与临床应用峰会!仅用67位患者的CT数据的影像组学研究如何发表在顶刊欧放?Nature子刊丨孕妇的这个饮食,竟然能影响几代人的大脑健康?新发现!Nature子刊揭示蝙蝠的病毒多样性和潜在传染风险双林奇案录第三部之天禅寺:第十九节类器官鼻祖Hans Clevers 团队Nature子刊最新研究:利用纤维板层癌突变的类器官揭示肝细胞转分化克罗地亚杜布罗夫尼克(Dubrovnik),海边古城数字化智慧病理科建设白皮书:病理科数字化、智慧化转型进行时早鸟票最后3天!2023第六届单细胞多组学研究与临床应用峰会,金秋9月,盛会将启!双林奇案录第三部之天禅寺:第二十节Nature:美国NIH终于招到新主任,Bertagnolli将接管预算超470亿美元、全球最大的生物医学研究资助机构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。