Redian新闻
>
震惊! 同样的问题发过2篇还能再发, 还是1区! 这个影像组学套路无敌! 真的不看?

震惊! 同样的问题发过2篇还能再发, 还是1区! 这个影像组学套路无敌! 真的不看?

公众号新闻

今天为大家带来一篇 Radiology 的文章,题目是“MRI Radiogenomics of Pediatric Medulloblastoma: A Multicenter Study”(儿童髓母细胞瘤的MRI影像基因组学:一项多中心研究)。

一、整体感知     

1.1 题目要素拆解

文章题目提供了3条信息:

1.预测变量是: 影像组学

2.因变量是: 基因组学    

3.研究人群是: 儿童髓母细胞瘤

1.2 文章基本信息

1.3 核心要素

再阅读摘要,可知:

研究对象(P): 1997年7月至2020年5月间, 在12个国际儿童医疗机构进行MRI诊断的髓母细胞瘤(MB)患者(n = 263)

预测模型(I/C):作者使用了六种机器学习的分类器(支持向量机、逻辑回归、k最近邻、随机森林、极端梯度提升和神经网络),在每个步骤中选择表现最佳的分类器

结局指标(O):髓母细胞瘤亚型

研究类型(S):回顾性研究,预测型    

研究目的:基于MRI的影像组学特征,通过机器学习设计了顺序决策步骤,区分出四种独特的髓母细胞瘤分子亚群。

1.4 变量分析

预测变量(X):T1加权+T2加权的MRI影像组学特征

结局变量(Y): 四种MB分子亚组(WNT、SHH、"第3组和第4组")。

协变量(Z):性别,年龄

1.5 本文研究背景:

临床问题: 髓母细胞瘤的分子亚型状态决定了预后,并有可能为更精确、个体化的治疗提供关键依据。比如围手术期并发症(如小脑无言症)的发生率,手术切除范围的价值在很大程度上依赖于亚型

目前方法不足: 

1) 无法做分子检测。分子检测只能在在大型癌症中心进行,小型医疗机构不能独立完成,而在即将推出的世界卫生组织中枢神经系统肿瘤分类修订中,提高了分子亚型分组的重要性,这将成为许多临床病理实验室的挑战

2) 免疫检测也无法明确类型。仅仅依靠免疫组化可能不足以对WNT进行表征,而更先进的方法(如CTNNB1外显子3测序、DNA甲基化、基因分析)可能昂贵或不可用。

研究GAP: 早在2019年和2020年的时候,就已经有这种设计的文章发表. 作者认为他们都是单个或少数中心的样本量有限,其成功和普适性受到了很大的限制. 当然,在后面我们会看到,除了数量之外, 本研究还有很多值得学习的优点,这部分放在优点总结中了。    

本文解决方式: 作者汇集了来自美国、加拿大和英国等12个主要中心的大型儿童MB队列,以开发基于IBSI的影像基因组学策略,以识别四个临床意义重大的MB分子亚群。

其他背景:

1)IBSI是由医学影像学国际标准化组织(International Biomedical Imaging Standards,简称IBSI)提出的一套针对影像特征提取标准和计算模型的规范化流程。包括四个主要步骤:

(1)标准化采集数据;

2)标准化预处理,对影像进行去噪、平滑、增强等处理;

3)标准化特征提取;

4)标准化特征评估和应用,借助各种统计学方法和机器学习算法评估特征质量和预测能力。

2)髓母细胞瘤的分子亚型可以分成几类:

(1)WNT, 预后效果最佳, 所以要积极治疗, 它不能仅仅通过免疫组化,还需要外显子测序、DNA甲基化、基因分析等才能识别。

2)SHH又包括4种类型: SHH-α、SHH-β、SHH-γ、SHH-δ;

  1. 其中SHH-γ、SHH-δ 又叫3组/4组, 在本研究中,他们被归类为 "非WNT和非SHH"的MB亚型,简称"双非" 他们预后比较差,尤其是第三组,预后最差。

  2. SHH-α、SHH-β 在本研究中被称为SHH, 他们没有特殊的特点。

具体看一下数据:

二、模型构建     

2.1 工作流程

                              

我们先来看一下本研究中作者得到最佳分类器(2阶段二分类)的流程图:

1)纳入排除后, 数据收集

2)特征提取

3)训练第1阶段的模型(即WNT/SHH vs 3组/4组)后,模型验证    

4)训练第2阶段的模型(即WNT vs SHH)后, 模型验证

其他模型的构建过程类似,都是首先收集和提取特征,再进行模型训练和验证的过程

2.2 纳入排除标准建立

2.2.1 纳入排除标准

纳入标准:

  • 1997年7月至2020年5月期间连续确诊为MB的患者;

  • 诊断时年龄不超过19岁;

  • 术前MRI扫描具有轴向增强T1加权和T2加权序列;

  • 有分子亚组分析结果。

排除标准:

  • MRI扫描结果无法诊断的患者

2.2.2 按照PICOS原则梳理纳入排除标准

P(Population) 

年龄:19岁以内

性别:不限制,本研究中男性114人,女性40人

疾病状态: 髓母细胞瘤

疾病分期: 4种MB亚群    

治疗方案: 手术

诊断标准:荧光原位杂交、RNA甲基化阵列、DNA甲基化阵列、高通量测序I/C(Intervention/Comparison):

影像设备:1.5T或3.0T场强的 核磁共振(GE Healthcare,Siemens Healthineers,Philips Healthcare和Toshiba Canon Medical Systems USA)

扫描序列: T2加权MRI,T1加权MRI

靶区: 1个靶区,即肿瘤原发体积.

影像检查时间点: 术前MRI.

层厚: 0.8–5毫米

对比剂: 无.

O(Outcome):

分子亚型: 即WNT , SHH, 3组/4组

2.2.3 最终的纳入结果

最终,共纳入263名患者,按75:25的比例随机分为训练集(占75%)和验证集(占25%)。并从中获得MRI影像数据特征资料。

2.3 图像预处理

1)肿瘤体积经过认证的神经影像科医师(K.W.Y.和A.J.,具有超过10年的经验)共识评估后在MRI扫描上被描绘。作者未提及分割的特殊要点。

2)图像预处理

  • 在特征提取之前,对图像进行了标准化处理。

  • 并将其重新采样为等向性1毫米像素。

  • 在标准化MR图像中,灰度级离散化采用了10的二进制位宽度。

2.4 特征提取和数据预处理

特征提取

工具:本文特征提取过程依然采用 PyRadiomics 全自动进行。

特征类型+提取结果:提取特征数量: 在定量图像特征类型中提取了1800个基于IBSI的特征

1)特征是在原始、小波滤波和拉普拉斯高斯(LoG)滤波图像上计算的(即3种图像)。

2)小波滤波器包括在x、y和z方向上的高通带(H)和低通带(L),从而产生8种不同的分解组合。

3)提取的特征类别包括一阶统计量、2D/3D形状、灰度共生矩阵(GLCM)、灰度共生矩阵(GLRLM)和灰度大小区域矩阵(GLSZM)。    

数据预处理

工具:未说明, 但R的caret包的preProcess应该可以做到

处理方法:对提取的特征值进行z-score标准化处理。为了提高MRI基于影像学的特征和分类的稳健性。

2.5 特征选择

1)训练队列进行了重采样以纠正样本不平衡。

2)提取的特征经过最小绝对收缩和选择算子的稀疏回归分析(LASSO回归).

  • 训练采用10倍交叉验证进行,并重复了1000次。
  • 在每个周期中,计算了100个lambda的均方误差,直到达到最小值。
  • 最优lambda被确定为最低的均方误差值,并用于特征降维和系数计算。
  • 在≥80%的计算周期内保留的特征被保留用于后续分类器优化。

至此,最终分类器需要的Radscore筛选完毕。

2.6 模型建立

作者一共建立了多个分类器, 这些分类器使用网格检索(grid search) 估计了最佳分类器参数(optimal classifier parameter) ,最终的影像学多类分类器通过最大化F1分数进行指导,F1分数定义为精确度(阳性预测值)和召回率(灵敏度)之间的加权平均值。    

第一个分类器: 作者构建了两个阶段的模型 ,第一个阶段是区分WNT+SHH vs 双非;第二个阶段是区分WNT vs SHH

  • 对于每个阶段,作者对数据进行了特征降维。在六个候选分类器(支持向量机、逻辑回归、k最近邻、随机森林、极端梯度提升和神经网络)中,选择了表现最佳的算法.

第二个分类器: 两步变一步,即同样是使用六种候选分类器,但一次性将患者区分成3组

第三个分类器: 为了探索区分第3组和第4组的可能性,作者使用甲基化验证过的队列(第3组和第4组,分别为48和64人),然后构建了独立的分类器。

第四个分类器: 为了区分婴儿和儿童的SSH,作者还构建了独立的分类器,婴儿定义为年龄≤60个月,儿童定义为年龄>60个月,分别为50和33例患者。  

这些指标是每个分类器内包含的所有特征。    

这些指标是每个分类器内有贡献的预测建模的TOP3特征,作者对他们的图像意义进行了解释.

三、模型评价     

3.1 人口资料和分子亚型分布情况    

  • 有263名患者(平均诊断年龄为87个月±60 [SD];166名男孩)符合纳入标准。

  • 26名患者(9.9%)患有WNT MB,83名(31.6%)患有SHH MB,154名(58.6%)患有3/4组MB;

3.2 预测模型的性能指标

在第一个分类器的第一阶段, 作者选择了48个特征,神经网络表现最佳(F1得分为0.90)。神经网络的灵敏度、特异度、准确度和受试者工作特征曲线下面积(AUC)分别为88%、88%、88%。在第一个分类器第二阶段,作者选择了7个特征,神经网络表现最佳(F1得分为0.96),其灵敏度、特异度、准确度和AUC分别为96%、80%、93%。

总体来说,第一个分类器的总体指标如下:灵敏度88%;特异度94%;准确度92%;F1得分88%。效果都很好。

这分别是第一个模型在测试集上的结果.    

第二个分类器: 相对于第一个分类器, 灵敏度,特异度,准确度和F1得分全面落后 。

第三个分类器是区分3组与4组,选择了16个特征, 极端梯度提升分类器产生了最高的指标,灵敏度为93%,特异度为92%,准确度为93%,AUC为98%。    

第四个分类器是婴儿和儿童的SHH分析,共选择了15个特征,随机森林算法获得了最高性能,灵敏度83%、特异度93%、准确度90%、AUC 89%。

作者举了几个实际的例子,来描述自己分类器的工作结果, 如图,他举了几个测试集中的例子,表明自己的模型测试效果非常好.

除此之外, 作者还举了几个特征的例子:    

下面的图表示在第一分类器第二特征阶段的7个特征的相对影响程度,BCD图表示TOP3的特征绘制的密度图,在不同分组中,影像特征显然有差异.

类似的:下面的条形图表示第3组和第4组计算的前10个减少特征的相对影响,用于训练后续的二元分类器。BCD图表示TOP3的特征绘制的密度图,可以看到3/4组的TOP3的影像特征还是有较大的差别.  

3.2 生物学意义

3组和4组MB的免疫组织化学分析,总体而言:

  • ETS相关基因表达: 4组>3组;

  • Claudin-5表达: 4组和3组无显著差异。

此图属于作者做的基础实验部分:可以看到3组和4组的Claudin-5(Cldn5)免疫染色不一样,4组的Cldn5较多,标志着血脑屏障的完整性好,即预后较好。中间的ASL是一种用于评估脑血流的成像技术, 作者在其他地方并未做过多的论述。 

四、全文总结     

4.1 一句话文章总结

本文开发基于多中心的MRI影像组学特征,通过6种机器学习的方法,分别建立多种预测四种临床重要的髓母细胞瘤分子亚群模型, 并分别对分阶段构建的模型和一次性构建的模型进行了比较。

4.2 本文优点

可能你有些不敢相信,这篇发表在1区顶刊的研究,题目和立意早已经被发过2篇文章了,而且本研究甚至没有那么多模型的验证过程, 常见的校准曲线,ROC曲线等占大篇幅的结果在本研究中都不存在。那么文章是做到了什么让整个过程给人感觉更具高级感呢?我认为原因在以下几点: 

  1. 最基本的应该是本研究的临床意义重大,这份研究再次提醒我们:热点问题,永远不会过时, 提出更好的解法,是发表在顶刊的前提;

  2. 最重要的应该是使用了多种机器学习算法,同时最优算法的分类效果都非常好。作者使用了六种机器学习算法,并不拘泥于某一种算法结果,在每一次都选择最优的算法.同时,在验证集中的结果也非常显眼, AUC都在90%左右;

  3. 加入了基础研究的部分,也就是对3组和4组进行了免疫组化染色, 这可谓是神来之笔.考虑到影像组学和基础的交叉较少,这个简单的基础研究工作能够提升本研究的立体性,大大增加本研究的可信度.

  4. 作者奇思妙想, 对分成3类的数据使用了两步二分类器,提高了整个模型的精确度和稳定性.同时还和一个步骤的分类器进行对比, 凸显了两步分类器的优越性;

  5. 本研究有很多图表,都在描述最终模型中的特征,这样的好处在于,将影像组学特征这一难于解释的抽象内容,和具体临床结合起来, 提高了研究的可信度和解释度,这一点非常值得学习. 剩下的还有很多优点,比如多中心研究, 大样本量, 以及严谨的实验设计(病理诊断的细胞亚型, 以及影像组学研究过程中的IBSI特征提取方法),都是本研究的优点。

4.3 本文局限性    

那么本研究还有哪些或许能够改进的地方,或者说是局限性呢? 首先, 常规的局限性就有: 样本不够具有代表性(可能推广受限),使用影像技术进行测量时可能存在测量误差和不确定性,模型可能在训练集上过度拟合, 数据不同的预处理方法可能会得到不同的结果等等。本研究作者最主要提到了3点局限性:

  1. 首先,样本量尽管是目前研究最大的样本,可依旧不够,这可能限制了模型的普适性。

  2. MRI的扫描也具有异质性,如果能够将MRI过程中的其他要素:扩散(Diffusion)、MRI指纹(MRI fingerprint)、灌注(Perfusion)纳入模型也许会增强效果。

  3. 本研究只考虑了肿瘤体积, 而没有考虑肿瘤-脑的空间关系, 也许肿瘤和全局脑空间特征会提供更多的特征,获得更好的结果。这些局限性我们可以理解为文章中固定要有的, 本研究更大的样本势必也是大的研究中心牵头,我们也无法改变这种事实。而MRI扫描过程中的其他要素,可能只有在前瞻性研究的过程中才能获得。另外,作者提到本研究考虑到肿瘤-脑的空间关系会更好,它说的是考虑到肿瘤在脑内的分布。也许不同的分布可能会有不同的效果。总之,局限性适当看看就行,重要的还是学习思路和方法。

4.4 可行性分析

除了多中心的数据较难取到之外,本研究的可行性很高.首先,你需要有足够的影像学资料,可参考本研究也只有不到300例. 然后就是图像处理,特征提取的常规做法.做完之后,可以构建两步或者一步分类器,与此同时建立多个亚组分类器.最后,肯定要加上基础研究的部分,本研究也仅仅使用了8个福尔马林浸泡的标本做了一个基因一个蛋白的免疫组化。如果咱们各种细节拿捏到位,相信一定也会获得审稿人的青睐!    

4.5 结语

好啦,本期的文献分享到这里,对于追求1区的小伙伴是不是又一次的冲击呢?继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~

参考文献
1.Zhang M, Wong SW, Wright JN, et al. MRI Radiogenomics of Pediatric Medulloblastoma: A Multicenter Study. Radiology. 2022;304(2):406-416. doi:10.1148/radiol.212137
END

撰文丨权Z

审核丨鑫仔

排版丨阿洛

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
以AI重构医学影像,飞利浦新一代智能影像平台登场29个重大问题难题发布!(附名单)影像组学,单细胞首次合作!AUC=0.7能发20分+?3个影响健身效果的健身杀手!第四届“华为影像·金鸡手机电影计划”荣誉作品揭晓,对焦生活传递影像力量发过Nature子刊,名校老师揭秘:论文写作心得对话科大讯飞:不赚钱是 ChatGPT 的问题,不是大模型商业化的问题先学音标,还是自然拼读?困扰我很久的问题,终于有了答案!开放or封闭,不是问题的问题,问题在哪里?《Radiology》——顶刊又见影像组学预测模型!真的不能再画了,饱了饱了!华为影像大赛揭晓获奖作品,XMAGE 诠释影像力量只默默爱着,就是幸福复仇爽片的“千层套路”,到底是什么套路?内心的风景萌宠丨“妈妈问我养猫到底有啥用?”我把这组图发过去了......为何下一代手机芯片要采用3纳米?这是先有鸡还是先有蛋的问题百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一JCR1区,这本期刊首次由中国人担任主编秋后的黄瓜燃情岁月1989(24)影像组学+公共数据库就能发欧放?这篇高质量研究你值得一看!极其惨烈!墨尔本CBD突发恐怖车祸,已致1死5伤!华人目击事发过程,肇事者是警方“常客”,疑似毒驾!“失去对身边美好的感知”:社交媒体还是我们自己的问题?专门堵“瘘”的医生,他向世界难题发起挑战冯象|那天,我做了一个影响一生的决定发过Cell、当过16 年博导!最后却被辞退,无奈开出租车为生......基于影像多组学数据库的无创可视化新方法,揭示乳腺癌肿瘤内异质性表型和治疗靶点天气变凉,心血管病人注意这几个影响!【乐游】上海旅游节重点企业活动主题发布国防部就近期涉军问题发布信息惊了!学渣学妹连发2篇3分SCI!玩转这个工具SCI太简单了!为什么说巴以冲突不是土地的问题,而是生死存亡的问题!东阿阿胶无厘头再现《甄嬛传》,比亚迪发明河蚌青年:品牌年轻化的套路与反套路|中国案例红色日记 2.1-28
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。