Redian新闻
>
震惊! 同样的问题发过2篇还能再发, 还是1区! 这个影像组学套路无敌! 真的不看?

震惊! 同样的问题发过2篇还能再发, 还是1区! 这个影像组学套路无敌! 真的不看?

公众号新闻

今天为大家带来一篇 Radiology 的文章,题目是“MRI Radiogenomics of Pediatric Medulloblastoma: A Multicenter Study”(儿童髓母细胞瘤的MRI影像基因组学:一项多中心研究)。

一、整体感知     

1.1 题目要素拆解

文章题目提供了3条信息:

1.预测变量是: 影像组学

2.因变量是: 基因组学    

3.研究人群是: 儿童髓母细胞瘤

1.2 文章基本信息

1.3 核心要素

再阅读摘要,可知:

研究对象(P): 1997年7月至2020年5月间, 在12个国际儿童医疗机构进行MRI诊断的髓母细胞瘤(MB)患者(n = 263)

预测模型(I/C):作者使用了六种机器学习的分类器(支持向量机、逻辑回归、k最近邻、随机森林、极端梯度提升和神经网络),在每个步骤中选择表现最佳的分类器

结局指标(O):髓母细胞瘤亚型

研究类型(S):回顾性研究,预测型    

研究目的:基于MRI的影像组学特征,通过机器学习设计了顺序决策步骤,区分出四种独特的髓母细胞瘤分子亚群。

1.4 变量分析

预测变量(X):T1加权+T2加权的MRI影像组学特征

结局变量(Y): 四种MB分子亚组(WNT、SHH、"第3组和第4组")。

协变量(Z):性别,年龄

1.5 本文研究背景:

临床问题: 髓母细胞瘤的分子亚型状态决定了预后,并有可能为更精确、个体化的治疗提供关键依据。比如围手术期并发症(如小脑无言症)的发生率,手术切除范围的价值在很大程度上依赖于亚型

目前方法不足: 

1) 无法做分子检测。分子检测只能在在大型癌症中心进行,小型医疗机构不能独立完成,而在即将推出的世界卫生组织中枢神经系统肿瘤分类修订中,提高了分子亚型分组的重要性,这将成为许多临床病理实验室的挑战

2) 免疫检测也无法明确类型。仅仅依靠免疫组化可能不足以对WNT进行表征,而更先进的方法(如CTNNB1外显子3测序、DNA甲基化、基因分析)可能昂贵或不可用。

研究GAP: 早在2019年和2020年的时候,就已经有这种设计的文章发表. 作者认为他们都是单个或少数中心的样本量有限,其成功和普适性受到了很大的限制. 当然,在后面我们会看到,除了数量之外, 本研究还有很多值得学习的优点,这部分放在优点总结中了。    

本文解决方式: 作者汇集了来自美国、加拿大和英国等12个主要中心的大型儿童MB队列,以开发基于IBSI的影像基因组学策略,以识别四个临床意义重大的MB分子亚群。

其他背景:

1)IBSI是由医学影像学国际标准化组织(International Biomedical Imaging Standards,简称IBSI)提出的一套针对影像特征提取标准和计算模型的规范化流程。包括四个主要步骤:

(1)标准化采集数据;

2)标准化预处理,对影像进行去噪、平滑、增强等处理;

3)标准化特征提取;

4)标准化特征评估和应用,借助各种统计学方法和机器学习算法评估特征质量和预测能力。

2)髓母细胞瘤的分子亚型可以分成几类:

(1)WNT, 预后效果最佳, 所以要积极治疗, 它不能仅仅通过免疫组化,还需要外显子测序、DNA甲基化、基因分析等才能识别。

2)SHH又包括4种类型: SHH-α、SHH-β、SHH-γ、SHH-δ;

  1. 其中SHH-γ、SHH-δ 又叫3组/4组, 在本研究中,他们被归类为 "非WNT和非SHH"的MB亚型,简称"双非" 他们预后比较差,尤其是第三组,预后最差。

  2. SHH-α、SHH-β 在本研究中被称为SHH, 他们没有特殊的特点。

具体看一下数据:

二、模型构建     

2.1 工作流程

                              

我们先来看一下本研究中作者得到最佳分类器(2阶段二分类)的流程图:

1)纳入排除后, 数据收集

2)特征提取

3)训练第1阶段的模型(即WNT/SHH vs 3组/4组)后,模型验证    

4)训练第2阶段的模型(即WNT vs SHH)后, 模型验证

其他模型的构建过程类似,都是首先收集和提取特征,再进行模型训练和验证的过程

2.2 纳入排除标准建立

2.2.1 纳入排除标准

纳入标准:

  • 1997年7月至2020年5月期间连续确诊为MB的患者;

  • 诊断时年龄不超过19岁;

  • 术前MRI扫描具有轴向增强T1加权和T2加权序列;

  • 有分子亚组分析结果。

排除标准:

  • MRI扫描结果无法诊断的患者

2.2.2 按照PICOS原则梳理纳入排除标准

P(Population) 

年龄:19岁以内

性别:不限制,本研究中男性114人,女性40人

疾病状态: 髓母细胞瘤

疾病分期: 4种MB亚群    

治疗方案: 手术

诊断标准:荧光原位杂交、RNA甲基化阵列、DNA甲基化阵列、高通量测序I/C(Intervention/Comparison):

影像设备:1.5T或3.0T场强的 核磁共振(GE Healthcare,Siemens Healthineers,Philips Healthcare和Toshiba Canon Medical Systems USA)

扫描序列: T2加权MRI,T1加权MRI

靶区: 1个靶区,即肿瘤原发体积.

影像检查时间点: 术前MRI.

层厚: 0.8–5毫米

对比剂: 无.

O(Outcome):

分子亚型: 即WNT , SHH, 3组/4组

2.2.3 最终的纳入结果

最终,共纳入263名患者,按75:25的比例随机分为训练集(占75%)和验证集(占25%)。并从中获得MRI影像数据特征资料。

2.3 图像预处理

1)肿瘤体积经过认证的神经影像科医师(K.W.Y.和A.J.,具有超过10年的经验)共识评估后在MRI扫描上被描绘。作者未提及分割的特殊要点。

2)图像预处理

  • 在特征提取之前,对图像进行了标准化处理。

  • 并将其重新采样为等向性1毫米像素。

  • 在标准化MR图像中,灰度级离散化采用了10的二进制位宽度。

2.4 特征提取和数据预处理

特征提取

工具:本文特征提取过程依然采用 PyRadiomics 全自动进行。

特征类型+提取结果:提取特征数量: 在定量图像特征类型中提取了1800个基于IBSI的特征

1)特征是在原始、小波滤波和拉普拉斯高斯(LoG)滤波图像上计算的(即3种图像)。

2)小波滤波器包括在x、y和z方向上的高通带(H)和低通带(L),从而产生8种不同的分解组合。

3)提取的特征类别包括一阶统计量、2D/3D形状、灰度共生矩阵(GLCM)、灰度共生矩阵(GLRLM)和灰度大小区域矩阵(GLSZM)。    

数据预处理

工具:未说明, 但R的caret包的preProcess应该可以做到

处理方法:对提取的特征值进行z-score标准化处理。为了提高MRI基于影像学的特征和分类的稳健性。

2.5 特征选择

1)训练队列进行了重采样以纠正样本不平衡。

2)提取的特征经过最小绝对收缩和选择算子的稀疏回归分析(LASSO回归).

  • 训练采用10倍交叉验证进行,并重复了1000次。
  • 在每个周期中,计算了100个lambda的均方误差,直到达到最小值。
  • 最优lambda被确定为最低的均方误差值,并用于特征降维和系数计算。
  • 在≥80%的计算周期内保留的特征被保留用于后续分类器优化。

至此,最终分类器需要的Radscore筛选完毕。

2.6 模型建立

作者一共建立了多个分类器, 这些分类器使用网格检索(grid search) 估计了最佳分类器参数(optimal classifier parameter) ,最终的影像学多类分类器通过最大化F1分数进行指导,F1分数定义为精确度(阳性预测值)和召回率(灵敏度)之间的加权平均值。    

第一个分类器: 作者构建了两个阶段的模型 ,第一个阶段是区分WNT+SHH vs 双非;第二个阶段是区分WNT vs SHH

  • 对于每个阶段,作者对数据进行了特征降维。在六个候选分类器(支持向量机、逻辑回归、k最近邻、随机森林、极端梯度提升和神经网络)中,选择了表现最佳的算法.

第二个分类器: 两步变一步,即同样是使用六种候选分类器,但一次性将患者区分成3组

第三个分类器: 为了探索区分第3组和第4组的可能性,作者使用甲基化验证过的队列(第3组和第4组,分别为48和64人),然后构建了独立的分类器。

第四个分类器: 为了区分婴儿和儿童的SSH,作者还构建了独立的分类器,婴儿定义为年龄≤60个月,儿童定义为年龄>60个月,分别为50和33例患者。  

这些指标是每个分类器内包含的所有特征。    

这些指标是每个分类器内有贡献的预测建模的TOP3特征,作者对他们的图像意义进行了解释.

三、模型评价     

3.1 人口资料和分子亚型分布情况    

  • 有263名患者(平均诊断年龄为87个月±60 [SD];166名男孩)符合纳入标准。

  • 26名患者(9.9%)患有WNT MB,83名(31.6%)患有SHH MB,154名(58.6%)患有3/4组MB;

3.2 预测模型的性能指标

在第一个分类器的第一阶段, 作者选择了48个特征,神经网络表现最佳(F1得分为0.90)。神经网络的灵敏度、特异度、准确度和受试者工作特征曲线下面积(AUC)分别为88%、88%、88%。在第一个分类器第二阶段,作者选择了7个特征,神经网络表现最佳(F1得分为0.96),其灵敏度、特异度、准确度和AUC分别为96%、80%、93%。

总体来说,第一个分类器的总体指标如下:灵敏度88%;特异度94%;准确度92%;F1得分88%。效果都很好。

这分别是第一个模型在测试集上的结果.    

第二个分类器: 相对于第一个分类器, 灵敏度,特异度,准确度和F1得分全面落后 。

第三个分类器是区分3组与4组,选择了16个特征, 极端梯度提升分类器产生了最高的指标,灵敏度为93%,特异度为92%,准确度为93%,AUC为98%。    

第四个分类器是婴儿和儿童的SHH分析,共选择了15个特征,随机森林算法获得了最高性能,灵敏度83%、特异度93%、准确度90%、AUC 89%。

作者举了几个实际的例子,来描述自己分类器的工作结果, 如图,他举了几个测试集中的例子,表明自己的模型测试效果非常好.

除此之外, 作者还举了几个特征的例子:    

下面的图表示在第一分类器第二特征阶段的7个特征的相对影响程度,BCD图表示TOP3的特征绘制的密度图,在不同分组中,影像特征显然有差异.

类似的:下面的条形图表示第3组和第4组计算的前10个减少特征的相对影响,用于训练后续的二元分类器。BCD图表示TOP3的特征绘制的密度图,可以看到3/4组的TOP3的影像特征还是有较大的差别.  

3.2 生物学意义

3组和4组MB的免疫组织化学分析,总体而言:

  • ETS相关基因表达: 4组>3组;

  • Claudin-5表达: 4组和3组无显著差异。

此图属于作者做的基础实验部分:可以看到3组和4组的Claudin-5(Cldn5)免疫染色不一样,4组的Cldn5较多,标志着血脑屏障的完整性好,即预后较好。中间的ASL是一种用于评估脑血流的成像技术, 作者在其他地方并未做过多的论述。 

四、全文总结     

4.1 一句话文章总结

本文开发基于多中心的MRI影像组学特征,通过6种机器学习的方法,分别建立多种预测四种临床重要的髓母细胞瘤分子亚群模型, 并分别对分阶段构建的模型和一次性构建的模型进行了比较。

4.2 本文优点

可能你有些不敢相信,这篇发表在1区顶刊的研究,题目和立意早已经被发过2篇文章了,而且本研究甚至没有那么多模型的验证过程, 常见的校准曲线,ROC曲线等占大篇幅的结果在本研究中都不存在。那么文章是做到了什么让整个过程给人感觉更具高级感呢?我认为原因在以下几点: 

  1. 最基本的应该是本研究的临床意义重大,这份研究再次提醒我们:热点问题,永远不会过时, 提出更好的解法,是发表在顶刊的前提;

  2. 最重要的应该是使用了多种机器学习算法,同时最优算法的分类效果都非常好。作者使用了六种机器学习算法,并不拘泥于某一种算法结果,在每一次都选择最优的算法.同时,在验证集中的结果也非常显眼, AUC都在90%左右;

  3. 加入了基础研究的部分,也就是对3组和4组进行了免疫组化染色, 这可谓是神来之笔.考虑到影像组学和基础的交叉较少,这个简单的基础研究工作能够提升本研究的立体性,大大增加本研究的可信度.

  4. 作者奇思妙想, 对分成3类的数据使用了两步二分类器,提高了整个模型的精确度和稳定性.同时还和一个步骤的分类器进行对比, 凸显了两步分类器的优越性;

  5. 本研究有很多图表,都在描述最终模型中的特征,这样的好处在于,将影像组学特征这一难于解释的抽象内容,和具体临床结合起来, 提高了研究的可信度和解释度,这一点非常值得学习. 剩下的还有很多优点,比如多中心研究, 大样本量, 以及严谨的实验设计(病理诊断的细胞亚型, 以及影像组学研究过程中的IBSI特征提取方法),都是本研究的优点。

4.3 本文局限性    

那么本研究还有哪些或许能够改进的地方,或者说是局限性呢? 首先, 常规的局限性就有: 样本不够具有代表性(可能推广受限),使用影像技术进行测量时可能存在测量误差和不确定性,模型可能在训练集上过度拟合, 数据不同的预处理方法可能会得到不同的结果等等。本研究作者最主要提到了3点局限性:

  1. 首先,样本量尽管是目前研究最大的样本,可依旧不够,这可能限制了模型的普适性。

  2. MRI的扫描也具有异质性,如果能够将MRI过程中的其他要素:扩散(Diffusion)、MRI指纹(MRI fingerprint)、灌注(Perfusion)纳入模型也许会增强效果。

  3. 本研究只考虑了肿瘤体积, 而没有考虑肿瘤-脑的空间关系, 也许肿瘤和全局脑空间特征会提供更多的特征,获得更好的结果。这些局限性我们可以理解为文章中固定要有的, 本研究更大的样本势必也是大的研究中心牵头,我们也无法改变这种事实。而MRI扫描过程中的其他要素,可能只有在前瞻性研究的过程中才能获得。另外,作者提到本研究考虑到肿瘤-脑的空间关系会更好,它说的是考虑到肿瘤在脑内的分布。也许不同的分布可能会有不同的效果。总之,局限性适当看看就行,重要的还是学习思路和方法。

4.4 可行性分析

除了多中心的数据较难取到之外,本研究的可行性很高.首先,你需要有足够的影像学资料,可参考本研究也只有不到300例. 然后就是图像处理,特征提取的常规做法.做完之后,可以构建两步或者一步分类器,与此同时建立多个亚组分类器.最后,肯定要加上基础研究的部分,本研究也仅仅使用了8个福尔马林浸泡的标本做了一个基因一个蛋白的免疫组化。如果咱们各种细节拿捏到位,相信一定也会获得审稿人的青睐!    

4.5 结语

好啦,本期的文献分享到这里,对于追求1区的小伙伴是不是又一次的冲击呢?继续跟紧君莲数据库的平鑫而论专栏,我们下期见吧~~

参考文献
1.Zhang M, Wong SW, Wright JN, et al. MRI Radiogenomics of Pediatric Medulloblastoma: A Multicenter Study. Radiology. 2022;304(2):406-416. doi:10.1148/radiol.212137
END

撰文丨权Z

审核丨鑫仔

排版丨阿洛

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
萌宠丨“妈妈问我养猫到底有啥用?”我把这组图发过去了......为什么说巴以冲突不是土地的问题,而是生死存亡的问题!对话科大讯飞:不赚钱是 ChatGPT 的问题,不是大模型商业化的问题复仇爽片的“千层套路”,到底是什么套路?发过Cell、当过16 年博导!最后却被辞退,无奈开出租车为生......内心的风景放血甩卖!大多伦多31区房价崩盘式大跌:华人区失守挂牌价被狂杀!专门堵“瘘”的医生,他向世界难题发起挑战生物1区期刊最新汇总!红色日记 2.1-28秋后的黄瓜【乐游】上海旅游节重点企业活动主题发布3个影响健身效果的健身杀手!国防部就近期涉军问题发布信息JCR1区,这本期刊首次由中国人担任主编影像组学+公共数据库就能发欧放?这篇高质量研究你值得一看!极其惨烈!墨尔本CBD突发恐怖车祸,已致1死5伤!华人目击事发过程,肇事者是警方“常客”,疑似毒驾!惊了!学渣学妹连发2篇3分SCI!玩转这个工具SCI太简单了!只默默爱着,就是幸福天气变凉,心血管病人注意这几个影响!冯象|那天,我做了一个影响一生的决定来自Q1区的毕业神刊!最快1月接收,影响因子逐年上升,还无版面费!燃情岁月1989(24)开放or封闭,不是问题的问题,问题在哪里?华为影像大赛揭晓获奖作品,XMAGE 诠释影像力量东阿阿胶无厘头再现《甄嬛传》,比亚迪发明河蚌青年:品牌年轻化的套路与反套路|中国案例基于影像多组学数据库的无创可视化新方法,揭示乳腺癌肿瘤内异质性表型和治疗靶点以AI重构医学影像,飞利浦新一代智能影像平台登场百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一发过Nature子刊,名校老师揭秘:论文写作心得真的不能再画了,饱了饱了!《Radiology》——顶刊又见影像组学预测模型!29个重大问题难题发布!(附名单)影像组学,单细胞首次合作!AUC=0.7能发20分+?第四届“华为影像·金鸡手机电影计划”荣誉作品揭晓,对焦生活传递影像力量
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。