影像组学+公共数据库就能发欧放?这篇高质量研究你值得一看!
点击上方 蓝字 关注我们
点击上方 蓝字 关注我们
一、整体感知
1.题目要素拆解
文章题目提供了两条信息:
2、文章基本信息
3、研究背景
本文解决方法:
4、核心要素
研究对象(P):
(1)HCM(n=20)、DCM(n=20)、NOR(n=20);共60例来自ACDC2017年自动心脏诊断挑战赛:https://acdc.creatis.insalyon.fr/description/databases.html
(2)HCM(n=48)、DCM(n=52)、NOR(n=123);共223例来自M&M挑战赛:https://www.ub.edu/mnms/
分类模型(I/C):MRMR+PFI特征选择算法及RF算法构建的三分类模型
结局指标(O):分类的准确性(预测准确性、AUC)
研究类型(S):回顾性队列研究,疾病分类预测类型
研究目的:在283例患者中,应用10种特征选择方法+9种机器学习算法+PFI,选择最优算法构建模型以实现准确分类
二、模型构建
1、纳入排除标准建立
第一部分:文章方法部分解读
纳入标准
DCM:舒张期左心室容积大于100ml/m2;左室射血分数小于40%;左室壁舒张期厚度<12mm
HCM:左心室心肌重量大于110g/m2;舒张期数个层面心肌厚度大于15mm;射血分数正常(>55%)
NOR:射血分数大于50%;舒张期室壁厚度<12mm;左室舒张期容积小于900ml/m2 (男)/800ml/m2(女);右室正常(容积<100ml/m2、射血分数>40%);肉眼评估左右室心肌收缩正常
注:于M&M和ACDC数据集选取的病例数据保持相同的数据格式
排除标准
所有不具备明确指标的患者均被排除
第二部分:PICOS原则梳理
P:283个病例(DCM=72、HCM=68、NOR=143)
I/C:
影像设备:来自多中心(France;Spain, Germany, and Canada)
不同厂家(Siemens, General Electric, Philips and Canon)的MRI设备
层厚:5mm-10mm(一般为5mm)
场强:1.5T、3.0T
靶区:2个时期(收缩期、舒张期)的6个VOI(收缩期:LV、RV、MYO;舒张期:LV、RV、MYO)
类型:心脏短轴成像;电影磁共振序列(cine magnetic resonance imaging,cine-MRI)
O:
实现准确的分类(HCM、DCM、NOR)
第三部分:纳排及分组结果
2、图像分割
红色:左心室LV;黄色:心肌MYO;绿色:右心室RV
3、特征提取
工具:Pyradiomics包
特征一致性评价(ICC):
提取步骤:
首先从上述6个靶区各分别提取了567个特征,包括18个一阶统计特征、14个形态学特征、纹理特征(24个灰度共生矩阵GLCM、16个灰度大小区域据矩阵GLSZM、16个灰度游程矩阵GLRLM、5个领域灰度差矩阵NGTDM)、316个小波特征(Wavelet)以及158个LOG滤波特征。
为了比较不同时相(舒张末期ED、收缩末期ES)所提取特征对模型分类准确性的影响,之后再通过排列组合的形式(6+5+4+3+2+1)将2个时相共6个靶区中提取的特征分成21个特征子集(feature subset)。
4、特征初步筛选
(1)首先选择预测准确性大于0.85的特征选择方法、机器学习分类器以及特征子集;
(2)对于每个特征子集运用十种特征选择方法进行预选择:Gini index (GINI), relief (RELF), information gain (IFGN), gain ratio (GNRO), Euclidean distance (EUDT), F-ANOVA (FAOV), mutual information maximization (MIM), and joint mutual information (JMI) mutual information (MUIF)和maxrelevance and min-redundancy (MRMR)筛选出p值小于0.1的特征。其中,前八个则为单变量方法,后两个是多变量方法
注:
GINI、RELF、IFGN、GNRO、EUDT利用R包CORElearn完成
FAOV、MUIF、MRMR通过Python中scikit-learn、pymrmr完成
MIM以及JMI则参考相应文献所述方法完成:
https://www.researchgate.net/publication/305083748_Advancing_feature_selection_research
Parmar C, Grossmann P, Bussink J, Lambin P, Aerts HJ (2015) Machine learning methods for quantitative radiomic biomarkers. Sci Rep 5:1–11
4、模型建立
Figure 3 首先选择了7个预测准确性大于0.85的模型(其中3个达0.912)
结果显示:
3个最优模型其特征选择方法均为MRMR,而机器学习算法则分别为K-近邻算法(K-nearestNeighbor,KNN)、集成学习(ensemble learning,EL)、随机森林(random forest,RF),每种模型均筛选出27个影像组学特征。
随后,由于KNN算法的AUC较低(0.914 vs 0.923),其被首先排除。其次,由于EL算法比较RF更为复杂,决定选择RF作为最终分类器。接着,采用上述的PFI算法进一步降维,保留11个影像组学特征构建模型。至此,特征筛选才算结束,模型构建完成。
什么是PFI(permutation feature importance,PFI)?
答:当一个变量被随机打乱后,模型的性能下降,此时便认为其为重要特征;而当一个变量被随机打乱但模型的误差并未改变时,意味着其对该模型的性能贡献较少。故通过PFI方法可筛选一定量非重要特征,进一步保留重要特征。此为该文一个创新点。
Table 2展示了最终模型的各类性能指标
结果显示:
最终模型的预测准确性为0.912。NOR、DCM和HCM各分类的AUC分别为0.938、0.966和0.936。
Figure 3 另外展示了90个模型(9个特征选择方法×机器学习算法)的宏平均AUC值(横坐标代表机器学习算法,纵坐标代表特征选择方法):
结果显示:
最佳分类器是LR、XGB、RF以及SVM;最佳的特征选择方法则为FAOV、MUIF、MRMR以及IFGN。有八个模型的AUC大于0.910,分别是FAOV_BY, FAOV_EL, MUIF_RF, MRMR_RF, MRMR_KNN, MRMR_EL, MIM_SVM, and MRMR_SVM(上图红框)
(3)所筛选的影像组学特征意义分析:
下表展示了初步筛选的27个影像组学特征
Table 3 展示了最终筛选出的11个影像组学特征:
结果显示:
(1)8个特征提取于MYO,3个提取于LV(未保留与RV相关的特征)
(2)W/O、Alone两列展示了移除该特征或移除该特征之外的特征对模型AUC的影响
Figure 6 则通过箱式图进一步展示11个影像组学特征的分类效能:
结果显示:
由舒张末期提取的左心室最小轴常(LV_ED_original_ shape_LeastAxisLength)重要性排名最高,区分DCM的准确率最高,与扩心病左心室扩张的概念相符
其他一阶统计特征包括median, kurtosis, skewness能有效分类HCM;
从舒张末期心肌中提取的体素体积(voxel volume)能明显辨别NOR;
另外,从经LOG滤波后的图像提取的一阶特征和纹理特征也对准确分类有重要帮助。
5、模型评价
Table 4 比较了不同方法的预测准确性
结果显示:本文筛选的影像组学特征,在不同机器学习算法下除了XGB,预测准确性均达到最优
上图所示为本文筛选特征构建的模型与既往研究中构建模型之对比。
Figure 5 展示了五折交叉验证的混淆矩阵
结果显示:文中方法平均精确度为0.830,在较好地区分DCM及HCM的同时也对NOR有着良好的预测效能
四、全文总结
1、一句话文章总结
大力出奇迹,仅仅利用两个公共数据集中283例数据,开发出基于多靶区的MRI影像组学特征,借助10个特征选择方法以及9个机器组学分类方法,保留最佳模型进行准确分类。
2、优点
多靶区的应用,作者在舒张末期和收缩末期MR图像中各勾画三个靶区提取特征,再利用多种算法筛选出最佳模型而得到最佳的影像组学特征,工作量大大加码
来自多地、不同厂家的MR机器提取的影像组学特征而构建的模型具有很高的性能,提示该模型优越性
仅利用公共数据库中的内容,数据获取容易。
套路应有的步骤,文章基本都具备了,实现了比较完整的论述
3、局限性
尽管此文纳入的样本量较前增多。但其样本量中HCM(n=72)、DCM(n=68)和NOR(n=143)的分布并不均衡,NOR样本量明显较大,提高了误分类的概率而降低了模型分类的准确性。
参考文献
[1]ZHANG X, CUI C, ZHAO S, 等. Cardiac magnetic resonance radiomics for disease classification[J/OL]. European Radiology, 2022, 33(4): 2312-2323. DOI:10.1007/s00330-022-09236-x.
撰文丨北城
审核丨 鑫仔
排版丨阿洛
【不看后悔系列】别人发过的文章还能发吗? 以小博大,这篇1区的文章只加了两点
小众领域不好发?掌握这个套路轻松逆袭二区(近视vs血糖)
微信扫码关注该文公众号作者