Redian新闻
>
影像组学+公共数据库就能发欧放?这篇高质量研究你值得一看!

影像组学+公共数据库就能发欧放?这篇高质量研究你值得一看!

公众号新闻

 

点击上方 蓝字 关注我们

 

一、整体感知

1.题目要素拆解   

文章题目提供了两条信息:

1)预测变量:CMRsignature
2)结局:实现准确的分类问题(三分类:肥厚型心肌病HCM、扩张型心肌病DCM、正常人NOR)

2、文章基本信息

3、研究背景

扩张性心肌病(dilated cardiomyopathy,DCM)是以心室扩大和心肌收缩能力降低为特点的一个疾病,而肥厚性心肌病(hypertrophic cardiomyopathy,HCM)则是以左心室肥厚为特点的心肌病,其心肌收缩能力尚可。
心血管核磁共振成像(cardiac magnetic resonance,CMR)能多平面、多序列对心脏进行成像,并能无创地定性或定量地评估心肌结构及功能。CMR凭借其评估心肌结构和功能的优越性,广泛地被应用于DCM和HCM的诊断当中。但临床上诊断者常根据自身的临床经验进行诊断,不同人之间存在较大差异。
目前来说,早期准确地识别HCM、DCM仍是一项挑战。过去已有多项研究基于MICCAI 2017自动心脏诊断挑战赛所提供的包含五种疾病分类的100例cine-MRI提出了数种心肌分类方法,也已达到较好的预测性能,但由于样本量太少,模型难以泛化。

本文解决方法:

在MICCAI 2017自动心脏诊断挑战赛获取60例样本量(HCM=20、DCM=20、NOR=20)的基础上,新增从M&Ms 挑战赛中获取的223例数据,提高样本量

4、核心要素

研究对象(P):

    (1)HCM(n=20)、DCM(n=20)、NOR(n=20);共60例来自ACDC2017年自动心脏诊断挑战赛:https://acdc.creatis.insalyon.fr/description/databases.html

    (2)HCM(n=48)、DCM(n=52)、NOR(n=123);共223例来自M&M挑战赛:https://www.ub.edu/mnms/

分类模型(I/C):MRMR+PFI特征选择算法及RF算法构建的三分类模型

结局指标(O):分类的准确性(预测准确性、AUC)

研究类型(S):回顾性队列研究,疾病分类预测类型

研究目的:在283例患者中,应用10种特征选择方法+9种机器学习算法+PFI,选择最优算法构建模型以实现准确分类

二、模型构建 

1、纳入排除标准建立

第一部分:文章方法部分解读

纳入标准

  • DCM:舒张期左心室容积大于100ml/m2;左室射血分数小于40%;左室壁舒张期厚度<12mm

  • HCM:左心室心肌重量大于110g/m2;舒张期数个层面心肌厚度大于15mm;射血分数正常(>55%)

  • NOR:射血分数大于50%;舒张期室壁厚度<12mm;左室舒张期容积小于900ml/m2 (男)/800ml/m2(女);右室正常(容积<100ml/m2、射血分数>40%);肉眼评估左右室心肌收缩正常

注:于M&M和ACDC数据集选取的病例数据保持相同的数据格式

排除标准

    所有不具备明确指标的患者均被排除

第二部分:PICOS原则梳理

P:283个病例(DCM=72、HCM=68、NOR=143)

I/C:

    影像设备:来自多中心(France;Spain, Germany, and Canada)

    不同厂家(Siemens, General Electric, Philips and Canon)的MRI设备

    层厚:5mm-10mm(一般为5mm)

    场强:1.5T、3.0T

    靶区:2个时期(收缩期、舒张期)的6个VOI(收缩期:LV、RV、MYO;舒张期:LV、RV、MYO)

    类型:心脏短轴成像;电影磁共振序列(cine magnetic resonance imaging,cine-MRI)

O:

    实现准确的分类(HCM、DCM、NOR)

第三部分:纳排及分组结果

最终,共纳入283名患者(DCM=72、HCM=68、NOR=143),按8:2的比例分为训练集(226例)和验证集(57例)

2、图像分割

公共数据集已将靶区勾画并且标注完成,其分别从舒张末期(end-diastole,ED)、收缩末期(end-systole,ES)勾画左心室LV、右心室、RV以及心肌MYO共六个靶区。

红色:左心室LV;黄色:心肌MYO;绿色:右心室RV

3、特征提取

工具:Pyradiomics包

特征一致性评价(ICC):

比较了手动勾画和自动勾画ROC的一致性,结果值在0.79-0.98之间,提示一致性良好

提取步骤:

  • 首先从上述6个靶区各分别提取了567个特征,包括18个一阶统计特征、14个形态学特征、纹理特征(24个灰度共生矩阵GLCM、16个灰度大小区域据矩阵GLSZM、16个灰度游程矩阵GLRLM、5个领域灰度差矩阵NGTDM)、316个小波特征(Wavelet)以及158个LOG滤波特征。

  • 为了比较不同时相(舒张末期ED、收缩末期ES)所提取特征对模型分类准确性的影响,之后再通过排列组合的形式(6+5+4+3+2+1)将2个时相共6个靶区中提取的特征分成21个特征子集(feature subset)。

4、特征初步筛选

(1)首先选择预测准确性大于0.85的特征选择方法、机器学习分类器以及特征子集;

(2)对于每个特征子集运用十种特征选择方法进行预选择:Gini index (GINI), relief (RELF), information gain (IFGN), gain ratio (GNRO), Euclidean distance (EUDT), F-ANOVA (FAOV), mutual information maximization (MIM), and joint mutual information (JMI) mutual information (MUIF)和maxrelevance and min-redundancy (MRMR)筛选出p值小于0.1的特征。其中,前八个则为单变量方法,后两个是多变量方法

注:

GINI、RELF、IFGN、GNRO、EUDT利用R包CORElearn完成

FAOV、MUIF、MRMR通过Python中scikit-learn、pymrmr完成

MIM以及JMI则参考相应文献所述方法完成:

  • https://www.researchgate.net/publication/305083748_Advancing_feature_selection_research

  • Parmar C, Grossmann P, Bussink J, Lambin P, Aerts HJ (2015) Machine learning methods for quantitative radiomic biomarkers. Sci Rep 5:1–11

4、模型建立

  • Figure 3 首先选择了7个预测准确性大于0.85的模型(其中3个达0.912)

结果显示:

3个最优模型其特征选择方法均为MRMR,而机器学习算法则分别为K-近邻算法(K-nearestNeighbor,KNN)、集成学习(ensemble learning,EL)、随机森林(random forest,RF),每种模型均筛选出27个影像组学特征。

  • 随后,由于KNN算法的AUC较低(0.914 vs 0.923),其被首先排除。其次,由于EL算法比较RF更为复杂,决定选择RF作为最终分类器。接着,采用上述的PFI算法进一步降维,保留11个影像组学特征构建模型。至此,特征筛选才算结束,模型构建完成。

什么是PFI(permutation feature importance,PFI)?

答:当一个变量被随机打乱后,模型的性能下降,此时便认为其为重要特征;而当一个变量被随机打乱但模型的误差并未改变时,意味着其对该模型的性能贡献较少。故通过PFI方法可筛选一定量非重要特征,进一步保留重要特征。此为该文一个创新点。

Table 2展示了最终模型的各类性能指标

结果显示:

最终模型的预测准确性为0.912。NOR、DCM和HCM各分类的AUC分别为0.938、0.966和0.936。

Figure 3 另外展示了90个模型(9个特征选择方法×机器学习算法)的宏平均AUC值(横坐标代表机器学习算法,纵坐标代表特征选择方法):

结果显示:

最佳分类器是LR、XGB、RF以及SVM;最佳的特征选择方法则为FAOV、MUIF、MRMR以及IFGN。有八个模型的AUC大于0.910,分别是FAOV_BY, FAOV_EL, MUIF_RF, MRMR_RF, MRMR_KNN, MRMR_EL, MIM_SVM, and MRMR_SVM(上图红框)

(3)所筛选的影像组学特征意义分析:

下表展示了初步筛选的27个影像组学特征

Table 3 展示了最终筛选出的11个影像组学特征

结果显示:

(1)8个特征提取于MYO,3个提取于LV(未保留与RV相关的特征)

(2)W/O、Alone两列展示了移除该特征或移除该特征之外的特征对模型AUC的影响

Figure 6 则通过箱式图进一步展示11个影像组学特征的分类效能

结果显示:

  1. 由舒张末期提取的左心室最小轴常(LV_ED_original_ shape_LeastAxisLength)重要性排名最高,区分DCM的准确率最高,与扩心病左心室扩张的概念相符

  2. 其他一阶统计特征包括median, kurtosis, skewness能有效分类HCM;

  3. 从舒张末期心肌中提取的体素体积(voxel volume)能明显辨别NOR;

  4. 另外,从经LOG滤波后的图像提取的一阶特征和纹理特征也对准确分类有重要帮助。

5、模型评价

Table 4 比较了不同方法的预测准确性

结果显示:本文筛选的影像组学特征,在不同机器学习算法下除了XGB,预测准确性均达到最优

上图所示为本文筛选特征构建的模型与既往研究中构建模型之对比。

Figure 5 展示了五折交叉验证的混淆矩阵

结果显示:文中方法平均精确度为0.830,在较好地区分DCM及HCM的同时也对NOR有着良好的预测效能

四、全文总结

1、一句话文章总结

大力出奇迹,仅仅利用两个公共数据集中283例数据,开发出基于多靶区的MRI影像组学特征,借助10个特征选择方法以及9个机器组学分类方法,保留最佳模型进行准确分类。

2、优点

  1. 多靶区的应用,作者在舒张末期和收缩末期MR图像中各勾画三个靶区提取特征,再利用多种算法筛选出最佳模型而得到最佳的影像组学特征,工作量大大加码

  2. 来自多地、不同厂家的MR机器提取的影像组学特征而构建的模型具有很高的性能,提示该模型优越性

  3. 仅利用公共数据库中的内容,数据获取容易。

  4. 套路应有的步骤,文章基本都具备了,实现了比较完整的论述

3、局限性

尽管此文纳入的样本量较前增多。但其样本量中HCM(n=72)、DCM(n=68)和NOR(n=143)的分布并不均衡,NOR样本量明显较大,提高了误分类的概率而降低了模型分类的准确性。

参考文献

[1]ZHANG X, CUI C, ZHAO S, 等. Cardiac magnetic resonance radiomics for disease classification[J/OL]. European Radiology, 2022, 33(4): 2312-2323. DOI:10.1007/s00330-022-09236-x.

END

撰文丨北城

审核丨  鑫仔

排版丨阿洛

【不看后悔系列】别人发过的文章还能发吗? 以小博大,这篇1区的文章只加了两点

小众领域不好发?掌握这个套路轻松逆袭二区(近视vs血糖)

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
影像组学,单细胞首次合作!AUC=0.7能发20分+?非常难得的视频,花钱也买不到!值得一看!究竟有没有神?【过来人分享】二刷UKChO,他们的经验心得值得一看!特别策划|聚焦进博:以高质量外资促高质量发展ChatGPT 和 OpenAI 都在用的 Redis,是如何从传统数据库升级为向量数据库的?马克谈天下(396) 广场协定和我们想象的不一样​以高质量发展推动新时代西部大开发——重庆四川贵州高质量发展调研报告没必要非得固守纯向量数据库!专访亚马逊云科技数据库负责人AutoGPT 宣布不再使用向量数据库!向量数据库是小题大作的方案?《Radiology》——顶刊又见影像组学预测模型!驶向公共数据授权运营新未来基于影像多组学数据库的无创可视化新方法,揭示乳腺癌肿瘤内异质性表型和治疗靶点从基因组学到多组学,纳米孔测序还可以做更多?鸟儿是会飞的话案例 | 全国公共数据场内交易第一单!探索公共数据流通与数字人民币交付直播预约|何渊:首例“公共数据特许经营权”拍卖暂停?数据财政的突破口在哪? | DPOHUB何谈第32期复旦DMG:2023中国地方公共数据开放利用报告(省域)单一数据库拆分成几十个数据库的意义公共数据和企业数据估值与定价模式研究:基于数据产品交易价格计算器的贵州实践探索十一绝对爆火!国内绝无仅有的震撼之作,吸引无数人千里奔赴,值得一看!利用开放的WoS就能发SCI,文献计量分析在2023年已经发表2,619篇论文;很多高质量研究Science丨揭示β 受体阻滞剂加强抗癌疗效的机制。延伸,你可快速发出高质量研究论文;还有更多课题在路上直播预约|何渊:首例“公共数据特许经营权”拍卖暂停?数据利用的突破口及趋势在哪? | DPOHUB何谈第32期四川大学校友上市公司高质量发展大会在成都盛大举行 推动“校地企”高质量融合发展震惊! 同样的问题发过2篇还能再发, 还是1区! 这个影像组学套路无敌! 真的不看?【齐风猎作品】让我们相聚在每一个春暖花开的日子并非所有向量数据库都生来平等 - 找到属于你的向量数据库【广发策略戴康团队】全市场最全策略数据库:八位一体数据库赛迪顾问&中国电子云:2023公共数据授权运营创新指南最近又淘了一幅“名画”“白嫖”公共数据,学渣秒发3分+生信SCI,结果……(SCI大佬推荐)留学生各种场合怎么穿?这份Dress Code攻略你值得拥有!整活!杭州正式征集公共数据授权运营主体阿里健康成为杭州市首家公共数据授权运营单位,平台通过省大数据局验收
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。