Redian新闻
>
时序性影像组学分析的具体步骤

时序性影像组学分析的具体步骤

公众号新闻


上一篇文章《76例患者发顶刊,时序性分析:影像组学的新赛道》很多小伙伴很感兴趣,但是具体的模型部分有点复杂,不少小伙伴还不清楚具体的构建步骤,那么这篇我们就来把作者的模型构建过程捋一捋。




1.图像校准和预处理在图像定量中,使用了128层的bin数。
1.作者强调没有使用重采样。重采样是组学模型提取中,对图像进行空间变换的常用方法,例如将图像放大或缩小。当对图像进行放大或缩小时,需要对图像中的像素值进行插值计算,以生成新的像素值。但是坏处就在于插值过程可能会引入一些伪影,导致图像失真。
2.Bin数:将图像的灰度值分成多少个区间,这样所有的图像量化将具有可比性,并且能获得最佳的图像特征。Bin数常用于非标定体素值(non-calibrated voxel values),也就是说如果图像中的像素值没有经过校准,就不能直接反映实际的生物学或物理参数。



2.影像组学特征提取(T2WI+ADC)。使用 PyRadiomics 2.0和Python 3.7.5提取肿瘤放射组学特征。共提取到107个特征。




3.数据预处理,特征稳健性分析 (ICC > 0.8)。并且最终只选择在所有患者的所有时间点都有表达的特征。

1.ICC, 组间相似系数, 相关系数越接近1, 表示特征越稳健(robust);ICC < 0.5,可靠性差;0.5-0.75,中等信度;ICC > 0.75,可靠性好。

2.本研究中ICC>8。此时T2WI和ADC分别有17和27个。




4.对每个患者和每个时间点采集的T2WI和ADC图像数据以及PSA密度值进行整理




5.将患者的信息输入到LSTM中进行训练。

 在LSTM中使用三种输入数据:T2WI和ADC影像组学资料以及PSA密度值。每个组的特征列都需要经过LSTM处理。




6.对LSTM的参数进行初始化,包括使用随机正交矩阵进行循环状态的核权重矩阵初始化,使用Glorot的策略进行输入的核权重矩阵初始化,以及使用零来初始化偏置向量。

1.内核权重矩阵=卷积层中的卷积核。卷积核是一个小的矩阵,通过在输入数据上滑动并执行卷积操作来提取特征。而内核权重矩阵中是一个数字矩阵,这些数字决定了卷积操作提取特征的方式。

2.“随机正交矩阵”是指通过随机生成的矩阵,且该矩阵的列向量为互相正交的向量,且长度为1。通常情况下,深度学习模型的权重需要进行随机初始化,使得每个神经元都以不同的方式对输入进行转换。使用随机正交矩阵可以减少了训练时的局部最优问题和梯度消失问题。

3.Glorot方法会根据输入连接数量和输出连接数量调整权重的初始值,使得激活函数的输出方差在不同的层内相等。这样做可以使得训练时的梯度变化更加稳定。

4.通过随机正交矩阵可以使得循环状态的初始化更加稳定,Glorot方法则可以使得输入状态的初始化更加稳定。此处的“循环状态”代表的是LSTM中包含前一时刻的隐藏状态和当前时刻的输入状态的状态

5.而每个神经元还有一个偏置向量,这个偏置向量主要作用是为了增加模型的灵活性,提高神经元的拟合能力。一般设置为0,模型会倾向于输出不被偏移,而且模型训练下效果更加稳定。




7.对LSTM进行超参数调整,包括调整隐藏神经元的数量,dropout率,epoch数量和学习率。这一步骤中,采用了留一法,也就是Leave-One-Out Cross-Validation(LOOCV)进行。

1.LOOCV 是交叉验证的一个特例,其中折叠的数量等于数据集中 实例的数量。因此,学习算法对每个实例应用一次,将所有其他实例作为训练集,并将选定的实例作为单项测试集, 这特别适用于小数据集,在这种情况下,可以有效避免过度拟合。




8.模型性能:是由二元交叉熵的平均值决定的。

1.二元交叉熵用于评估两个概率分布(实际值和预测值)之间的距离。在本文中用来评估模型对于预测患有前列腺癌症或非患病的概率的准确性。

2.是模型所有预测结果的平均误差,越小代表模型准确性越高。




9.选择最佳超参数集合。130个epochs,learning rate为 0.002,dropout为0.2,每组特征(PSA密度、T2WI影像组学、ADC影像组学)有16个单元。
1.“epochs” 表示模型迭代的次数,
2.“learning rate” 表示模型每次更新权重时的步长或学习率。因为模型需要反复调整每个参数的权重,那么每次调整的多少就是学习率。过小就需要更多的训练次数,过大又会导致模型不稳定。本文使用了自适应学习率算法(Adam Optimiser),Adam Optimiser是一种优化器,用于自适应地调整每个参数的学习率,在训练模型时平衡收敛速度和模型性能。
3.“dropout” 表示在训练过程中随机忽略一部分神经元以减少过拟合的风险。
4.“units” 表示每层神经网络中的神经元数目。神经元的数量取决于神经网络的结构,而与特征数量不同。
5.这些超参数决定了神经网络模型的结构和训练过程中的一些重要参数,调整它们可以改变模型的性能表现。



10.参考典型的LSTM计算过程,对LSTM的计算过程进行描述。具体而言,LSTM通过计算hi、f、o、c以及i来输出最终的预测结果。  


看着这些公式,是不是感觉头马上大了?别急,我们一个一个来看。首先关于拉丁字母:


 i代表不同的病人;

 k代表不同的特征,一共3个,表示T2WI ADC PSAd;

 tj中,j表示不同时间点收集的数据,一共三个;

 dk中,k表示不同特征,d表示每个特征有多少种变量(T2WI和ADC分别17/27)。


继续,我们的LSTM计算过程,需要有几个变量:iijk、fijk和oijk (i f o)分别指输入、遗忘和输出门。这三个门控制LSTM读取和输出信息。


✰ 输入门=前一时刻输出+此刻输入,通过一个sigmoid函数输出一个0到1之间的值,表示要保留多少新的信息。

✰ 遗忘门,表示要忘记多少旧的信息。也是sigmoid函数。

✰ 输出门表示要输出多少记忆中的信息。

✰ 这三个门让LSTM更好地适应时间序列数据的模式。

✰ Sigmoid函数就是一种0-1的概率值,输入门通过sigmoid函数决定应该从当前的输入状态中选择哪些信息;遗忘门通过sigmoid函数决定应该从前一个时刻的状态中保留哪些信息;输出门通过sigmoid函数决定应该输出哪些信息。


除了三个门之外,我们还有三种状态(cell state)。为什么要叫细胞状态呢,据说是因为在LSTM中,选择保留或者丢弃信息,就类似细胞控制自身物质保留或排出。遗忘门和输入门共同作用,实现了对细胞状态的更新。而细胞状态也有三种:


 ▣ 候选细胞状态c`ijk:是一种临时状态,根据当前输入和前一时刻的隐藏状态计算得出,可被视为新信息的来源。

 ▣ 当前细胞状态cijk:当前的细胞状态,它表示在当前时刻的长期记忆。

 ▣ 隐藏细胞状态hijk:是将当前细胞状态进行加权处理后得到的输出状态。通过当前细胞状态计算得到的,同时作为隐层状态传递给下一步。


这里我们知道,输出的都是隐藏状态hijk,作者将三种特征 T2WI、ADC、PSAd 在连接过程中各自对应到一个 LSTM 模型进行处理,三个模型汇得到的 hiTik 进行汇总,形成hi向量,从而捕获整个时间序列的信息。



最后,作者在将LSTM网络组合起来形成多个并行的LSTM网络之后,使用dropout层对LSTM网络的输出进行正则化,也就是形成,使得整个模型具有更好的性能和泛化能力。




11.在完成模型训练后,通过多次训练同一网络来获得预测的可重复性,按照LOOCV程序对队列中的每个病人进行100次迭代,从中获得了输出的分布。



12.使用训练好的LSTM对新的患者长序列进行预测,并估计患者的风险概率。



END
撰文丨权z
版丨顶顶


76例患者发顶刊,时序性分析:影像组学的新赛道


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纵观SCI风云变幻,且看影像组学期刊“沉浮”《傳奇》Nat Cell Biol | 袁钧瑛、许代超课题组解析低氧诱导RIPK1介导的细胞程序性死亡的分子机制影像组学+免疫治疗,小白可以看看这些idea芝加哥大学贺教授:疾病类遗传突变的生物信息学分析|收获一作论文与导师推荐信!仅用67位患者的CT数据的影像组学研究如何发表在顶刊欧放?仅需一点点深度学习的魔法配方,这篇影像组学文章竟发到了顶刊Radiology!中国要崩溃, 从这里开始76例患者发顶刊,时序性分析:影像组学的新赛道LLM时代,探索式数据分析的升级之路有哪些新助攻?自身心理学:精神分析的新范式 | “雅典学园” 学习群弗洛伊德专题活动 | 6.21 教育成本效益分析的历史与未来——中国学者对话著名教育经济学家亨利·M·莱文教授端午「特搞」:马斯克「约战肉搏」小扎,科学分析谁能赢杨学山:数字价值产生于数字化转型的具体场景IB、SAT、甚至高考都关注的“文学分析”,这一关怎么过?如何找到合适自己的咨询师:具体步骤和注意事项突发!马斯克和扎克伯格要打起来了,真打肉搏那种!科学分析"铁笼大战"谁能赢影像组学+免疫治疗=Radiology?回味经典,开创未来!救命!我以为影像组学都被别人发完了,没想到还有这种发1区的思路影像组学新思路:“多参数MRI+机器学习”助力前列腺癌精准治疗双林奇案录第三部之长命锁: 第五节想做免疫检查点抑制剂治疗的影像组学研究没有思路?你想知道的都在这里!真心朋友对公司经营与财务状况进行快速分析的技巧《怎样选择成长股》直播预告:大模型在多维多组学MDMM靶点开发中的应用和生成式医学影像智能报告系统ReportGPT一文讲透财务分析的思路和技巧从心理学分析:这类家长最容易养出好孩子【内附资源福利】10分钟带你了解数据分析的三大门类!像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框基于量化分析的低代码平台体验优化实践 | 低代码技术内幕自身心理学:精神分析的新范式10种数据分析的模型思维让你“灵光一闪”Cell Discovery | 王拥军/刘斯洋/金鑫联合绘制万人卒中多组学图谱,建立该领域迄今最大规模的多组学平台画你金正恩视察“朝鲜新狙击武器”,新一代“主体步枪”呼之欲出
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。