时序性影像组学分析的具体步骤
1.ICC, 组间相似系数, 相关系数越接近1, 表示特征越稳健(robust);ICC < 0.5,可靠性差;0.5-0.75,中等信度;ICC > 0.75,可靠性好。
2.本研究中ICC>8。此时T2WI和ADC分别有17和27个。
❖ 在LSTM中使用三种输入数据:T2WI和ADC影像组学资料以及PSA密度值。每个组的特征列都需要经过LSTM处理。
1.内核权重矩阵=卷积层中的卷积核。卷积核是一个小的矩阵,通过在输入数据上滑动并执行卷积操作来提取特征。而内核权重矩阵中是一个数字矩阵,这些数字决定了卷积操作提取特征的方式。
2.“随机正交矩阵”是指通过随机生成的矩阵,且该矩阵的列向量为互相正交的向量,且长度为1。通常情况下,深度学习模型的权重需要进行随机初始化,使得每个神经元都以不同的方式对输入进行转换。使用随机正交矩阵可以减少了训练时的局部最优问题和梯度消失问题。
3.Glorot方法会根据输入连接数量和输出连接数量调整权重的初始值,使得激活函数的输出方差在不同的层内相等。这样做可以使得训练时的梯度变化更加稳定。
4.通过随机正交矩阵可以使得循环状态的初始化更加稳定,Glorot方法则可以使得输入状态的初始化更加稳定。此处的“循环状态”代表的是LSTM中包含前一时刻的隐藏状态和当前时刻的输入状态的状态
5.而每个神经元还有一个偏置向量,这个偏置向量主要作用是为了增加模型的灵活性,提高神经元的拟合能力。一般设置为0,模型会倾向于输出不被偏移,而且模型训练下效果更加稳定。
1.LOOCV 是交叉验证的一个特例,其中折叠的数量等于数据集中 实例的数量。因此,学习算法对每个实例应用一次,将所有其他实例作为训练集,并将选定的实例作为单项测试集, 这特别适用于小数据集,在这种情况下,可以有效避免过度拟合。
1.二元交叉熵用于评估两个概率分布(实际值和预测值)之间的距离。在本文中用来评估模型对于预测患有前列腺癌症或非患病的概率的准确性。
2.是模型所有预测结果的平均误差,越小代表模型准确性越高。
看着这些公式,是不是感觉头马上大了?别急,我们一个一个来看。首先关于拉丁字母:
✦ i代表不同的病人;
✦ k代表不同的特征,一共3个,表示T2WI ADC PSAd;
✦ tj中,j表示不同时间点收集的数据,一共三个;
✦ dk中,k表示不同特征,d表示每个特征有多少种变量(T2WI和ADC分别17/27)。
继续,我们的LSTM计算过程,需要有几个变量:iijk、fijk和oijk (i f o)分别指输入、遗忘和输出门。这三个门控制LSTM读取和输出信息。
✰ 输入门=前一时刻输出+此刻输入,通过一个sigmoid函数输出一个0到1之间的值,表示要保留多少新的信息。
✰ 遗忘门,表示要忘记多少旧的信息。也是sigmoid函数。
✰ 输出门表示要输出多少记忆中的信息。
✰ 这三个门让LSTM更好地适应时间序列数据的模式。
✰ Sigmoid函数就是一种0-1的概率值,输入门通过sigmoid函数决定应该从当前的输入状态中选择哪些信息;遗忘门通过sigmoid函数决定应该从前一个时刻的状态中保留哪些信息;输出门通过sigmoid函数决定应该输出哪些信息。
除了三个门之外,我们还有三种状态(cell state)。为什么要叫细胞状态呢,据说是因为在LSTM中,选择保留或者丢弃信息,就类似细胞控制自身物质保留或排出。遗忘门和输入门共同作用,实现了对细胞状态的更新。而细胞状态也有三种:
▣ 候选细胞状态c`ijk:是一种临时状态,根据当前输入和前一时刻的隐藏状态计算得出,可被视为新信息的来源。
▣ 当前细胞状态cijk:当前的细胞状态,它表示在当前时刻的长期记忆。
▣ 隐藏细胞状态hijk:是将当前细胞状态进行加权处理后得到的输出状态。通过当前细胞状态计算得到的,同时作为隐层状态传递给下一步。
这里我们知道,输出的都是隐藏状态hijk,作者将三种特征 T2WI、ADC、PSAd 在连接过程中各自对应到一个 LSTM 模型进行处理,三个模型汇得到的 hiTik 进行汇总,形成hi向量,从而捕获整个时间序列的信息。
最后,作者在将LSTM网络组合起来形成多个并行的LSTM网络之后,使用dropout层对LSTM网络的输出进行正则化,也就是形成,使得整个模型具有更好的性能和泛化能力。
76例患者发顶刊,时序性分析:影像组学的新赛道
微信扫码关注该文公众号作者