时序性影像组学分析的具体步骤

2023-06-20 06:06

上一篇文章《76例患者发顶刊，时序性分析：影像组学的新赛道》很多小伙伴很感兴趣，但是具体的模型部分有点复杂，不少小伙伴还不清楚具体的构建步骤，那么这篇我们就来把作者的模型构建过程捋一捋。

1.图像校准和预处理：在图像定量中，使用了128层的bin数。

1.作者强调没有使用重采样。重采样是组学模型提取中，对图像进行空间变换的常用方法，例如将图像放大或缩小。当对图像进行放大或缩小时，需要对图像中的像素值进行插值计算，以生成新的像素值。但是坏处就在于插值过程可能会引入一些伪影，导致图像失真。

2.Bin数：将图像的灰度值分成多少个区间，这样所有的图像量化将具有可比性，并且能获得最佳的图像特征。Bin数常用于非标定体素值（non-calibrated voxel values），也就是说如果图像中的像素值没有经过校准，就不能直接反映实际的生物学或物理参数。

2.影像组学特征提取（T2WI+ADC)。使用 PyRadiomics 2.0和Python 3.7.5提取肿瘤放射组学特征。共提取到107个特征。

3.数据预处理，特征稳健性分析 (ICC > 0.8)。并且最终只选择在所有患者的所有时间点都有表达的特征。

1.ICC, 组间相似系数, 相关系数越接近1, 表示特征越稳健(robust);ICC < 0.5,可靠性差；0.5-0.75，中等信度；ICC > 0.75，可靠性好。

2.本研究中ICC>8。此时T2WI和ADC分别有17和27个。

4.对每个患者和每个时间点采集的T2WI和ADC图像数据以及PSA密度值进行整理。

5.将患者的信息输入到LSTM中进行训练。

❖ 在LSTM中使用三种输入数据：T2WI和ADC影像组学资料以及PSA密度值。每个组的特征列都需要经过LSTM处理。

6.对LSTM的参数进行初始化，包括使用随机正交矩阵进行循环状态的核权重矩阵初始化，使用Glorot的策略进行输入的核权重矩阵初始化，以及使用零来初始化偏置向量。

1.内核权重矩阵=卷积层中的卷积核。卷积核是一个小的矩阵，通过在输入数据上滑动并执行卷积操作来提取特征。而内核权重矩阵中是一个数字矩阵，这些数字决定了卷积操作提取特征的方式。

2.“随机正交矩阵”是指通过随机生成的矩阵，且该矩阵的列向量为互相正交的向量，且长度为1。通常情况下，深度学习模型的权重需要进行随机初始化，使得每个神经元都以不同的方式对输入进行转换。使用随机正交矩阵可以减少了训练时的局部最优问题和梯度消失问题。

3.Glorot方法会根据输入连接数量和输出连接数量调整权重的初始值，使得激活函数的输出方差在不同的层内相等。这样做可以使得训练时的梯度变化更加稳定。

4.通过随机正交矩阵可以使得循环状态的初始化更加稳定，Glorot方法则可以使得输入状态的初始化更加稳定。此处的“循环状态”代表的是LSTM中包含前一时刻的隐藏状态和当前时刻的输入状态的状态

5.而每个神经元还有一个偏置向量，这个偏置向量主要作用是为了增加模型的灵活性，提高神经元的拟合能力。一般设置为0，模型会倾向于输出不被偏移，而且模型训练下效果更加稳定。

7.对LSTM进行超参数调整，包括调整隐藏神经元的数量，dropout率，epoch数量和学习率。这一步骤中，采用了留一法，也就是Leave-One-Out Cross-Validation（LOOCV）进行。

1.LOOCV 是交叉验证的一个特例，其中折叠的数量等于数据集中实例的数量。因此，学习算法对每个实例应用一次，将所有其他实例作为训练集，并将选定的实例作为单项测试集，这特别适用于小数据集，在这种情况下，可以有效避免过度拟合。

8.模型性能：是由二元交叉熵的平均值决定的。

1.二元交叉熵用于评估两个概率分布（实际值和预测值）之间的距离。在本文中用来评估模型对于预测患有前列腺癌症或非患病的概率的准确性。

2.是模型所有预测结果的平均误差，越小代表模型准确性越高。

9.选择最佳超参数集合。130个epochs，learning rate为 0.002，dropout为0.2，每组特征（PSA密度、T2WI影像组学、ADC影像组学）有16个单元。

1.“epochs” 表示模型迭代的次数，

2.“learning rate” 表示模型每次更新权重时的步长或学习率。因为模型需要反复调整每个参数的权重，那么每次调整的多少就是学习率。过小就需要更多的训练次数，过大又会导致模型不稳定。本文使用了自适应学习率算法（Adam Optimiser），Adam Optimiser是一种优化器，用于自适应地调整每个参数的学习率，在训练模型时平衡收敛速度和模型性能。

3.“dropout” 表示在训练过程中随机忽略一部分神经元以减少过拟合的风险。

4.“units” 表示每层神经网络中的神经元数目。神经元的数量取决于神经网络的结构，而与特征数量不同。

5.这些超参数决定了神经网络模型的结构和训练过程中的一些重要参数，调整它们可以改变模型的性能表现。

10.参考典型的LSTM计算过程，对LSTM的计算过程进行描述。具体而言，LSTM通过计算hi、f、o、c以及i来输出最终的预测结果。