5+文章复现 | 不止TCGA和GEO,外部数据库也能验证临床预测模型
大家好,我是雪梨~~ 欢迎来到雪梨复现妙妙屋!
今天带来的这篇文章“Identification of necroptosis-related genes as prognostic indicators for lower-grade glioma”是2023年2月发表在American Journal of Cancer Research期刊的生信文章,我们一起来看一下吧。
标题:Identification of necroptosis-related genes as prognostic indicators for lower-grade glioma
(鉴定坏死性凋亡相关基因作为低级别胶质瘤的预后指标)
期刊:American Journal of Cancer Research
IF:5.942(2022年)
全文共10图
/ 期刊介绍 /
文章概要
套路: 肿瘤(低级别胶质瘤)
数据来源:TCGA-LGG RNA-seq FPKM格式数据
技术路线:通过TCGA数据库下载LGG的RNA-seq FPKM格式数据和临床数据→对差异基因进行互作分析,制作PPI网络图和相关性热图→对差异基因进行单/多因素Cox回归,制作森林图,利用风险评分筛选分子→对筛选出来的分子进行Lasso系数筛选,制作变量轨迹,利用风险评分再筛选一遍分子→对风险相关基因进行风险评估、生存分析和预后表现分析→对风险评分和临床特征做综合Cox分析→通过风险评估模型对LGG进行预后分析,制作列线图和校准曲线→对风险相关基因进行GOKEGG富集分析→对高/低风险组进行基因突变→对风险相关基因进行免疫浸润分组分析,制作免疫浸润相关性散点图
图表简介
Figure 1 | 差异基因的表达差异和互作关系
Figure 2 | 差异基因的单因素Cox回归分析和预后分析
Figure 3 | 差异基因的KM生存曲线
Figure 4 | 差异基因的风险评估、生存分析和预后表现
Figure 5 | 风险评分和临床特征的HR值的单/多因素分析
Figure 6 | LGG的预后列线图和预后校准曲线
Figure 7 | 风险相关差异基因的GOKEGG富集分析
Figure 8 | 高/低风险组的基因突变情况
Figure 9 | 风险评分的免疫特征
Figure 10 | 差异基因的免疫浸润分析
分析工具
仙桃学术(https://www.xiantaozi.com/)(新版)
各种生信分析工具
STRING(https://www.ncbi.nlm.nih.gov/geo/)和Cytoscape软件
制作PPI网络图
cBioPortal数据库(https://www.cbioportal.org/)
基因的突变情况
TIMER数据库(http://timer.cistrome.org/)
免疫浸润相关性分析
复现流程
Figure 1 | 差异基因的表达差异和互作关系
Figure 1A | 差异基因的差异表达小提琴图
Figure 1B | 差异基因的PPI网络
Figure 1C | 差异基因的相关性热图
Figure 1A复现
进入仙桃网站(https://www.xiantaozi.com/),选择【生信工具】,在左侧的【表达差异】中选择我们需要用到的【[云]疾病vs非疾病】。
云端数据选择低级别胶质瘤TCGA_GTEx的FPKM格式数据。
【特殊参数】中输入差异基因,这里以Figure 1A第一行的基因为例。
【主要参数】中选择展示小提琴,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 1B复现
在STRING数据库(https://cn.string-db.org/)网站中选择Multiple proteins,输入所有的差异基因,物种选择人类,然后点击【SEARCH】。
点击【CONTINUE】。
点击【Exports】,下载第四个.tsv格式的数据。
打开Cytoscape软件,选择Network file to load,上传刚才下载的数据,点击【OK】。
点击左侧的【Style】可以选择更改样式。
点击Fill Colour的第二个框框。
【Column】选项选择degree layer,【Mapping Type】选择Continuous Mapping。
双击色谱,调整好颜色渐变后点击【OK】。
调整好样式之后选择【Export as Image】保存为.pdf或其他格式。
Figure 1C复现
进入仙桃网站,选择【生信工具】,在左侧的【交互网络】中选择我们需要用到的【[云]相关性热图】。
云端数据选择低级别胶质瘤TCGA的FPKM格式数据,【主要参数】中输入所有差异基因,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 2 | 差异基因的单因素Cox回归分析和预后分析
Figure 2A-B | 差异基因的Cox回归森林图
Figure 2C | 差异基因的预后LASSO系数筛选
Figure 2D | 差异基因的预后LASSO变量轨迹
Figure 2A复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[云]Cox-分子】。
云端数据选择低级别胶质瘤TCGA的FPKM格式数据。【主要参数】中输入21个差异基因,然后点击【确认】。
下载Cox回归结果和Riskscore风险评分。
打开Cox筛选的Riskscore结果,记录列头展示的风险相关基因。
打开Cox回归结果,只保留基因名和单因素的HR值和p值共3列(注意保存原始结果文件)。
只保留刚才记录的风险相关基因,按下图整理数据,另存为文件【Cox筛选基因森林图】
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【森林图】。
上传森林图文件,点击【验证】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 2D复现
Figure 2B-C都是在Figure 2D的筛选基础上得到的结果,故先复现Figure 2D
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[云]预后Lasso系数筛选】。
云端数据选择低级别胶质瘤TCGA的FPKM格式数据。【主要参数】中输入Cox筛选过后的15个风险相关基因,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
点击保存Lasso-Riskscore,点击【保存结果】并命名。
Figure 2B复现
打开Lasso筛选的Riskscore结果,记录列头展示的风险相关基因。
对这些基因做Cox回归分析,过程同复现Figure 2A,只需要将输入的基因换成这些风险相关基因即可。
Figure 2C复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[记录]预后Lasso变量轨迹】。
默认上传前一次的Lasso筛选结果,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 3 | 差异基因的KM生存曲线
Figure 3A-J | 不同差异基因在LGG中的KM生存曲线(OS)
Figure 3A复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[云]生存曲线(KM图)】。
云端数据选择低级别胶质瘤TCGA的FPKM格式数据,【特殊参数】中分别输入差异基因。这里以复现Figure 3A为例,输入FADD,Figure 3B-J需要在这里修改相应的差异基因。
【主要参数】中选择时间单位为月,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 4 | 差异基因的风险评估、生存分析和预后表现
Figure 4A-B | TCGA和CGGA数据的风险因子图
Figure 4C-D | TCGA和CGGA数据库的KM生存曲线
Figure 4E-F | TCGA和CGGA数据库的时间依赖ROC
Figure 4A复现
新建一个excel文件并命名为【TCGA-风险因子图】,将Lasso筛选后的Riskscore文件中除了第一列样本id之外都复制过去(0=Alive;1=Dead)。
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【风险因子图】。
上传风险因子文件,点击【验证】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 4C复现
Figure 4ACE为对TCGA数据库的分析,故放到一起复现,Figure 4BDF为对CGGA数据库的分析
新建一个excel文件并命名为【TCGA-KM】,将Lasso筛选后的Riskscore文件中的event、time和riskscore列复制过去。
将time列的数据换算成月,可以用ROUND函数“=ROUND(数值/30,0)”。
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【生存曲线(KM)图】。
上传KM曲线的文件,点击【验证】。
【主要参数】中选择展示置信区间和风险表格,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 4E复现
数据处理和Figure 4C的KM曲线一致,不要把时间单位换算成月,保存文件为【TCGA-时间依赖ROC】。
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【时间依赖ROC】。
上传时间依赖ROC文件,点击【验证】。
【主要参数】中预测时间输入1年、3年和5年,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 4BDF复现
新建一个excel文件并命名为【CGGA-Lasso筛选】,打开CGGA的原始表达矩阵和临床信息,将Cox筛选之后的风险基因的表达、生存情况和存活时间信息复制过去,保存文件。
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【预后Lasso系数筛选】。
上传CGGA的Lasso筛选文件,点击【验证】,点击【确认】。
点击下载CGGA的Lasso-Riskscore文件。
有了CGGA数据库样本的风险评分,再按照复现Figure 4ACE的复现方式,分别复现风险因子图、KM曲线和时间依赖ROC即可。
Figure 5 | 风险评分和临床特征的HR值的单/多因素分析
Figure 5A-B | 预后单/多因素Cox回归森林图
Figure 5C | 预后基因风险评分与临床因素的关系
Figure 5D-F | 临床因素的ROC分析以预测TCGA-LGG患者的预后。
Figure 5A-B复现
新建一个excel文件并命名为【riskscore临床变量Cox】,将Lasso筛选后的Riskscore文件中生存情况、存活时间和Riskscore复制过去,再打开TCGA的样本信息文件,将各样本的Age、Gender、Grade和Radiation信息复制过去。
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【单因素多因素Cox】。
上传Cox文件,点击【验证】,然后点击【确认】。
下载风险因子和临床变量的Cox回归结果和风险因子和临床变量的Riskscore。
新建两个excel文件分别命名为【riskscore临床变量单因素森林图】和【riskscore临床变量多因素森林图】,分别将
风险因子和临床变量的Cox回归结果的单因素和多因素部分复制到相应文件中,并按下图整理数据。
按照复现Figure 2A的方式复制以上两个森林图。
Figure 5C复现
新建一个excel文件并命名为【Age-riskscore-箱线图】,打开【riskscore临床变量Cox】文件,将Age和Risk_score两列复制过去。
将Age列的数据整理成≤50和>50的两组并保存文件。
进入仙桃网站,选择【生信工具】,在左侧的【基础绘图】中选择我们需要用到的【分组比较图】。
上传分组文件,点击【验证】。
【主要参数】中选择显著性显示类型为p值科学计数法,选择展示点和箱,修改样式,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
新建一个excel文件并命名为【Age-riskscore-叠加柱状图】,分别统计【Age-riskscore-箱线图】文件中不同年龄分组和高低风险的样本数量,并按照下图方式绘制表格。
在左侧的【基础绘图】中选择我们需要用到的【叠加柱状图[宽型数据]】。
上传列联表,点击【验证】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 5D复现
在【riskscore临床变量Cox】文件后加一列RiskScore+clinical,将风险因子临床变量Riskscore文件(复现Figure 5A-B时最后下载的Riskscore文件)的最后一列Riskscore数据复制到【riskscore临床变量Cox】文件的RiskScore+clinical列下。将所有的非数据数据转化为数据数据,例如Gender当中FEMALE=0,MALE=1;Grade当中G2=2,G3=3;Radiation_therapy中NO=0,YES=1。
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【时间依赖ROC】。
上传时间依赖ROC文件,点击【验证】。
Figure 5D-F分别对应【主要参数】中预测时间1年、3年和5年,这里以Figure 5D的1年为例,输入时间1年,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 6 | LGG的预后列线图和预后校准曲线
Figure 6A | LGG多因素Cox回归的1/3/5年预后列线图
Figure 6B-D | LGG预后列线图的预后校准曲线
Figure 6A复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【预后列线图】。
上传Cox文件(即复现Figure 5A时上传的文件),点击【验证】,【主要参数】中选择预测时间1、3、5年,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
点击【保存结果】并命名。
Figure 6B复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[记录]预后校准曲线】。
默认上传之前保存过的列线图结果,【主要参数】中预测时间分别输入1、3、5年,这里以复现Figure 6B为例,输入预测时间1年,复现Figure 6C-D只需要修改预测时间为3年和5年即可,点击【确认】。
点击上方【历史记录】,点击下载预后校准曲线图。
Figure 7 | 风险相关差异基因的GOKEGG富集分析
Figure 7A | 风险相关差异基因的表达热图
Figure 7B | 风险相关差异基因的GO圈图
Figure 7C | 风险相关差异基因的KEGG气泡图
Figure 7A复现
新建一个excel文件并命名为【风险相关DEGs表达热图】,在TCGA-LGG的FPKM原始表达矩阵中,将所有样本的风险相关差异基因的表达量和其样本id复制过去,再根据Lasso筛选之后所得的风险评分中位数将所有样本划为高风险和低风险,并另存为.csv格式。
进入仙桃网站,选择【生信工具】,在左侧的【表达差异】中选择我们需要用到的【[记录]预后校准曲线】。
上传表达热图数据,点击【验证】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 7B复现
对TCGA-LGG的Counts表达谱做去重、去除正常样本处理,另存为.csv文件【Counts风险差异分析】。
新建一个excel文件并命名为【Counts风险差异分析】,按下图将所有样本按风险评分中位数分为高风险组和低风险组,保存文件。
进入仙桃网站,选择【生信工具】,在左侧的【表达差异】中选择我们需要用到的【转录组-Counts数据差异分析】。
上传Counts表达谱和分组情况,点击【验证】。
【主要参数】中选择低风险组为参考组,点击【确认】。
在【历史记录】中下载差异分析结果。
新建一个excel文件并命名为【GOKEGG联合LogFC】,将Counts差异分析结果中差异基因的id和LogFC复制过来,并保存文件。
在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG联合FC]分析】。
上传GOKEGG联合LogFC文件,点击【验证】,【主要参数】中富集条目选择全部GO,点击【确认】。
点击下载富集分析结果,再点击【保存结果】并命名。
在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG联合FC]圈图】。
默认上传前一次的GOKEGG联合LogFC富集分析结果,【主要参数】中多输入一些需要可视化的类目id(可以在刚才下载的富集分析结果中查看),点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
打开富集结果文件,ID列和discription列即为Figure 7B的类目表格。
Figure 7C复现
新建一个excel文件并命名为【GOKEGG】,将风险相关差异基因输入文件中,列头为id。
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]分析】。
上传GOKEGG文件,点击【验证】,【主要参数】中的富集参数选择KEGG条目,然后点击【确认】。
按照复现Figure 7B同样的方式保存文件结果并命名。
在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]气泡图】。
默认上传前一次的GOKEGG富集分析结果,【主要参数】中选择颜色映射p值,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 8 | 高/低风险组的基因突变情况
Figure 8A | 高风险组的基因突变情况
Figure 8B | 低风险组的基因突变情况
Figure 8A复现
打开cBioPortal网站(https://www.cbioportal.org/),点击左侧【CNC/Brain】,再点击TCGA的LGG数据集,再点击【Query By Gene】。
在选择样本集时,选择自定义样本集【User-defined Case List】。
打开Lasso筛选后的Riskscore文件,删除正常样本,取各样本id的前12位,以Riskscore的中位数筛选高/低风险的样本。这里以Figure 8A为例,筛选高风险样本,复现Figure 8B则需要筛选低风险样本。
选择【By patient ID】,将筛选出的高风险样本id前12位复制到列表中,下方输入突变相关基因,点击【Submit Query】
点击【View】,取消展示空白和空隙。
点击【Tracks】,只选择展示突变谱和TMB(肿瘤突变负荷)。
点击【Download】,选择下载为合适的格式。
Figure 9 | 风险评分的免疫特征
Figure 9A-C | 高低风险组estimate算法下的箱线图
Figure 9D | 高低风险组Cibersort算法下的箱线图
Figure 9E | 高低风险组ssGSEA算法下的箱线图
Figure 9A-C复现
进入仙桃网站,选择【生信工具】,在左侧的【交互网络】中选择我们需要用到的【[免疫浸润-云]棒棒糖图】。
云端数据选择低级别胶质瘤TCGA的FPKM格式数据,【特殊参数】中任意输入分子,【主要参数】中算法选择estimate,然后点击【确认】。
点击下载分析数据。
删去基因列,只保留StromalScore、ImmuneScore和ESTIMATEScore列,并根据Lasso筛选后的风险评分中位数将所有样本分为高低风险组,重命名文件为【estimate】。
在左侧的【基础绘图】中选择我们需要用到的【分组比较图】。
上传estimate文件,点击【验证】。
【主要参数】中选择显著性类型为p=科学计数,选择不展示点,展示箱式图,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Figure 9E复现
复现流程和Figure 9A-C一致,只需要一开始选择棒棒糖图获取数据时,将算法修改为ssgsea,得到数据后以同样的方式将样本分组并进行可视化。
Figure 10 | 差异基因的免疫浸润分析
Figure 10A-J | 差异基因的免疫浸润分析
Figure 10A复现
打开TIMER网站(http://timer.cistrome.org/),点击【Immune Association】。
选择基因和免疫细胞,这里以Figure 10A的第2张图为例,选择SIRT1和B cell,点击【Submit】。
点击LGG行的TIMER列数据,选择下载为合适的格式。
Figure 10A的其余的图以及Figure 10B-J只需要修改免疫细胞和基因即可。
以上就是本期文章复现的全部内容啦!
看完今天的内容有没有对临床预测模型有更深刻的认知呢?
当然如果不确定自己的研究方向是不是可以做临床预测模型,不确定自己的课题能不能先用生信方法得出一定结果的,可以来了解一下我们的生信课题相关服务哦~
扫码添加雪球老师,生信服务唾手可得~
从研究方向选择,个性化方案设定,数据选择,售后处理,个性化修改,生信写作,每一个环节都深深参与其中,真正能做到医学人需要的按需定制!只要带着想法来,我们会做你最坚实的后盾!重磅个性化服务等你来~
微信扫码关注该文公众号作者