干货来了!近7分多数据集联合分析文章复现!真滴香!
2021年8月发表在Cellular Oncology(IF:6.73)肿瘤生信与单细胞分析文章——《A comprehensive prognostic signature for glioblastoma patients based on transcriptomics and single cell sequencing》,以TCGA_GBM数据集一半为训练集,一半作为验证集,整个TCGA_GBM数据集为确证集,构建风险回归模型,计算风险得分;CGGA作为外部验证数据集;并结合胶质瘤患者的体细胞突变、免疫细胞表达、药物反应性、生存分析和单细胞测序数据综合分析,构建预后模型,并结合时下备受追捧的单细胞分析,论证了该预后模型在3个生信数据库中临床应用价值;全文共8图3表,训练集与验证集结合加强了结论可信度,单细胞分析锦上添花,论证内容丰富,层次递进,今天让我们一起学习一下这篇文章,为肿瘤生信文章的经典款战斗服换上新皮肤~
期刊信息
1.材料与方法
1)疾病:胶质瘤
2)物种:人类
3)数据来源:GSE15824, GSE34152, GSE35493, GSE50161, GSE66354, GSE7696(n=209);TCGA_GBM;CGGA
2.复现工具
仙桃学术生信工具(https://www.xiantao.love/products)
3.复现任务
Fig.1 Differentially expressed gene (DEG) screening and localization.
研究流程图及胶质瘤差异基因分析
Table1. Chi-square test results of the TCGA training set, the test set and the CGGA cohort.
TCGA、CGGA数据集基线资料卡方检验
Fig.2 LASSO regression and risk score calculation.
Lasso回归模型筛选风险基因并计算风险得分
Fig. 3. Risk score validation.
风险得分验证
Fig4. Genomic alterations in score low versus score high clusters and DEG expression in cell lines.
低危组/高危组基因组改变
Fig5. Consensus clustering and overall survival in two subgroups.
2个亚组中7个预后基因及总体生存率验证
Fig6. Gene-set variation analysis (GSVA) in TCGA and CGGA datasets.
TCGA与CGCA数据集中基因集变异分析(Gene-set variation analysis, GSVA)
Fig7. scRNA-seq results of risk score and prognostic genes in gliomas.
胶质瘤风险得分与预后基因的单细胞测序结果分析
Fig8. Association between risk score and overall survival in different subgroups (age, IDH, chemotherapy and radiotherapy).
不同亚组中风险得分与总体生存率相关分析
Table 2. Univariate and multivariate analyses in the prognostic model
预后模型的单因素、多因素分析
Table3. Univariate and multivariate analyses in the geriatric prognostic model
4.复现步骤
4.1 Fig.1 Differentially expressed gene (DEG) screening and localization. 研究流程图及胶质瘤差异基因分析
1)Fig1A为研究设计流程图,首先由6个GEO数据集分析得到差异基因,TCGA数据集一半为训练集,一半作为验证集,整个数据集为确证集,构建风险回归模型,计算风险得分;CGGA作为外部验证数据集;并结合胶质瘤患者的体细胞突变、免疫细胞表达、药物反应性、生存分析和单细胞测序数据综合分析,构建预后模型
进入仙桃学术“数据集检索“页面,检索GSE15824数据集,这里可选择全部样本,或在此处根据样本信息筛选GBM与normal病例,添加至样本库;同法依次添加GSE34152, GSE35493, GSE50161, GSE66354, GSE7696等5个数据集至样本库;根据样本信息选择实验组与对照组,原文中共纳入209例(161 GBM,48 normal),随后排除了有显著离群倾向的6例GBM,5例normal(155 GBM,43normal);此处我们以“normal”为对照组,“GBM”或”Glioblastoma”为疾病组,共纳入208例(164例GBM,44例normal),与原文略有出入,经检查实验组与对照组没有混淆,故此处不再对正确分组下的病例数目微小差异做严格订正;提交进行差异分析,下载分析结果
查看结果分析报告,仙桃学术提供了不同阈值条件下的差异基因分析汇总,还可在excel结果表格中自定义筛选条件,此处根据原文中的“logFC > 2 and adjusted p ≤ 0.01”设定条件,得到447个差异基因,其中表达上调基因111个,表达下调基因336个
2)Fig1B为6个GEO数据集合并分析后|logFC|>1.5,p<0.05的差异基因火山图;“数据集检索“页面可直接下载差异分析火山图,也可在“生信工具”页面对结果进行个性化调整,进入“生信工具—数据集模块—火山图”,选择云端数据集,设定阈值,原文Fig1B中差异基因分别以|logFC|>1.5、2为界渐变展示,散点颜色、大小、透明度、坐标轴、图例等均支持自定义调整;提交分析后保存结果并下载图片。
3)Fig1C为PCA图,在“数据集检索”页面下可直接下载PCA结果
4)Fig1D为差异基因热图,操作同Fig1B火山图;进入“生信工具—数据集模块—热图”,选择云端数据,“分子列表”支持展示特定兴趣基因,提交分析后保存结果并下载图片
3.2 Table1. Chi-square test results of the TCGA training set, the test set and the CGGA cohort. TCGA、CGGA数据集基线资料卡方检验
Table1为TCGA训练集与CGGA验证集基线资料表及卡方检验结果;卡方检验适用于分类资料,用于比较两个率或两个构成比、分类资料的相关分析等(等级资料需选用秩和检验);统计样本的实际观测值与理论推断值之间的偏离程度决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之亦然。
1)进入“临床意义(靠)—[云]基线资料表”,选择TCGA_GBM胶质瘤数据集,右侧的“基因”处可选择感兴趣的基因,搭配纯基线资料表或列联表,可展示带有兴趣基因表达信息的基线资料表;或选择列联表-简洁版不展示基因信息,下方的分类变量根据分析目的选择,提交分析后查看结果报告,保存结果并下载word三线表
3.3 Fig.2 Fig.2 LASSO regression and risk score calculation. Lasso回归模型筛选风险基因并计算风险得分
1)Fig2A、B在TCGA训练集中对差异基因进行单因素cox回归分析(TableS1),接着由Lasso回归模型筛选单因素分析结果中有统计学意义的差异基因,得到7个预后相关基因。下方左图为预期得到的单因素Cox回归分析结果;右图为原文中的TableS1;目前仙桃尚无分割数据集的功能,此处我们以整个TCGA_GBM数据集作为测试集
首先进行单因素Cox回归分析,“临床意义(靠)—预后分析—[云]单|多因素Cox分析“,选择云端数据集,原文纳入全部400+个DEGs,全部进行单因素Cox分析,单因素分析中的自变量可以是计量资料、计数资料或等级资料,多分类资料在分析之前需要先进行哑变量编码;此处由TableS1可知原文以计数资料类型进行单因素Cox回归分析,共筛选得到35个与临床预后相关的差异基因;右侧”基本参数“可选择OS、DSS、PFI等生存参数,纳入多因素分析的p值阈值支持自定义,提交分析,查看分析结果并保存
接下来纳入全部35个与预后相关差异基因,建立Lasso回归模型,进一步缩小基因范围。进入“预后分析—[云]Lasso系数筛选“,选择数据集,右侧”分子列表“输入单因素cox分析得到的差异有统计学意义的35个基因名,提交分析,查看分析报告,保存并下载分析结果,此处还需要下载”RiskScore“结果表格
接下来绘制lasso变量轨迹图,进入“预后分析—lasso变量轨迹图“,选择上一步lasso系数筛选中保存的云端结果,右侧自动填充分子,提交分析并保存结果
2)Fig2C左图为TCGA训练集中7个预后相关基因的环形热图;首先需要查看数据格式,进入“表达差异(挑)—环形热图“,查看教程文档,按要求整理lasso系数筛选下载的RiskScore结果数据,仙桃学术目前支持最多800行,6000个元素的环形热图分析;我们共有9列数据,计算最多可保留666行数据;此处仅为环形热图可视化展示分析结果,对差异分析结果无影响;上传整理好的数据,“数据信息-方法“选择”显示列名“,“方法”一栏选择“无“,保留原本的值;”聚类-类型“中选择”不聚类“,提交分析,保存结果
Fig2C右图为对应的生存结局点图,进入“预后分析—风险因子图 (Risk Score) ,查看数据要求格式,按要求调整RiskScore数据,此处建议“方法”选择“无”,保留基因表达原始树枝,上传数据,作图类型可选多种组合模式,提交分析后保存结果
3)Fig2D为根据7个风险基因划分TCGA训练集为高危组、低危组的总体生存率(overall survival,OS)生存曲线,进入“基础绘图—生存曲线-二分类/数值/单组“,查看教程文档,使用RiskScore数据整理如下,上传数据,可根据第3列riskscore的中位数自行在excel中转换为二分类变量,也可直接在右侧参数”分组“中选择中位数分组,提交分析;在“临床意义(靠)—预后分析—[云]KM曲线图”中得到的为根据某一兴趣基因表达分组绘制的KM曲线图,而非风险得分分组
4)Fig2E为TCGA训练集中该风险得分模型诊断效能的ROC曲线,进入“基础绘图—时间依赖ROC-独立指标”,上传riskscore数据,目前仙桃学术仅支持1个预测变量的多个时间点分析;“预测年限“中选择预后类型与时间,一般最常见1年、3年、5年预测年限,原文中采用2年预测时间;提交分析
3.4 Fig. 3. Risk score validation. 风险得分验证
1)Fig3A为TCGA测试集中7个DEGs表达环形热图;Fig3B为TCGA测试集中高危组、低危组生存曲线;Fig3C为风险得分诊断ROC曲线;这次再次补充说明,仙桃学术目前还不支持分割云端数据作为测试集和验证集,此处只分析整个TCGA_GBM数据集;Fig3D、E、F为以上3组数据在TCGA总数据集的验证结果;Fig3G、H、L为以上数据在CGGA验证集的验证结果,由训练集风险模型计算得到的系数在验证集中找到对应的分子,相乘求和得到riskscore,划分验证集高危组与低危组,与训练集比较;整理好数据后复现操作同Fig2,此处不赘述
3.5 Fig. 4. Genomic alterations in score low versus score high clusters and DEG expression in cell lines. 低危组/高危组基因组改变
1)Fig4A、B依次为TCGA_GBM低危组、高危组肿瘤整体突变可视化oncoplot图(瀑布图),一般选择展示top30基因在不同样本中的突变情况,各种颜色表示突变负荷,图例上方的小节代表突变负荷,此处低危组共有97.37%(74/76)患者存在基因突变,TP53基因在GBM患者中突变频率最高;图的右半部分通过横置的条形图展示了对应不同突变类型的占比情况
2)Fig4C、D依次为低危组、高危组基因组中拷贝数变异(copy number variation,CNV)变异中扩增或缺失区域单独的展示,图的左右两侧为基因的染色体定位,红色为拷贝数扩增,蓝色为拷贝数缺失
在此说明,目前仙桃学术尚不支持分析基因组数据
3)Fig4E为7个预后基因CLEC5A、HOXC6、HOXA5、CCL2、GPRASP1、BSCL2、PTX3在normal、LGG、GBM中表达情况比较风琴图,进入“临床意义(靠)—[云]临床相关性”,选择云端数据集,下方为分组变量,右侧“基因”处选择需要分析的基因,选择图形展示类型,如风琴图、散点图、箱线图、组合图等,还可通过颜色及透明度调整实现更多组合,提交分析,查看分析报告并保存结果
此处由于normal组病例过少,无法进行分析比较,此处以组织学类型分组为例演示;此外还可以在“基础绘图—分组比较图(点/箱/柱/小提琴图)”中上传自己的数据,实现多组比较
3.6 Fig5. Consensus clustering and overall survival in two subgroups. 胶质瘤2个亚组中7个预后基因表达及总体生存率验证
1)Fig5A为TCGA_GBM数据集中2组样本中7个预后基因表达与临床数据组合热图,这里由图例可看出,图片最上方的热图色块并非渐变,而是有限数量的渐变色,此处可以将数据作多等分,以中位数替换每等份内的全部值,再赋以特定颜色(4等分则4个组内各自产生1个中位数,共4个中位数,对应4个颜色);进入“表达差异(挑)—复杂数值热图“,查看教程文档,按要求整理RiskScore数据,共准备3个sheet,上传数据,调整作图细节,提交分析并保存结果
2)Fig5B为TCGA_GBM数据集中根据风险得分划分的2组病例OS生存曲线比较,在RiskScore数据中根据riskscore中位数将全部病例分为G1(低危组)、G2(高危组),保留生存结局与生存时间,整理数据如下
进入“基础绘图—生存曲线-二分类/数值/单组“,上传数据,可选择展示风险表格与置信区间,提交分析,仙桃学术提供结果报告与累计生存率等详细信息解读;此外仙桃还支持多组生存曲线比较,具体数据格式可查看教程文档
3)Fig5C、D分别为TCGA、CGGA数据集PCA图
4)Fig5E、F为Fig5A、B在CGGA数据库中胶质瘤中验证结果,整理好数据后复现步骤同Fig5A、B
3.7 Gene-set variation analysis (GSVA) in TCGA and CGGA datasets. TCGA与CGCA数据集中基因集变异分析(Gene-set variation analysis, GSVA)
1)Fig6A、B分别为TCGA_GBM、CGGA数据集中GO富集热图与临床信息组合热图,每一个色条代表一个患者,色条的颜色代表GO条目表达程度,仙桃学术目前支持富集分析常见的气泡图、柱状图、山峦图、圈图、弦图、分子网络图等多种形式
进入“功能聚类(圈)—GO|KEGG—GO|KEGG富集分析”,将最初差异分析得到的447个基因整理为单独的一列数据,上传分析
2)Fig6C为免疫细胞丰度热图,还可以用经典的直方图展示每个样本的免疫细胞比例
(图源网络)
仙桃学术提供了免疫浸润棒棒糖图、分组比较图与散点图;其中棒棒糖图可用于可视化1个分子与多个细胞分数的相关性,圆圈的大小和棒棒的高度均代表相关性成都,颜色的深浅代表p值大小,进入“交互网络(联)—免疫浸润—[棒棒糖图],输入目的基因,算法可选ssGSEA与ESTIMATE,提供aDC、B cells、CD8 T cell、Cytotoxic cells等30余种免疫细胞类型
3)Fig6D、E分别为风险得分与免疫细胞表达相关性箱式图,高危组与低危组肿瘤突变负担(TMB)比较风琴与散点结合图;整理好分组数据后作图步骤与Fig4E一致
3.8 Fig7. scRNA-seq results of risk score and prognostic genes in gliomas.
胶质瘤风险得分与预后基因的单细胞测序结果分析
1)Fig7A左侧部分为neoplastic、OPC、immune cell、vascular、oligodendrocyte 5类细胞的非线性降维UMAP图,以5种颜色代表5种细胞簇类型;右侧部分以颜色代表风险得分
2)Fig7B为肿瘤细胞(neoplastic)发育轨迹,左侧部分基于5种细胞状态,右侧部分基于拟时序(pseudo-time)分析细胞发育轨迹
3)Fig7C为拟时序分析7个预后基因在5种细胞状态中的相对表达水平
4)Fig7D为肿瘤细胞中7个预后基因的单细胞轨迹
5)Fig7E为低危组、高危组GSVA的GO富集分析柱状图
6)Fig7F为TCGA_GBM数据集根据7个预后基因划分的2组(cluster1、2)单细胞分化轨迹
7)Fig7G为7F在CGGA数据库中验证结果
值得一提的是,单细胞数据分析需要服务器实现,目前也有单细胞分析在线网站如PanglaoDB等,若想更深入挖掘单细胞数据,做出与大众不同的分析结果目前还是需要代码实现个性化分析
3.9 Fig8. Association between risk score and overall survival in different subgroups (age, IDH, chemotherapy and radiotherapy). 不同亚组中风险得分与总体生存率相关分析
1)Fig8A-D分别为高危组与低危组中低龄(<65岁)/老龄(>65岁)患者,IDH突变/野生型,化疗/非化疗,放疗/非放疗患者的OS生存曲线比较图;仙桃学术目前支持云端数据的亚组KM曲线图、上传数据的生存曲线-多组比较(基础绘图—生存曲线-多组)
进入“临床意义(靠)—预后分析—亚组KM图,设置亚组类别,右侧“分子”处输入基因名称,绘制年龄≤60岁的亚组中CLEC5A高表达与低表达组生存曲线
2)Fig8E为预后模型列线图,Fig8F为模型的预测曲线
3)Fig8G为高危组、低危组患者综合风险OS生存曲线,Fig8H为TCGA_GBM数据中风险模型的ROC曲线,作图步骤同Fig2D、E
3.10 Table 2 Univariate and multivariate analyses in the prognostic model 预后模型的单因素、多因素分析;Univariate and multivariate analyses in the geriatric prognostic model 老年预后模型的单因素、多因素分析
Table2为根据7个预后基因建立的高危组、低危组预后模型的单因素、多因素Cox分析表格;Table3为Table2在老年患者中分析
现在文章中所有的图表都复现完毕啦~ 最后依然是我们的保留节目——全文总结
5.全文总结
挑
研究流程图及胶质瘤差异基因分析(Fig1)
圈
TCGA与CGCA数据集中基因集变异分析(Gene-set variation analysis, GSVA)与富集分析(Fig6)
联
低危组/高危组基因组改变(Fig4)
胶质瘤风险得分与预后基因的单细胞测序结果分析(Fig7)
靠
TCGA、CGGA数据集基线资料卡方检验(Table1)
Lasso回归模型筛选风险基因并计算风险得分(Fig2)
风险得分验证(Fig3)
胶质瘤2个亚组中7个预后基因表达及总体生存率验证(Fig5)
不同亚组中风险得分与总体生存率相关分析(Fig8)
预后模型的单因素、多因素分析(Table2)
老年预后模型的单因素、多因素分析 (Table3)
1、这篇文章为发表门槛越卷越高的肿瘤生信文章,依然在2021年发到了5分+,除了搭上单细胞分析的绿色快车,文章的分析思路并没有太多十分出彩的亮点;训练集与验证集的交互验证增加了工作量,也验证了风险预后模型的可信度
2、文章中的环形热图、富集分析与免疫浸润细胞的复杂数值热图生信文章大众里的小众口味,略让人耳目一新,提升好感
3、文章对7个风险基因构建的预后模型反复验证,并分亚组比较临床意义,深入挖掘了模型潜在的临床应用价值,若能在文末加上湿实验如7个预后基因的蛋白表达组织验证等可进一步提升证据可信度
扫描下方二维码
回复“生信”免费邀您进入【复现营】(名额有限)
开启高质量零代码复现教学!
微信扫码关注该文公众号作者