单基因泛癌也能发表纯生信?用这个思路搞定影响因子4.77分SCI
单基因纯生信高分文章的发表越来越难,越来越多的杂志青睐于泛癌或多组学的生信分析。
但是有的同学由于条件所限,没有办法补充湿实验,只能发表纯生信文章,没有思路怎么办?
没关系,今天小编带大家分享的这篇文章可能会帮助大家拓展单基因泛癌的纯生信文章思路,大部分工作都可以用仙桃学术,在线工具或软件完成。
“A comprehensive prognostic and immune infiltration analysis of EXOC3L1 in pan-cancer”是2022年9月发表在Frontiers in Genetics上的一篇生信文章,我们一起来看一下吧。
题目:“A comprehensive prognostic and immune infiltration analysis of EXOC3L1 in pan-cancer”(EXOC3L1在泛癌中的预后和免疫浸润综合分析)
期刊:Frontiers in Genetics
IF:4.772(2022年)
全文共12张图(正文10➕补充材料2),7张表(补充材料7)
套路:单基因泛癌
基因:EXOC3L1
数据来源: TCGA(数据库)、 UCSC Xena(数据库)
技术路线:
表达差异(Figure 1| EXOC3L1 mRNA在泛癌中的表达;Figure 2|免疫组化分析)→临床意义(Table S1-S6| Cox回归分析;Figure 3-5|泛癌中EXOC3L1表达和总生存期OS、疾病特异性生存期DSS和无进展间隔期PFI的关系;Figure 6| EXOC3L1表达和临床特征的相关性;Figure 7| 列线图和校准曲线;Figure S1| ROC曲线)→交互网络(Figure 8| EXOC3L1表达和免疫细胞浸润的相关性;Figure 9| 基于不同免疫细胞亚群的亚组K-M曲线;Figure S2| PPI蛋白互作网络)→功能聚类(Figure 10| EXOC3L1相关基因的富集分析)
图表简介:
Figure 1 | EXOC3L1 mRNA在泛癌中的表达
Figure 2 | 泛癌中EXOC3L1在正常和肿瘤组织中的IHC(免疫组化)图像
Table S1| Cox回归分析-ACC
Table S2| Cox回归分析- KIRC
Table S3| Cox回归分析-LUSC
Table S4| Cox回归分析-KIRP
Table S5| Cox回归分析-THCA
Table S6| Cox回归分析-PAAD
Figure 3 | 泛癌中EXOC3L1表达和OS(总生存期)的关系
Figure 4 | 泛癌中EXOC3L1表达和DSS(疾病特异性生存期)的关系
Figure 5 | 泛癌中EXOC3L1表达和PFI (无进展间隔期)的关系
Figure 6| 泛癌中EXOC3L1表达和临床特征的相关性
Figure 7| KIRC 和 LUSC列线图和校准曲线
Figure S1| KIRC,LUSC和PAAD的ROC曲线
Figure 8| EXOC3L1表达和免疫细胞浸润的相关性
Figure 9| 基于不同免疫细胞亚群的亚组K-M曲线
Figure S2| 100个EXOC3L1相关基因PPI蛋白互作网络
Figure 10| EXOC3L1相关基因的富集分析
Table S7| 通过GEPIA2得到的100个EXOC3L1相关基因
分析工具:
仙桃学术(https://www.xiantao.love/)(新版)
各种生信分析工具
HPA数据库 (https://www.proteinatlas.org)
免疫组化分析
GEPIA2数据库(http://gepia2.cancer-pku.cn/#index)
和EXOC3L1相关性最高的100个基因的提取
TIMER2.0数据库(http://timer.comp-genomics.org/)
免疫浸润相关性分析
STRING数据库(https://string-db.org/)
PPI蛋白互作网络分析
首先复现Figure 1,一共有3张小图。Figure 1A,Figure 1和Figure 1C。
Figure 1A和Figure 1B是 EXOC3L1mRNA在泛癌中的表达差异可视化图-非配对样本(Figure 1A:TCGA-GTEx数据库,Figure 1B:TCGA数据库)。
Figure 1C是 EXOC3L1 mRNA在泛癌中的表达差异可视化图-配对样本。我们可以用仙桃学术生信工具完成。
我们先来看一下如何进入仙桃学术生信工具。
进入仙桃学术(https://www.xiantao.love/)(新版)→选择“生信工具”→选择【高级版】 的【立即使用】(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例) ,就可以进入生信分析界面。
Figure 1A和Figure 1B是同类型图片,只是数据来源不同,我们以Figure 1A:TCGA-GTEx数据为例复现。
复现过程:鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【系列模块】→右侧导航栏选择【泛癌系列】中的【[泛癌]分组比较】→【云端数据】选择【TCGA_GTEx-ALL数据集】 →分子输入【EXOC3L1】→默认其他参数→点击【确认】→下载图片、保存结果或下载整份报告。同理,得到Figure 1B只需要选择云端” TCGA-ALL数据集“即可。
PS:历史记录只保存30天的记录,超过30天的记录会自动清理。所以建议大家一定要及时下载结果,避免数据丢失。
Figure 1C 是 EXOC3L1 mRNA在泛癌中的表达差异可视化图-配对样本。
Figure 1C复现过程:鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【系列模块】→右侧导航栏选择【泛癌系列】中的【[泛癌]配对图】→【云端数据】选择【TCGA -ALL数据集】 →分子输入【EXOC3L1】→默认其他参数→点击【确认】→下载图片、保存结果或下载整份报告。
Figure 2 是泛癌中EXOC3L1在正常和肿瘤组织中的IHC(免疫组化)图像。
以PAAD正常组织的IHC为例,我们在HPA数据库中寻找相应的免疫组化图像。
进入HPA数据库(https://www.proteinatlas.org) →输入分子名称EXOC3L1→点击【Search】→选择“EXOC3L1”分子对应的【Tissue】→跳转界面→选择【Pancreas
】→跳转界面→下拉页面就可以看到正常胰腺组织的IHC图像→点击一个IHC图像→跳转界面→左侧显示样本信息,右侧是对应的IHC图像,截图保存或者鼠标右键点击图像,下载所有的IHC图像后再选择需要的图像。
下载的文件如下图所示:
接下来查找PAAD病理组织的IHC图像。
在上面的第3步中,选择【Pathology】→在【CANCER】下拉列表中选择【pancreatic cancer】→跳转界面→下拉页面找到【PANCREATIC CANCER - Protein expression】,左上方显示【Staining】,【Intensity】,【Quantity】,【Location】4个选项,选择后相应的IHC图像显示绿色边框(如果不选择上方选项,也可以点击单个图片,查看图片和来源样品信息)→点击相应图像→跳转界面→左侧显示来源样品信息,右侧是对应的IHC图像,可以通过”➕“和”“➖”来调整显示比例大小,鼠标左键拖动图像→截图保存或者鼠标右键点击图像,下载所有的IHC图像后再选择需要的图像。
下载的文件如下图所示:
Table S-S6| Cox回归分析
我们以ACC为例,来复现Cox回归分析。
过程如下:进入仙桃学术生信工具→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【预后类】中的【[云]Cox回归】→【云端数据】选择【TCGA-ACC数据集】→【分子】输入EXOC3L1→【变量】添加【Age,Gender, Tumor status, Pathological stage, Laterality 和(分子-中位数分组)EXOC3L1】→添加分组→【预后类型】选择【OS】→默认其他参数→点击【确认】→下载Cox回归结果.xlsx和.docx文件。
Cox回归结果.xlsx:
Cox回归结果.docx:
Figure 3是泛癌中EXOC3L1表达和OS(总生存期)的关系,分为2张小图,Figure 3A是森林图,显示了泛癌中EXOC3L1表达对OS的影响。
Figure 3B又分为4张小图,分别展示了ACC,KIRC,LUSC和PAAD四种癌症的K-M生存曲线。
我们在仙桃中复现Figure 3A。因为涉及33个癌种,需要较多的步骤才能完成,耗时较长,我们先以ACC和BLCA这2个癌种为例来复现,需要3步:
第1步:Cox回归分析-ACC
第2步:Cox回归分析-BLCA
第3步:Cox回归分析结果整合
第4步:森林图绘制
首先完成第1步:Cox回归分析-ACC。进入仙桃学术生信工具→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【预后类】中的【[云]Cox回归】→【云端数据】选择【TCGA-ACC数据集】→【分子】输入EXOC3L1→【变量】输入【EXOC3L1】,添加的是【EXOC3L1中位数分组】→【分组】添加【Low[中位数]】和【High[中位数]】→【预后类型】选择【OS】→默认其他参数→点击【确认】→保存结果→下载Cox回归结果.xlsx和.docx文件。
Cox回归结果.xlsx如下:
Cox回归结果.docx如下:
第2步:同第1步,只需要在【云端数据】选择【TCGA-BLCA数据集】,就可以得到Cox回归分析-BLCA。
第3步:将前2步得到的Cox回归分析中单因素分析部分整合到一个EXCEL文件中,并将第1列中【Characteristics】名称的EXOC3L1修改为ACC和BLCA,
第4步:
鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【临床相关】中的【森林图】→上传数据→点击【验证】→点击【确认】→【保存结果】、【下载整份报告】或不同格式的森林图图片。
我们看到森林图中字迹重叠,需要调整【主要参数】中【图片】的【宽度】并点击【确认】→下载图片。
调整好的森林图文字清晰,没有重叠现象。
大家按照上述方法,整理33个癌种的Cox回归结果就可以得到Figure3A。形式上和原文略有不同,但是主要内容是一致的。
Figure 3B| ACC,KIRC,LUSC和PAAD四种癌症的K-M生存曲线。
我们以ACC为例在仙桃中复现:
进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【预后类】中的【[云]生存曲线(KM)图】→【云端数据】选择【TCGA-ACC数据集】→【预后类型】选择【OS】→默认其他参数→点击【确认】→下载图片。
PS:
我们在仙桃中已经完成部分分析之后,有的模块会自动记忆【特殊参数】中输入的【分子】,我们在上述步骤中没有输入分子这一步,就是因为模块的记忆功能,但是大家在绘图是一定要检查一下,如上图【5】中所示,确保分子名称的正确。
下载区除了提供pdf、tiff 和pptx格式的图片外,还提供了 xlsx格式的分析数据和数据分组情况,以及核心源码,大家可以下载查看。
Figure 4 | 泛癌中EXOC3L1表达和DSS(疾病特异性生存期)的关系
Figure 5 | 泛癌中EXOC3L1表达和PFI (无进展间隔期)的关系。
这两张图和Figure 3形式相同。
大家只需要参考Figure 3A复现过程,第1步和第2步中【预后类型】选择【DSS】和【PFI】,就可以得到Figure 4A和Figure 5A。
参考Figure 3B复现过程,【预后类型】选择【DSS】和【PFI】就可以分别得到Figure 4B和Figure 5B,大家可以自己尝试完成。
Figure 6| 泛癌中EXOC3L1表达和临床特征的相关性,一共12张小图。
我们以KIRC中,EXOC3L1表达和性别的关系为例,在仙桃中复现。
Figure 6复现过程:
进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【临床相关】中的【[云]临床意义(分组)】→【云端数据】选择【TCGA-KIRC数据集】→【临床变量】选择【(临床)Gender】→添加分组→主要参数中【箱】选择【不展示】→【小提琴】选择【展示】→【误差线】选择【均值±标准差】→默认其他参数→点击【确认】→下载图片。
PS:我们在仙桃中已经完成部分分析之后,有的模块会自动记忆【特殊参数】中输入的【分子】,我们在上述步骤中没有输入分子这一步,就是因为模块的记忆功能,但是大家在绘图是一定要检查一下,如上图【5】中所示,确保分子名称的正确。
PS:我们选取【误差线】用【均值±标准差】是为了和原文一致,选项中也有【均值±标准误】,一般来说标准差更能反应离散程度,根据需要也选取【均值±标准误】这个选项,便于读者判断数据的不确定性。
Figure 7| KIRC 和 LUSC列线图和校准曲线,Figure 7A, C| KIRC 和 LUSC列线图,Figure 7B, D| KIRC 和 LUSC校准曲线。
我们先通过仙桃来复现一张KIRC的列线图
复现过程:进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【预后类】中的【[云]预后列线图】→【云端数据】选择【TCGA-KIRC数据集】→【变量】添加【(临床)Age】【(临床)Pathological stage】和【(分子-中位数分组)EXOC3L1】→添加分组→主要参数中【预后参数】选择【OS】→【预测时间】添加【1、3、5年】→默认其他参数→点击【确认】→下载图片。
Figure 7B | KIRC校准曲线。
复现过程:进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【预后类】中的【[云]预后校准曲线】→【云端数据】选择【TCGA-KIRC数据集】→主要参数中【预后参数】选择【OS】→【预测时间】添加【1、3、5年】→【每次重复抽样的样本量】设置为80→点击【确认】→显示“成功提示→在上方菜单栏中找到刚才保存的结果,点击【下载】,在弹出的列表中选择即可下载图片。
PS:之前在仙桃完成列线图时,添加了【特殊参数】中的【变量】和【分组】,接着又开始校准曲线的绘制,仙桃自动记忆了之前添加的【变量】和【分组】,所以我们没有重复添加。大家在进行分析前需要仔细检查显示的【变量】和【分组】是否正确。
Figure S1| KIRC,LUSC和PAAD的ROC曲线。Figure S1一共有6张小图。
以KIRC为例Figure S1复现过程:
进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【诊断类】中的【[云]诊断ROC】→【云端数据】选择【TCGA-KIRC数据集】→输入分子EXOC3L1→默认【主要参数】设置→点击【确认】→保存图片。
Figure 8| EXOC3L1表达和免疫细胞浸润的相关性
原文通过TIMER2.0数据库进行免疫浸润分析,完成了EXOC3L1表达和免疫细胞的相关性热图。我们也同样通过TIMER数据库来复现。
这里有一个有趣的现象,我们在TIMER2.0数据库中输入“EXOC3L1”发现没有相应的基因,在Gene Cards(https://www.genecards.org/)中查询后发现, EXOC3L1基因以前的HGNC符号是“EXOC3L”,所以我们在TINER2.0中输入“EXOC3L”就可以。
下面我们再来完整地给大家复现一下:
进入TIMER2.0数据库(http://timer.comp-genomics.org/)→在最左侧的【Immune Association】栏下选择【Gene】→输入分子EXOC3L1→选择免疫细胞,我们在这里选择了B cell→点击【submit】→跳转界面→点击左上角图标→打开下载文件→弹出热图图像→鼠标右键点击图像→另存为。同理,选择macrophages, T cell CD4+, and T cell CD8+ 等不同的免疫细胞,就可以得到其他的3张热图。大家可以自己尝试一下。
Figure 9| 基于不同免疫细胞亚群的亚组K-M曲线
“基于不同免疫细胞亚群的亚组K-M曲线”在生信分析中并不常见,建议大家用不同临床变量的亚组分析替代,我们在这里复现亚组K-M曲线。
我们还是在仙桃中完成绘图,以CESC的Age为例:
绘图过程:进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【临床意义】→右侧导航栏选择【预后类】中的【[云]亚组KM图】→【云端数据】选择【TCGA-CESC数据集】→【特殊参数】下的【分子】输入【EXOC3L1】→【临床变量】选择【(临床)Age】【预后参数】设置为80→点击【确认】→显示“成功提示→在上方菜单栏中找到刚才保存的结果,点击【下载】,在弹出的列表中选择即可下载图片。
接下来的分析和复现都依赖于和EXOC3L1相关的100个top基因,我们称之为共表达基因,我们来看一下如何通过GEPIA 2获得这些共表达基因。
进入GEPIA 2数据库(http://gepia2.cancer-pku.cn/#index)→在【Single Gene Analysis】工具条下的输入框中输入EXOC3L1→点击【Similar】→跳转界面→选择【Top100】→在【TCGA Tumor】中全选并点击【Add】→点击【List】→跳转界面→点击【Download】下载列表。
下载的共表达基因列表如下所示:
Figure S2| 100个EXOC3L1相关基因PPI蛋白互作网络
原文的PPI互作网络图是直接在STRING数据库完成的,我们也在STRING数据库完成复现。
进入STRING数据库(https://string-db.org/)→左侧栏选择【Multiple proteins】→右侧输入top100共表达分子→物种选择【homo sapiens】→点击【search】跳转界面→点击【continue】→跳转界面→点击【Exports】,选择SVG格式文件保存图像。
Figure 10| EXOC3L1相关基因的富集分析
Figure 10共包含9张小图,Figure 10A| EXOC3L1相关基因在TCGA 33个癌种中表达的热图;
Figure 10B| 100个EXOC3L1相关基因的GO富集分析;
Figure 10C| 100个EXOC3L1相关基因的KEGG富集分析;
Figure 10D-I| 100个EXOC3L1相关基因的GSEA富集分析。
Figure 10A| EXOC3L1相关基因在TCGA 33个癌种中表达的热图。
我们分析了一下这张图,我们需要先在1个癌种的表达谱中,提取top100共表达基因的表达谱数据,然后对每一个基因的所有样本取均值或者最大值等,得到1列数据,同理对其余32个癌种的表达谱数据进行如上处理。之后再把33个癌种的top100共表达基因表达谱整合到1个EXCEL文件中,完成相关热图[原始矩阵]。
这个图的完成需要大量的数据处理工作,但其实并没有太大意义,只是凑图或者展示的作用,所以我们在这里不去复现,建议大家没有必要花大量的精力做这样的热图展示。
Figure 10B| 100个EXOC3L1相关基因的GO富集分析。
我们在仙桃中完成GO富集分析-气泡图。
第1步:GO富集分析
第2步:GO-气泡图绘制
第1步:GO富集分析过程:进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【功能聚类】→右侧导航栏选择【GOKEGG】中的【[GOKEGG]分析】→上传获得的 top100共表达基因→【主要参数】下的【分子列表】输入【top100共表达基因】→【富集参数】下的【条目】选择【全部GO】→点击【确认】→保存结果。
PS:GOKEGG富集数据上传之后,分子列表会自动出现在分子列表栏,大家也可以不用单独输入分子列表。
第2步:GO气泡图绘制。进入仙桃学术生信工具(https://www.xiantao.love/products/apply/c0b6febb-52dd-4525-970a-61bbe9e263ff)→鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【功能聚类】→右侧导航栏选择【GOKEGG】中的【[GOKEGG]气泡图】→选择第1步保存的数据→默认其他参数→点击【确认】→保存结果。
Figure 10C| 100个EXOC3L1相关基因的KEGG富集分析。复现过程参考Figure 10B。在第1步中,选择【富集参数】的【条目】为【KEGG】(详见7),其余步骤同Figure 10B复现过程。
Figure 10D-I| 100个EXOC3L1相关基因的GSEA富集分析
我们以Figure 10D为例:
第1步:单基因差异分析
第2步:数据整理
第3步:GSEA富集分析
第4步:GSEA富集经典可视化
第1步:单基因差异分析过程:鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【表达差异】→右侧导航栏选择【差异分析】中的【[云]单基因-差异分析】→【分子】输入EXOC3L1→【分组】中的【参考组】默认选择【Low】→点击【确认】。
在【历史记录】中查看结果→当【状态】从【执行】变成【完成】后,可以下载结果。
下载的单基因差异分析数据如下所示:
第2步:按照仙桃[GSEA]富集分析上传数据格式要求整理数据,整理好的数据如下所示:
有了整理好的数据,我们就可以进行第3步:GSEA富集分析了。过程如下:
鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【功能聚类】→右侧导航栏选择【GSEA分析】中的【[GSEA]富集分析】→上传第2步整理好的数据→点击【验证】→点击【确认】→提示“任务提交成功”,点击【确定】→在【历史记录】中下载GSEA分析结果。
下载的GSEA分析结果如下所示:
【GSEA富集分析】用时较【单基因差异分析】短,稍作等待就可以在工具选择栏的【历史记录】中看到【状态】显示【完成】就可以进行下一步分析了。
第4步:GSEA经典可视化。复现过程如下:
鼠标滑动到上方工具选择栏【分析工具】→左侧导航栏选择【功能聚类】→右侧导航栏选择【GSEA分析】中的【[GSEA]经典可视化】→选择第2步【历史记录】中的【GSEA分析】数据→→添加【ID列表】中的【可视化ID】→点击【确认】→下载图片。
PS:【ID列表】是输入想要可视化的基因集 ID,默认为对应云端数据结果中每个类目的前 2 个条目,可以根据需要进行输入修改。
注意:输入的 ID 来自所选云端数据记录的结果,需要先在【历史记录】中找到对应的记录,下载 excel结果,复制想要展示的 ID 到这个输入框中,一行代表一个。最多支持 1 张图绘制同时绘制 5 个基因集,我们在复现中输入了2个ID,原文显示了3个ID。
好啦,今天的这篇文章就复现到这儿,除了复现正文部分,我们还结合了补充材料,是不是很贴心呢?
具体一些本文未涉及的分析内容大家可以参照往期的复现推文,也可以加入我们的生信训练营,包括但不限于基础班训练营、文章复现训练营、分模块教学的快闪营、写作工具训练营等等,从生信小白到生信高手的成长之路,感兴趣的小伙伴千万不要错过啦~
微信扫码关注该文公众号作者