太实用了!全文干货!12图4表,2.64分干湿结合SCI全文复现
大家好,我是奇奇~~今天带来的这篇文章“Bioinformatics Analysis and Identification of Potential Genes Associated with Pathogenesis and Prognosis of Gastric Cancer”是2022年3月发表在Current Medical Science期刊的生信文章,我们一起来看一下吧。
题目:Bioinformatics Analysis and Identification of Potential Genes Associated with Pathogenesis and Prognosis of Gastric Cancer
(胃癌发病机理与预后相关潜在基因的生物信息学分析与鉴定)
期刊:Current Medical Science
IF:2.64
全文共12图4表
套路: 肿瘤(干湿结合)
数据来源:GSE29272、GSE29998、GSE54129和GSE118916
技术路线:通过GEO数据库下载GSE29272、GSE29998、GSE54129和GSE118916数据集→通过GEO2R分析分别找出四组数据集中上调和下调的基因→通过韦恩图形式筛选出四个数据集中上调和下调基因的交集→通过STRING数据库对差异基因进行PPI网络分析,得到hub基因→对hub基因进行GOKEGG分析和表达差异分析→通过HPA数据库分析hub基因的蛋白表达→通过cBioPortal数据库对hub基因进行→分别对hub基因做KM生存曲线→对hub基因进行免疫浸润分析
Fig. 1 | 四组GEO数据集中的差异表达基因(DEGs)
Fig. 2 | 胃癌中的交集基因的GOKEGG富集分析
Fig. 3 | 差异基因的PPI网络
Fig. 4 | hub基因的GOKEGG富集分析
Fig. 5 | 正常组织和肿瘤组织中hub基因的表达差异分析
Fig. 6 | hub基因在肿瘤组织与正常组织的表达差异
Fig. 7 | HPA数据库中hub基因的蛋白表达
Fig. 8 | TCGA中hub基因的阶段特异性表达和遗传改变
Fig. 9 | hub基因的KM生存曲线
Fig. 10 | hub基因的免疫浸润热图
Fig. 11 | COL5A2在癌旁和肿瘤组织中的免疫组化染色图像
Fig. 12 | COL5A2在体外促进胃癌细胞的增殖并抑制细胞凋亡的作用
Table 1 | 四组GEO数据集中上调和下调基因的共同交集的基因
Table 2 | 上调和下调DEGs的前15个GO富集条目
Table 3 | 上调和下调DEGs的前5个KEGG富集条目
Table 4 | PPI网络的top 10 hub基因
仙桃学术(https://www.xiantao.love/)(新版)各种生信分析工具
GEO(https://www.ncbi.nlm.nih.gov/geo/)
GEO2R分析
DAVID(https://david.ncifcrf.gov/)
GOKEGG富集情况
STRING(https://www.ncbi.nlm.nih.gov/geo/)和Cytoscape及插件MCODE和CluePedia
制作PPI网络图
HPA数据集(https://www.proteinatlas.org/)
IHC病理切片
cBioPortal数据库(https://www.cbioportal.org/)
基因的突变情况和突变影响KM生存曲线
TIMER数据库(http://timer.cistrome.org/)
免疫浸润相关性分析
Fig. 1 | 四组GEO数据集中的差异表达基因(DEGs)
Fig. 1A 四组GEO数据集差异基因表达的火山图
Fig. 1B-C 四组GEO数据集上调和下调基因的韦恩图
Fig. 1A复现(第1、3、4个数据集已被仙桃收录,第2个数据集需要在GEO数据库中分析,这里以第1个数据集为例,在仙桃数据集检索中进行复现)
登录仙桃网站(https://www.xiantaozi.com/),选择【数据集检索】,输入数据集名称GSE29272,然后点击检索。
点击【选择样本】,将样本全部选中,点击【添加到样本库】,然后点击【进入我的样本库】。
选中所有的正常样本,点击【加入参考组】;选择所有的肿瘤样本,点击【加入实验组】。
点击【提交分析】。
在分析记录中找到相应的分析结果,点击【下载】-【下载整份报告】。
在报告文件夹中,\xt-reports\output\gds_diff_volcano_plot_gds_main路径下的.png为火山图。
注意在下次分析之前将样本库清空。接下来复现第2张图(仙桃中未收录的GEO数据集)
在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)网站中搜索数据集名称GSE29998。
在数据集界面中点击【Analyze with GEO2R】,使用GEO2R进行分析。
在【Define groups】中输入“test”然后回车。
选择所有的疾病组(Tumor)(选择之后的数据会变黄),然后点击test,将这些数据归为实验组。
用同样的方法,创建ref组,将所有的正常组(Normal)归入对照组。
下方的【Option】选项卡中,Force normalisation选择Yes,Log 2 fold change threshold中输入1,勾选下方的test vs ref,然后点击【Reanalyze】。
待结果出来之后,点击第一个火山图,点击【Explore and download】可以选择截图,然后点击【Download full table】下载分析结果。
使用仙桃重新绘制火山图。打开该数据集的分析结果(注意保留原始数据存档),只留下Gene symbol、LogFC和padj三列(注意修改pvalue的列头名称),另存为excel文件【GSE29998表达差异】。
进入仙桃网站,选择【生信工具】,在左侧的【表达差异】中选择我们需要用到的【火山图】。
上传【GSE29998表达差异】文件,点击【验证】,然后【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 1B-C复现
打开第1个数据集GSE29272表达差异表(\xt-reports-GSE29272\output中的差异分析.xlsx文件),选择筛选。
在padj列下拉菜单中选择【数字筛选】-【小于】,输入0.05,点击【确定】。再用同样的方法筛选LogFC大于或等于1的数据。
新建一个excel文件,命名为【Venn-up】,将筛选出的基因的Gene Symbol复制到【Venn-up】中,列头为GSE29272。
以同样的方法筛选GSE29272中padj<0.05,LogFC≤-1的下调基因,并复制到另一个【Venn-down】的excel文件中的GSE29272列头下。再分别以同样的方法筛选GSE29998、GSE54129和GSE118916中padj<0.05,LogFC≥1或LogFC≤-1的上/下调基因,并复制到【Venn-up】或【Venn-down】文件中的GGSE29998、GSE54129和GSE118916列头下,并保存文件。
进入仙桃网站,选择【生信工具】,在左侧的【基础绘图】中选择我们需要用到的【韦恩图】。
分别上传【Venn-up】和【Venn-down】文件,点击【验证】,然后【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
点击下载【交集情况】,分别重命名为【交集情况up】和【交集情况down】。
Table 1 | 四组GEO数据集中上调和下调基因的共同交集的基因
分别打开【交集情况up】和【交集情况down】文件,其中的GSE29272 AND GSE29998 AND GSE54129 AND GSE118916列即为四个数据集中上调/下调基因的交集。
Table 2 | 上调和下调DEGs的前15个GO富集条目
Table 2复现
打开DAVID网站(https://david.ncifcrf.gov/),点击【Functional Annotation】。
输入基因列表,或直接上传gene list文件,选择id类型【OFFICIAL_GENE_SYMBOL】,选择物种为人类,选择【Gene List】,然后点击【Submit List】。
点击展开GO,点击【GOTERM_BP_DIRECT】的Chart。
新建一个excel文件并命名为【GO_term】,复制前5组数据到该文件中。
只保留Category、Term、Count、%和P-value五列
以同样的方法找到CC和MF的前五个富集条目。
再以同样的方法找到下调基因的前15个富集条目,并在第一列前加一列表示上调或下调。
Table 3 | 上调和下调DEGs的前5个KEGG富集条目
Table 3复现
在【List】中可以看到之前上传过的数据,选择数据和物种,再点击【Use】。
点击展开Pathway,点击【KEGG_PATHWAY】的Chart。
新建一个excel文件并命名为【KEGG_term】,复制前5组数据到该文件中。使用同样的方法复制下调基因的前5个KEGG的term,添加一列Pathway ID和Genes。富集的基因可以点击Genes列的柱状图查看。
Fig. 2 | 胃癌中的交集基因的GOKEGG富集分析
Fig. 2A-C 交集基因的GO富集分析
Fig. 2D 交集基因的KEGG富集分析
Fig. 2A-C复现
新建一个excel文件并命名为【GOKEGG】,列头为id,将上调和下调的基因全部复制到该列头下。
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]分析】。
上传【GOKEGG】文件,点击【验证】,下方的富集参数选择全部GO,然后点击【确认】。
点击【保存结果】,对分析结果命名后点击【保存】。
在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]柱状图】。
默认上传最近一次的分析结果,【主要参数】中的y轴映射改为包含ID的数量,颜色映射改为校正后p值,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 2D复现
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]分析】。
上传【GOKEGG】文件,点击【验证】,下方的富集参数选择KEGG,然后点击【确认】。
点击【保存结果】,对分析结果命名后点击【保存】。
在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]气泡图】。
默认上传最近一次的分析结果,ID列表中修改为想要研究的KEGG的ID,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 3 | 差异基因的PPI网络
Fig. 3A 差异基因的PPI网络
Fig. 3B top 19 hub基因
Fig. 3A复现
在STRING数据库(https://cn.string-db.org/)网站中选择Multiple proteins,输入所有的差异基因,物种选择人类,然后点击【SEARCH】。
点击【CONTINUE】。
点击【Exports】,下载第四个.tsv格式的数据。
打开Cytoscape软件,选择Network file to load,上传刚才下载的数据,点击【OK】。
选择【Layout】-【Attribute Circle Layout】-【(none)】。
点击左侧的【Style】可以选择更改样式。
点击Fill Color的第二个框框,选择【Layout】-【Degree Sorted Circle Layout】。
Column选择degree layout,Mapping Type选择Continuous Mapping。
双击渐变图,为渐变修改颜色,然后点击【OK】。
可以用鼠标拖动右侧的节点,以达到更好的可视化效果。
调整好样式之后选择【Export as Image】保存为.pdf或其他格式。
Fig. 3B复现
点击【Apps】-【MCODE】,然后点击左边的加号【+】。
设置degree threshold≥2、node score threshold≥0.2、K-core≥2、max depth=100,然后点击【Analyze Current Network】。
点击第一个,再点击【Create Cluster Network】。
点击【Circular Layout】,调整好样式之后选择【Export as Image】保存为.pdf或其他格式。
Table 4 | PPI网络的top 10 hub基因
Table 4复现
用excel打开之前保存过的.tsv文件(注意保存原始数据)。
删除除第一列、第二列之外的所有列,再删除第一行,再将第二列剪切到第一列末尾。
在B1单元格中输入COUNTIF函数“=COUNTIF(A:A,A1)”(在第A列中计A1基因出现的次数),然后将单元格下拖。
选择复制第二列,在第三列仅粘贴值,再删除第二列。
选中第一列,点击【数据】-【删除重复项】-【删除重复项】。
只选中列A,然后点击【确定】。
以第二列降序排序。
只取前10行,加上列头,加上rank。
Fig. 4 | hub基因的GOKEGG联合LogFC富集分析
Fig. 4A hub基因的GOKEGG联合LogFC富集分析圈图
Fig. 4B 由ClueGO+CluePedia构建的的KEGG分析
Fig. 4A复现
新建一个excel文件并命名为【GOKEGG-LogFC】,输入列头为id和LogFC,id列为top 19基因,并将GSE29272数据集中对应基因的LogFC粘贴至表格中并保存。
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG联合FC]分析】。
上传【GOKEGG-LogFC】文件,点击【验证】并点击【确定】。
点击【保存结果】,命名后点击【保存】。
在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG联合FC]圈图】。
默认上传前一次的GOKEGG联合LogFC分析的数据,在【主要参数】中的ID列表中输入GO的ID,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 4B复现
进入仙桃网站,选择【生信工具】,在左侧的【功能聚类】中选择我们需要用到的【[GOKEGG]网络图】。
默认上传前一次的数据(KEGG),【主要参数】中选择标注全部,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 5 | 正常组织和肿瘤组织中hub基因的表达差异分析
由于原文使用的Oncomine数据库已停止服务,所以暂时不复现Fig. 5。
Fig. 6 | hub基因在肿瘤组织与正常组织的表达差异
Fig. 6复现
进入仙桃网站,选择【生信工具】,在左侧的【表达差异】中选择我们需要用到的【[云]疾病vs非疾病】。
云端数据选择TCGA的胃癌的FPKM格式数据,特殊参数中输入并选择所有的hub基因。
【主要参数】中选择展示点,将颜色改变黑色,大小改为0.1,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 7 | HPA数据库中hub基因的蛋白表达
Fig. 7复现
打开HPA网站(https://www.proteinatlas.org/),在搜索栏中输入hub基因,这里以第一张图中的FN1为例,并点击【Search】。
点击第一个搜索结果,在弹出来的FN1基因数据中点击【TISSUE】。
点击【Gastrointestinal tract】下的【Stomach】。
点击切片图片并下载或截图。
Fig. 8 | TCGA中hub基因的阶段特异性表达和遗传改变
Fig. 8A | hub基因在不同发病阶段的表达情况
Fig. 8B | hub基因的突变情况
Fig. 8C | hub基因突变和未突变组的KM生存曲线(OS)
Fig. 8D | hub基因突变和未突变组的KM生存曲线(DFS)
Fig. 8A复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[云]临床意义(分组)】。
云端数据选择TCGA的胃癌的FPKM格式数据,特殊参数中,以第一张图中的FN1为例,输入hub基因,临床变量选择Pathologic_stage,分组分别为四个Stage。
【主要参数】中选择不展示箱,展示小提琴,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 8B复现
打开cBioPortal网站(https://www.cbioportal.org/),点击左侧的【Esophagus/Stomach】,选择一个TCGA的数据集,再点击下方的【Query By Gene】。
输入10个hub基因,然后点击【Submit Query】。
取消选择【Show whitespace between columns】,点击Download,下载成合适的格式。
Fig. 8C-D复现(接Fig. 8B)
点击上方【Comparison/Survival】,点击【Survival】。
左侧的Overall即为OS曲线,Disease Free即为DFS曲线。
右侧点击下载图片。
Fig. 9 | hub基因的KM生存曲线
Fig. 9A复现
进入仙桃网站,选择【生信工具】,在左侧的【临床意义】中选择我们需要用到的【[云]生存曲线(KM图)】。
云端数据选择TCGA的胃癌的FPKM格式数据,特殊参数中,以第一张图中的FN1为例,输入hub基因。
【主要参数】中,时间单位选择月,点击展示风险表格,点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 10 | hub基因的免疫浸润热图
Fig. 10复现
新建一个excel文件并命名为【hub基因免疫浸润热图】,第一列为hub基因,第一行为不同的免疫细胞。
打开TIMER网站(http://timer.cistrome.org/),点击【Immune Association】。
选择基因和免疫细胞,这里以FN1和B cell为例,点击【Submit】。
点击STAD行的TIMER列数据,将Purity和B cell的数据记录在【hub基因免疫浸润热图】表中相应位置。
修改免疫细胞和hub基因,将所有的数据填到表格中,然后保存文件。
进入仙桃网站,选择【生信工具】,在左侧的【交互网络】中选择我们需要用到的【相关性热图[相关矩阵]】。
上传文件,点击【验证】,然后点击【确认】。
出图后可以根据需要保存相应格式的文件(如pdf、tiff等),也可以直接右键图片选择另存为至需要的路径,或者直接复制,再粘贴到相应的地方。
Fig. 11 | COL5A2在癌旁和肿瘤组织中的免疫组化染色图像
Fig. 12 | COL5A2在体外促进胃癌细胞的增殖并抑制细胞凋亡的作用
Fig. 11和Fig. 12为作者自己的实验部分。
微信扫码关注该文公众号作者