7+非肿瘤文章复现来了!分分钟教你实现!
各位小伙伴大家好,我是灰灰,本期给大家复现的是一篇2021年12月发表在3区7分+的医学杂志Front Immunol上的非肿瘤的生信文章~
一、期刊信息
二、文章背景
多发性硬化症(MS)是一种由自身免疫介导的中枢神经系统脱髓鞘疾病,复发缓解型多发性硬化症(RRMS)约占所有MS类型的85%,目前已发现RRMS主要由细胞免疫、体液免疫和细胞串扰引起。许多研究也发现中枢神经系统细胞外环境中的一些分子,主要是分泌蛋白,具有免疫调节作用,它们是RRMS免疫细胞之间串扰的重要组成部,而细胞外蛋白最具糖基化作用,可能进入体液作为RRMS潜在的生物标志物或治疗靶点。
在本研究中,作者从GEO数据库中下载了MS人脑组织芯片基因表达谱(GSE5839),筛选出MS人脑组织和正常人脑组织样本之间的差异表达基因(DEGs);然后,从DEGs中选择了细胞外蛋白差异表达基因(EP-DEGs);随后,利用对EP-DEGs进行了GO和KEGG富集分析;同时,建立了EP-DEGs的蛋白-蛋白相互作用(PPI)网络,筛选出与Hub基因相互作用的功能模块、Hub基因和细胞外分子。最后,利用ROC曲线和生存分析评估Hub EP-DEG的诊断价值和预后能力。
三、文章思路
挑:差异表达分析
Figure 2:MS组与对照组之间的差异基因表达的分析
Figure 3:细细胞外蛋白差异表达基因(EP-DEGs)的筛选
Table 1:RRMS人脑组织中前20个EP-DEGs(GSE5839)
圈:功能聚类
Figure 4/5:EP-DEGs的GO聚类分析
Figure 6:EP-DEGs的KGEE聚类分析
联:交互网络
Figure 7:EP-DEGs构建PPI网络及Hub基因的筛选
Table 2:采用CytoHubba的10种拓扑分析方法获得Top10的EP-DEGs
靠:临床意义
Table 3:RRMS患者和对照样本的临床病理特征
Table 4:RRMS患者的基线特征
Figure 8:RRMS患者脑脊液中IL17A、Del-1、resolvinD1的水平及其与临床的相关性
Figure 9:RRMS中Del-1的ROC曲线及无复发生存期、无进展生存期曲线
四、使用工具
仙桃学术工具(https://www.xiantao.love/)
HPA数据库(https://www.proteinatlas.org/)
uniprot数据库(https://www.uniprot.org/)
GO数据库(http://geneontology.org/)
STRING数据库(https://string-db.org/)
五、复现步骤
Figure 2 | MS组与对照组之间的差异基因表达的分析
进入仙桃学术工具(https://www.xiantao.love/)→点击上方导航栏中的数据集检索→检索框中输入文中数据集GSE5839,点击检索→弹出如下界面(这里我们可以直观了解该数据集的概要以及实验设计)
点击平台号GPL96,弹出的新界面下拉至最下端,点击Download full table下载探针注释信息,然后提取探针ID和对应的Gene Symbol
点击左下角数据下载,弹出的界面中点击GSE5839_series_matrix.txt.gz下载表达谱数据 提取Sample_title样本分组信息以及探针表达矩阵信息
这里GPL96注释信息中探针的顺序和探针表达矩阵信息中探针的顺序的一致的,所以可直接将GPL文件里面的Gene Symbol对应的探针ID与series-matrix文件中探针ID匹配,最终整理汇总如下
进入仙桃学术工具(https://www.xiantao.love/)→点击上方导航栏中的生信工具→左侧导航栏选择表达差异(挑)中的PCA图→上传整理好的数据→默认其它参数,点击确认即可得到PCA图
返回步骤(1)的界面,点击右下角GEO2R可直接跳转至GEO2R分析界面,进入GEO2R分析界面,首先定义分组,点击Define group,在弹出的下拉框中输入MS组名,然后选中MS样本后点击MS组,将MS样本和组别关联起来,同样操作定义Control组,并关联Control样本→点击Analyse
PS:这里在定义分组时需要注意的是从2020年11月以后GEO2R的分组规则为先定义实验组,后定义对照组,这样实验组样本中上调的基因相对于对照组为阳性,下调的基因为阴性。
分析完成后的界面如上图所示,点击Boxplot右键保存即可得到样本间基因探针表达水平的箱线图;原文中差异基因的阈值为 p<0.05且| log2 fold change (FC) |≥1,这里我们点击download full table 下载差异分析的结果,并提取Gene.symbol、logFC、P.Value数据如下
进入仙桃学术工具(https://www.xiantao.love/)→点击上方导航栏中的生信工具→左侧导航栏选择表达差异(挑)中的火山图→上传前面整理好的数据→右侧基本参数中标注的分子里面输入Top10的差异,默认其它参数,点击确认即可得到差异基因火山图
参考步骤(4)中的表达谱数据,提取差异基因的表达数据,整理成如下热图数据格式
进入仙桃学术工具(https://www.xiantao.love/)→点击上方导航栏中的生信工具→左侧导航栏选择表达差异(挑)中的复杂数值热图(上传)→上传整理好的数据→默认相关参数,点击确认即可得到差异基因的热图
Figure 3 | 细细胞外蛋白差异表达基因(EP-DEGs)的筛选
进入HPA(https://www.proteinatlas.org/)数据库,点击检索栏右侧Fields,分别依次选择Protein class、Predicted secreted proteins、Any,点击Add后Search
弹出的界面点击TSV即可下载secreted proteins
进入仙桃学术工具(https://www.xiantao.love/)→点击上方导航栏中的生信工具→左侧导航栏选择基础绘图中的韦恩图→上传整理好的数据→默认相关参数,点击确认即可得到HPA数据库的胞外蛋白和DEG的韦恩图
PS:HPA数据库通过protein_class的检索可获取其它特定蛋白质类的列表,包括Cancer-related genes、Candidate cardiovascular disease genes、CD markers、Immunoglobulin genes等等,具体可参考如下
进入uniprot数据库(https://www.uniprot.org/),点击Subcellular locations
检索框输入extracellular,点击search,找到亚细胞定位Extracellular space(该术语通常用于与细胞有关的分泌蛋白)
点击Extracellular space后跳转至新界面,即可找到对应的GO条目GO:0005615
PS:这里通过uniprot数据库中的亚细胞定位获取了胞外蛋白的GO条目,同样的方法,除了定位细胞外也可定位线粒体、内质网等等从而获取GO条目,然后进一步获取对应GO条目涉及的基因
GO:0005576基因集获取:进入GO数据库(http://geneontology.org/),检索框输入GO:0005576,点击search按钮
弹出的新界面,点击to all genes and gene products associated to extracellular space前面的Link链接
点Organism限定物种为Homo sapiens
点击右上方Custom DL即可下载GO:0005576所涉及的基因集
重复步骤(2)即可得到uniprot数据库中的亚细胞定位获取的胞外蛋白基因集(GO:0005576)与差异基因的韦恩图,进一步将HPA和uniprot两种方法筛选出的胞外差异基因进行交集绘制韦恩图,提取两种方法共同的EP-DEGs,结合前面差异分析结果,提取Gene.symbol、logFC、P.Value即可继续绘制EP-DEGs的火山图,同时提取EP-DEGs的表达谱数据即可绘制EP-DEGs的热图,同时提取Top 20 EP-DEGs的Gene.symbol、logFC、AvaExpr、P.Value整理绘制三线表即为文中的Table 1
Figure 4/5 | EP-DEGs的GO聚类分析(气泡图/弦图)
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择功能聚类(圈)→GO/KEGG中的GO/KEGG富集分析,基因列表中输入前面得到的EP-DEGs,富集分析中全部GO条目,点击确认,保存结果为GO
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择功能聚类(圈)→GO/KEGG中的GO/KEGG富集分析可视化,勾选GO,类型选择气泡图,方法选择分面,默认其它参数,点击确认,即可得到EP-DEGs的GO富集结果
结合前面的差异分析结果,提取EP-DEGs的LogFC值,整理为如下格式数据
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择功能聚类(圈)→GO/KEGG中的GO/KEGG(联合logFC)→富集分析,上传整理好的数据,富集分析中分别选择GO:BP/GO:CC/GO:MF,点击确认,分别保存结果为BP/CC/MF
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择功能聚类(圈)→GO/KEGG中的GO/KEGG(联合logFC)→弦图,分别勾选BP/CC/MF,ID List输入有意义感兴趣的条目,默认其它参数,点击确认,即可得到EP-DEGs的GO富集分析BP/CC/MF的弦图
PS:文中作者选用气泡图和EP-DEGs联合LogFC值绘制的弦图进行展示GO富集的结果,这里大家也可选择柱状图、圈图等进行可视化,同时也可下载word 三线表
Figure 6 | EP-DEGs的KGEE聚类分析
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择功能聚类(圈)→GO/KEGG中的GO/KEGG富集分析,基因列表中分别输入上调及下调的EP-DEGs,富集分析中全部KEGG条目,点击确认,保存结果为KEGG上调/KEGG下调
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择功能聚类(圈)→GO/KEGG中的GO/KEGG富集分析可视化,分别勾选KEGG上调/KEGG下调,类型选择柱状图,ID List输入有意义感兴趣的条目,默认其它参数,点击确认,即可得到上调及下调的EP-DEGs的KEGG富集结果
Figure 7 | EP-DEGs构建PPI网络及Hub基因的筛选
进入STRING数据库(https://string-db.org/),左侧栏选择Multiple proteins,右侧输入EP-DEGs,物种选择homo sapiens,点击search
点击continue
随后点击Exports,选择as short tabular text output: download TSV
打开cytoscape→点击File-Import→Network from file,导入步骤(1)中STRING数据库下载的互作网络数据,点击导航栏中的layout选择数据呈现的样式Circular layout,同时也可通过style调整字体颜色等,最终得到蛋白蛋白互作网络图
选择MCODE插件,默认相关参数,点击analyze current network
得到的模块一即文中由MCODE插件构建的得分最高的节点基因集Figure 7B
选择CytoHubba插件,点击calculate→Top10,选择MCC,点击Submit,即可得到Top 10 的EP-DEGs,即文中Figure 7C,点击Save current rank即可保存对应的基因
同时,这里通过选择其它MNC、Degree、EPC、Bottle、Neck、EcCentricity、Closeness、Radiality及Betweeness Stress 9种拓扑分析方法可分别获得Top10的EP-DEGs,整理汇总即文中Table 2
接下来患者结合自己的临床数据对筛选出来的Hub EP-DEGs进行了验证, 这里我们就用仙桃的示例数据给大家进行后续图表的演示
Table 3/4 | RRMS患者和对照样本的临床病理特征表及RRMS患者的基线特征表
进入仙桃学术生信分析工具(https://www.xiantao.love/products)→左侧工具栏中选择临床意义(靠)→基线资料表上传数据→上传整理好的临床数据→调整相关参数(表格样式:纯基线资料表以及带有两组数值比较的列联表-简洁版),点击确认,Word三线表下载整理后即可得到基线特征表及RRMS患者和对照样本的临床病理特征表
Figure 8 | RRMS患者脑脊液中IL17A、Del-1、resolvinD1的水平及其与临床的相关性
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择基础绘图→分组比较图(点/箱/柱/小提琴图)→上传如下格式的整理好的临床数据→默认相关参数,点击确认,即可得到IL17A、Del-1、resolvinD1在不同分组中表达的柱状图
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择基础绘图→相关性散点图→上传如下格式的整理好的临床数据→默认相关参数,点击确认,即可得到对应的相关性散点图
Figure 9 | RRMS中Del-1的ROC曲线及无复发生存期、无进展生存期曲线
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择基础绘图→诊断性ROC0-独立指标→上传整理好的临床数据→默认相关参数,点击确认,即可得到对应的ROC曲线
进入仙桃学术生信工具(https://www.xiantao.love/products)→左侧工具栏中选择基础绘图→生存曲线(二分类/数值/单组) →上传整理好的临床数据→调整相关参数,点击确认,即可得到对应的生存曲线
好啦,以上就是本篇文章复现的所有内容,这里最后再给大家小结一下,文中整体思路万变不离其宗,主线还是挑圈联靠,比较出彩的是作者在挑的过程中结合疾病的发病机制特点将差异基因和细胞外分泌蛋白基因取了交集,然后基于该交集基因进行了后续的富集分析、PPI构建、hub 基因筛选、临床数据验证。
基于当前文献拓展一下思路,比如和免疫相关的风湿病是不是可以差异基因联合免疫基因进行分析呢?和血小板相关的心脑血管疾病是不是也可以差异基因联合血小板相关基因进行分析呢?当然也可以结合当前热点表型细胞焦亡、m6A、铁死亡、自噬、耐药等基因集进行分析,说了这么多,不知道有没有点燃屏幕前你的思想火花呢?如果有想法了,那就赶紧行动起来吧!
扫描下方二维码
回复“生信”免费邀您进入【复现营】(名额有限)
开启高质量零代码复现教学!
微信扫码关注该文公众号作者