实操性极强,9图1表,2022年9月2.595分非肿瘤生信SCI复现
糖尿病肾病(DN)是全球终末期肾病的主要原因。
在过去的几年中,转录组和转录组学的综合分析因为在多种肿瘤和非肿瘤中的广泛应用而备受关注。先前结合生物信息学的研究,揭示了几种糖尿病肾病的生物标志物,例如Protein S 和COL4A3。微量白蛋白尿被认为是一种众所周知的生物标志物,可以指示晚期糖尿病肾病的发生。然而,微量白蛋白尿不能充分预测无蛋白尿或轻度蛋白尿的糖尿病肾病患者。探索肾小管间质病变的额外生物标志物以指示糖尿病肾病的早期阶段似乎是必不可少的。
前面介绍的是今天带来的这篇文章的研究背景。题目是 “Identification of tubulointerstitial genes and ceRNA networks involved in diabetic nephropathy via integrated bioinformatics approaches”是2022年9月发表在Hereditas期刊的生信文章,我们一起来看一下吧。
题目:Identification of tubulointerstitial genes and ceRNA networks involved in diabetic nephropathy via integrated bioinformatics approaches
(生物信息学方法识别糖尿病肾病基因并构建ceRNA网络)
期刊:Hereditas
IF:2.595(2022年)
全文共9图1表
套路:非肿瘤
数据来源:GSE30529数据集(测试集),GSE104954数据集(验证集)
技术路线:我们根据原文的技术路线图来讲解。
作者首先从GEO数据库下载了测试集数据:人源糖尿病肾病数据集(GSE30529),其中含10个DN样本,12个Control样本;
接着进行了差异表达基因的筛选;
得到的差异表达基因(DEGs)分别进行GO和KEGG分析,蛋白-蛋白互作网络分析和基因簇分析;
接下来进行了关键基因(hub gene)的鉴定;
验证集数据通过分组比较图验证hub基因在不同分组中(DN vs Control)的表达差异并用ROC曲线验证hub基因对糖尿病肾病患者和正常人群的分类及诊断的效果;
接下来通过相关性散点图和分组比较图分析了hub基因和临床特征的相关性;
最后构建了mRNA-miRNA互作网络和ceRNA网络。
Fig. 1 | 技术路线图
Fig. 2 | 数据质控以及差异表达基因(DEGs)的筛选
Fig. 2A | 箱式图,可视化数据集差异分析中各个样本中分子的芯片强度情况
Fig. 2B | PCA图,用于查看数据集表达谱中样本间差异的情况
Fig. 2C | UMAP图,用于查看数据集表达谱中样本间差异的情况
Fig. 2D | 火山图,差异分析结果的可视化
Fig. 2E | 热图,展示一定数量的DEGs在疾病和正常组中的整体表达模式
Fig. 3 | GSEA富集分析经典可视化图,展示疾病组中显著富集的基因集
Fig. 4 | GOKEGG富集分析-气泡图
Fig. 4A | 展示top 10显著富集的生物过程(GO:BP)的气泡图
Fig. 4B | 展示top 10显著富集的通路(KEGG)的气泡图
Fig. 5 | 蛋白-蛋白互作网络构建和基因簇分析
Fig. 5A | 构建蛋白-蛋白互作网络
Fig. 5B-5D | 通过Cytoscape软件MCODE插件进行基因簇分析
Fig. 6 | hub基因鉴定和mRNA-miRNA共表达网络构建
Fig. 6A | 4种拓扑算法得到的hub基因的韦恩图
Fig. 6B | 构建mRNA-miRNA共表达网络
Table 1 | hub基因列表和详细信息
Fig. 7 | 验证集数据通过ROC曲线,验证hub基因对糖尿病肾病患者和正常人群的分类及诊断的效果
Fig. 7A | 通过分组比较图验证hub基因在不同分组中(DN vs Control)的表达差异
Fig. 7B | 通过ROC曲线验证hub基因对糖尿病肾病患者和正常人群的分类及诊断的效果
Fig. 8 | hub基因和临床特征的相关性
Fig. 9 | ceRNA网络和潜在的RNA通路构建
Fig. 1| 技术路线图
关于技术路线图的绘制可参考我们解螺旋《技术路线图绘制教程》的单元课,里面涵盖了多个常用软件的详细操作步骤及实例演示。
链接:https://pan.baidu.com/s/1ohoFC1vBqmrhdgAbRWk0fA
提取码:egue
Fig . 2 | 数据质控以及差异表达基因(DEGs)的筛选
Fig . 2A | 箱式图,可视化数据集差异分析中各个样本中分子的芯片强度情况
Fig . 2B | PCA图,用于查看数据集表达谱中样本间差异的情况
Fig . 2C | UMAP图,用于查看数据集表达谱中样本间差异的情况
Fig . 2D | 火山图,差异分析结果的可视化
Fig . 2E | 热图,展示一定数量的DEGs在疾病和正常组中的整体表达模式
Fig . 2A | 箱式图,可视化数据集差异分析中各个样本中分子的芯片强度情况
Fig . 2A复现:
第1步:差异分析
1、进入仙桃学术的【数据集检索】模块页面
进入仙桃学术-数据集检索模块(https://www.xiantao.love/gds)→数据集检索栏中输入数据集GSE30529→点击【检索】,可看到当前数据集的摘要及实验设计信息。
2、添加样本:找到对应数据集和平台,点击右下方的【选择样本】→点击第一行最前面的小方框,第一列都显示,表示选中了所有样本→点击【添加至样本库】。
3、添加分组信息
点击数据集检索模块左侧的【进入我的样本库】→添加分组信息(选择样本,点击对应分组,直到22个样本全部组完成)→在【标准化处理】中,我们先选择【不处理】→点击【提交分析】后结果自动保存。
4、下载箱式图:
在页面下方的【分析记录】中可以看到刚才完成的差异分析记录,先点击【更名】,修改名称→下载箱式图。
我们看到箱式图不够整齐,所以需要重新进行差异分析。我们在【标准化处理】中,我们选择【Normalize Between Arrays】,提交分析后更名并下载箱式图。
Fig . 2B | PCA图,用于查看数据集表达谱中样本间差异的情况
Fig . 2B复现:
参考Fig . 2A的复现过程,在【分析记录】中下载PCA图即可。
Fig . 2C | UMAP图,用于查看数据集表达谱中样本间差异的情况
Fig . 2C复现:
目前仙桃的UMAP图还在开发中,我们可以通过仙桃链接GEO2R,在GEO数据库进行差异分析,并下载UMAP图。
回到仙桃【数据集检索模块】,在搜索框中输入GSE30529→点击检索→点击GEO2R进行差异分析。
第2步:用GEO2R进行差异分析。点击【Define Groups】→输入“DN”并点击回车键,输入“Control”并点击回车键→根据[Title]描述的类型,分别选择Diabetic Human Kidney样本和Control样本,并点击定义的组名(DN/ Control),完成样本的添加→点击【Analyze】
PS:这里在定义分组时需要注意的是从2020年11月以后GEO2R的分组规则为先定义实验组,后定义对照组,这样实验组样本中上调的基因相对于对照组为阳性,下调的基因为阴性。
第3步:在差异分析的可视化结果中,我们看到箱式图并不是很整齐,我们需要重新设置,进行数据的标准化。
第4步:点击【Options】→在【Force normalization】下选择【Yes】,对数据进行标准化处理→查看箱式图→点击【Download full table】,下载TSV格式差异分析数据。
第5步:下载UMAP图
点击UMAP图→右键点击图片,将图片另存为。
Fig . 2D | 火山图,差异分析结果的可视化
Fig . 2D复现:
参考Fig . 2A的复现过程,在【分析记录】中下载火山图即可。
Fig . 2E | 热图,展示一定数量的DEGs在疾病和正常组中的整体表达模式
Fig . 2E复现:
参考Fig . 2A的复现过程,在【分析记录】中下载热图即可。
Fig . 3 | GSEA富集分析经典可视化图,展示疾病组中显著富集的基因集
第1步,在【分析记录】中下载差异分析数据
第2步,整理差异分析表格,保留所有分子的id和logFC两列数据,如下所示:
第3步:GSEA富集分析
进入仙桃学术生信工具→点击上方菜单栏【分析工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]富集分析】→上传第2步整理好的数据→点击【验证】→默认主要参数→点击【确认】→提示“任务提交成功”,点击【确定】→在【历史记录】中更名并下载GSEA分析结果。
下载的GSEA分析结果,根据阈值|Normalized Enrichment Score (NES)|>1,
q value (FDR)<0.05, p adj<0.05筛选显著富集的基因集。
如下所示:
第3步:GSEA经典可视化
进入仙桃学术生信工具→点击【分析工具】→点击左侧导航【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]经典可视化】→选择第2步保存的结果→添加一个显著富集的基因集ID,以REACTOME_INTEGRIN_CELL_SURFACE_INTERACTIONS为例→默认其他主要参数→点击【确认】→下载GSEA经典可视化图。同理,添加其他显著富集的基因集ID就可以得到Fig. 3其他的小图。
Fig . 4 | GOKEGG富集分析-气泡图
Fig . 4A | 展示top 10显著富集的生物过程(GO:BP)的气泡图
Fig . 4B | 展示top 10显著富集的通路(KEGG)的气泡图
Fig . 4A | 展示top 10显著富集的生物过程(GO:BP)的气泡图
Fig . 4A复现:
第1步:
根据差异分析结果,阈值设定|logFC|≥1,padj<0.05,筛选差异基因,得到差异基因列表。
如下所示:
第2步:[GOKEGG]分析:GO:BP
进入仙桃学术生信工具→点击上方工具选择栏【分析工具】→点击左侧导航栏的【功能聚类】→点击右侧导航栏【GOKEGG】中的【[GOKEGG]分析】→上传第1步的数据→点击【验证】→【富集参数】的【条目】选择【GO:BP】→默认其他参数→点击【确认】→点击【保存结果】并下载【GOKEGG.xlsx】。
第3步:数据筛选,按照原文的阈值设置,满足q value<0.05 同时gene count≥2的生物过程(GO:BP)为显著富集的生物过程。排序,筛选TOP10显著富集的生物过程。
第4步:GOKEGG富集-气泡图绘制
进入仙桃学术生信工具→点击上方工具选择栏【分析工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GOKEGG】中的【[GOKEGG]气泡图】→选择第2步保存结果的数据→添加top10 显著富集的GO:BP ID→设置【y轴映射】、【颜色映射】→默认其他参数→点击【确认】→下载图片。
Fig . 4B | 展示top 10显著富集的通路(KEGG)的气泡图
Fig . 4B复现:
参考Fig . 4A复现过程,在第2步[GOKEGG]分析中,在【富集参数】的【条目】中,选择【KEGG】;
保存结果并下载KEGG富集分析.xlsx数据,按照原文的阈值设置,满足q value<0.05 同时gene count≥2的通路为显著富集的通路。排序,筛选TOP10显著富集的通路;
在[GOKEGG] 气泡图模块的ID列表里添加TOP10显著富集的通路ID。
Fig . 5 | 蛋白-蛋白互作网络构建和基因簇分析
Fig . 5A | 构建蛋白-蛋白互作网络
Fig . 5B-5D | 通过Cytoscape软件MCODE插件进行基因簇分析
Fig . 5A | 构建蛋白-蛋白互作网络
Fig . 5A复现:
第1步,根据差异分析结果提取差异表达基因列表,整理好的列表如下所示:
第2步:通过STRING构建蛋白-蛋白互作网络
进入STRING数据库(https://string-db.org/)→左侧栏选择【Multiple proteins】→右侧上传差异基因列表→物种选择【homo sapiens】→点击【search】跳转界面→点击【CONTINUE】→跳转界面→点击【CONTINUE】→点击【Exports】,选择可以导入Cytoscape进一步分析及可视化的TSV格式文件。
第3步:Cytoscape软件进一步分析构建的PPI网络
1、文件导入:打开Cytoscape→点击【File-Import】→【Network from file】导入第2步中STRING数据库下载的TSV格式文件。
2、更改上/下调基因颜色
准备Excel数据,分别标注差异基因的类型:上调或下调,我们分别用up和down表示。
在Cytoscape软件中点击右下方的【Import Table From File】→选择准备好的数据→点击【打开】→默认【To a Network Collection】→点击【OK】→在【Style】中选择【Map.】列对应的方框→点击【Column】右侧的倒三角符号→选择【type】→在【Mapping Type】里选择【Discrete Mapping】→分别选择up和down上/下调基因代表的点的颜色。
3、保存PPI图片:点击【File】→点击【Export】→点击【Network to image】保存处理好的PPI互作图片。
Fig . 5B-D复现:
1、在【APP】中选择【MCODE】,根据原文,设置Degree Cutoff=2, Max. Depth=100, K-Core=2,Node Score Cutoff=0.2→选择分数最高的通路→点击右侧的三个横线符号→选择【Apply MCODE Style】。
2、设置Layout,可以选择不同节点排列形式,我们选择了Attribute Circle Layout。
3、设置Style:
点击【Style】并在【Def.列】修改节点的形状、高度、宽度和文字的大小。
4、保存基因簇图片:点击【File】→点击【Export】→点击【Network to image】保存处理好的PPI互作图片。
选择其他的分数较高的基因簇,设置Layout和Style,可以得到其他的基因簇图片。
Fig . 6 | hub基因鉴定和mRNA-miRNA共表达网络构建
Fig . 6A | 4种拓扑算法得到的hub基因的韦恩图
Fig . 6B | mRNA-miRNA共表达网络
Fig . 6A | 4种拓扑算法得到的hub基因的韦恩图
Fig . 6A复现:
第1步:Cytoscepe软件hub基因的鉴定
1、导入文件:
参考Fig .5 第3步中在Cytoscape软件中重新导入TSV格式的PPI互作的文件。
2、cytoHubba插件鉴定hub基因
在Cytoscape软件中选择CytoHubba插件→点击calculate→Top 10,选择算算法,我们先选择MCC→点击【Submit】,得到MCC算法得到的Top 10的hub基因互作网络图。
3、设置Style
点击【Style】并在Def.列修改节点的形状、高度、宽度和文字的大小。
3、设置节点聚合度大小
把连接度最高的hub基因放移动到中心,根据点击左侧的【Layout Tools】,移动标尺位置来调整外围的hub基因组成网络的大小。也可以通过Layout设置不同的布局。
4、保存hub基因互作xlsx数据
点击右侧的【Save Current Rank】即可保存对应基因的Excel表
5、保存图片:点击【File】→点击【Export】→点击【Network to image】保存图片。
同理,使用其他几种拓扑算法(DMNC/MNC/Degree),得到DMNC、MNC、Degree拓扑算法得到的Top 10的hub基因列表。
第2步:4个集合数据整理。将得到的4种拓扑算法下的Top 10的hub基因列表复制粘贴到一个Excel数据表中,如下所示:
第3步:韦恩图绘制
登录仙桃学术(https://www.xiantao.love/)→选择【生信工具】→点击【分析工具】→点击左侧的【基础绘图】→选择【韦恩图】→选择第5步中整理好的数据→点击【验证】→默认主要参数→下载【交集情况.xlsx】和韦恩图。
因为用原文相同的拓扑算法,我们在韦恩图中没有取到交集,所以我们用EPC算法替换DMNC算法,重新下载和整理数据后,我们得到了新的韦恩图,获得了5个hub基因,分别是PTPRC,ITGAM,FCGR2B,ITGB2和TYROBP。
Fig . 6B | mRNA-miRNA共表达网络
Fig . 6B复现:
原文通过miRmap, microT,miRanda几个在线工具预测hub基因的miRNAs靶标,并选择在多个工具中出现的miRNAs作为hub基因的miRNAs靶标。之后用Cytoscape进行mRNAs-miRNAs共表达网络的可视化。
其实预测miRNAs靶标的工具很多,我们分别用miRTarBase数据库和NetworkAnalyst数据库(基于TarBase 、 miRTarBase和和miRecords数据库)构建hub基因与miRNA的共表达网络。
第1步:
登录miRTarBase数据库
( https://mirtarbase.cuhk.edu.cn/~miRTarBase/miRTarBase_2022/php/index.php)→点击工具栏中的【Search】→选择【By Target Gene】→选择Species为【Human】→输入Gene Symbol,以ITGB2为例→点击【Submit】→跳转界面可以看到ITGB2- miRNA靶向关系,点击【Download search result】下载数据。
第2步:
打开NetworkAnalyst数据库
(https://www.networkanalyst.ca/NetworkAnalyst/home.xhtml)→选择【Gene List Input】模块,点击进入→跳转界面→选择物种和ID类型→粘贴5个hub基因→点击【Upload】→点击右下方的【Proceed】→跳转界面→选择【Gene-miRNA Interactions】进行可视化→选择【Gene-miRNA互作数据库】→点击右下方的【Proceed】→跳转界面→点击【First Order Network】→点击右下方的【Proceed】→跳转界面→在上方工具栏中设置Background(背景),Layout(布局),Node(节点)等参数→点击左侧的保存标志,选中所有的ID,复制粘贴数据到新的EXCEL工作表中。
第3步:两个数据库得到的miRNAs靶点取交集,为最终的ITGB2预测的miRNAs靶点:hsa-miR-335-5p,hsa-miR-146a-5p和 hsa-miR-26b-5p,整理的节点工作表如下所示:
第4步:打开Cytoscape→点击【File】→点击【Import】→点击【Network from file】导入第2步整理好的节点文件→通过点击左侧节点形状、大小和颜色对应的【Map.】列更改hub基因和代表miRNA的节点的形状、大小和颜色,以区分hub基因和miRNA。
这里的调整过程类似,我们以颜色为例:
点击颜色对应的【Map.列】→点击【Mapping Type】所在行最右侧的倒三角符号→选择【Discrete Mapping】→点击hub基因ITGB2所在行最右侧的三个点的符号→选择想要设置的颜色即可。
Table 1 | hub基因列表和详细信息
Table 1复现,根据韦恩图得到4种拓扑算法共同的hub基因,在Gene Cards中输入这几个基因,提取Full name和Description,在word中绘制三线表,就得到了Table 1。
Fig . 7 | 验证集数据通过ROC曲线,验证hub基因对糖尿病肾病患者和正常人群的分类及诊断的效果
Fig . 7A | 通过分组比较图验证hub基因在不同分组中(DN vs Control)的表达差异
Fig . 7B | 通过ROC曲线验证hub基因对糖尿病肾病患者和正常人群的分类及诊断的效果
Fig . 7A | 通过分组比较图验证hub基因在不同分组中(DN vs Control)的表达差异
Fig . 7A复现:以基因TYROBP为例
第1步:GSE104954-GPL22945 RNA表达谱和平台注释文件下载
进入仙桃学术【数据集检索模块】→输入数据集GSE104954→点击左下方的【数据下载】→跳转界面→点击【Series Matrix file】下的【GSE104954- GPL22945_series_matrix.txt.gz】,下载GSE104954-GPL22945 RNA表达谱→点击【GSE104954】后跳转界面,点击【GPL22945】→跳转界面,下拉页面并点击【View full table】复制粘贴到新的EXCLE工作表,整理平台注释文件,用于探针替换。
第2步:数据提取和整理
在平台注释文件中找到TYROBP和对应的探针是7305_at→在GSE104954-GPL22945 RNA表达谱中查找探针7305_at→复制7305_at所在数据行并转置粘贴到新的Excel工作表中,修改行名→复制样本信息所在行和ID所在数据行并转置粘贴到新的Excel工作表中(样本信息根据原文7 DN samples (GSM2811029-GSM2811035) and 18 controls (GSM2811043-GSM2811060) from human tubulointerstitial tissues. 提取,GSM2811029-GSM2811035设置为DN组,GSM2811043-GSM2811060设置为Control组)
整理好的数据如下所示:
第3步:分组比较图绘制。
点击仙桃学术工具上方的工具选择栏【分析工具】→点击左侧导航栏【基础绘图】→点击右侧导航栏【类别比较】中的【分组比较图】→上传第2步整理好的→默认【统计分析】→选择只展示【小提琴图】→添加【y轴标题】→默认其他主要参数→点击【确认】→下载图片。
Fig . 7B | 通过ROC曲线验证hub基因对糖尿病肾病患者和正常人群的分类及诊断的效果
Fig . 7B复现:以基因TYROBP为例
第1步:数据准备,数据和Fig . 7A使用的数据一样
第2步:诊断ROC曲线绘制
点击仙桃学术工具上方的工具选择栏【分析工具】→点击左侧导航栏【临床意义】→点击右侧导航栏【诊断类】中的【诊断ROC】→上传第1步整理好的数据→点击【验证】→默认【数据处理】设置→默认【统计】设置认→展示或不展示【曲线下面积】→默认其他主要参数→点击【确认】→下载诊断ROC图片。
Fig . 8 | hub基因和临床特征的相关性
由于原文所用数据库注册的问题,我们目前没有注册成功,所以这部分内容先不复现。
Fig . 9 | ceRNA网络和潜在的RNA通路构建
Fig . 9复现:
根据Fig. 6预测的miRNA靶标构建ceRNA网络。
第1步:登录ENCORI.数据库(也叫STARBASE3.0数据库)(https://starbase.sysu.edu.cn/index.php)→在最上方导航栏中的【miRNA-Target】下选择【miRNA-LncRNA】→点击左侧的边栏【microRNA】右侧的倒三角符号→输入之前预测的miRNA,以hsa-miR-335-5p为例→点击上方最右侧的【Download】,下载EXCEL工作表。同理,输入其他两个miRNA,可以得到hsa-miR-146a-5p和 hsa-miR-26b-5p预测的LncRNA数据表。
第2步:在最上方导航栏中的【miRNA-Target】下选择【miRNA-circRNA】→点击左侧的边栏【microRNA】右侧的倒三角符号→输入之前预测的miRNA,以hsa-miR-335-5p为例→点击上方最右侧的【Download】,下载EXCEL工作表。同理,输入其他两个miRNA,可以得到hsa-miR-146a-5p和 hsa-miR-26b-5p预测的circRNA数据表。
第3步:根据表格整理节点文件和属性文件,如下所示:
节点文件
PS:节点文件只有两列;
需要所有mRNA-miRNA以及miRNA-lincRNA/circRNA的两个节点名。
属性文件:
PS:属性文件只有两列;
需要列出所有的分子的类型(mRNA/miRNA/ /lincRNA/circRNA)
第4步:Cytoscape软件对ceRNA网络进行可视化
1、文件导入:打开Cytoscape→点击【File】→点击【Import】→点击【Network from file】导入第2步中STRING数据库下载的TSV格式文件。
2、导入属性文件:在Cytoscape软件中点击右下方的【Import Table From File】→选择准备好的节点属性数据→点击【打开】→默认【To a Network Collection】→点击【OK】。
3、设置Style:通过点击左侧节点形状、大小和颜色对应的【Map.】列更改代表hub基因ITGB2,miRNA,LincRNA,circRNA的节点的形状、大小和颜色,以区分hub基因和miRNA。
这里的调整过程类似,我们以形状为例:
点击下方方框,选择锁定节点的宽度和高度→点击形状对应的【Map.列】→双击【Column】所在行右侧,并点击最右侧的倒三角符号,选择【attribute】→双击【Mapping Type】所在行右侧,并点击最右侧的倒三角符号,选择【Discrete Mapping】→点击1种分子类型所在行,设置形状,再选择其他3种分子类型,设置不同形状。
4、ceRNA网络图导出:点击【File】→点击【Export】→点击【Network to image】保存图片。
这篇文章的复现就完成啦~~全文共9图1表,每张图又包含若干小图,工作量还是比较大的,基本的思路都包含在挑(表达差异)-圈(功能聚类)-联(交互网络)-靠(临床意义)中。
非肿瘤生信分析虽然比较小众,但是可以借鉴肿瘤中用到的生信分析方法,发表分数不错的SCI。文中的大部分生信分析和可视化都可以通过仙桃来完成,筛选后的hub基因用验证集通过ROC曲线和分组比较图(hub基因在DN和 Control组中的表达差异)进行验证,使得结果更有说服力,大家也可以借鉴这样的方法。
具体一些本文未涉及的分析内容大家可以参照往期的复现推文,也可以加入我们的生信训练营,包括但不限于生信入门方法论、生信文献泛读与精读、生信常见图表解读与实操、生信课题设计方法、文章复现课(直播和文字版)、写作课等,感兴趣的小伙伴千万不要错过啦~
微信扫码关注该文公众号作者