毕业不用愁!0代码带你复现6图2表非肿瘤SCI(实操性强,附教程)
题目:Bioinformatics-Based Study to Investigate Potential Differentially Expressed Genes and miRNAs in Pediatric Sepsis.
(基于生物信息学研究儿科脓毒症的潜在差异表达基因和miRNA)
期刊:MEDICAL SCIENCE MONITOR
IF:3.386(2022年)
全文正文部分一共6个图+2个表。
期刊介绍:
文章概要
套路:非肿瘤
数据来源: GEO数据库(数据集GSE25504, GSE26378, GSE26440)
技术路线:获得3个数据集(GSE25504, GSE26378, GSE26440)→GEO2R进行差异分析(阈值设定g P-value <0.05,|logFC| ≥1.0)→差异基因的GO/KEGG功能富集分析(P value <0.05的条目被认为是显著富集的条目)→STRING蛋白-蛋白互作网络建立以及hub基因鉴定→基于hub基因构建miRNA-差异基因网络。
图表简介
Table 1| 本文使用的GEO数据集信息汇总
Figure 1| 3个GEO数据集的差异基因火山图(Figure 1A-C)
Figure 2| 3个数据集上调基因的韦恩图(Figure 2A)和下调基因的韦恩图(Figure 2B)
Table 2| 3个数据集的差异基因交集情况
Figure 3| 差异基因GOKEGG富集分析
Supplementary Table 1| 差异基因GO-BP条目的富集分析表
Supplementary Table 2| 差异基因GO-MF条目的富集分析表
Supplementary Table 3| 差异基因GO-CC条目的富集分析表
Supplementary Table 4| 差异基因KEGG条目的富集分析表
Figure 4| 差异基因的蛋白-蛋白互作网络
Figure 5| hub基因的鉴定
Figure 6| 基于hub基因构建miRNA-差异基因网络
分析工具
仙桃学术工具(https://www.xiantao.love/) 各种生信分析工具
Cytoscape软件和CytoHubba插件 hub基因的鉴定
NetworkAnalyst 3.0数据库 (https://www.networkanalyst.ca/)
构建miRNA-差异基因网络
可以看到,本文的分析并不是很复杂,工作量也不是很大,不过本文最大的优势就是进行非肿瘤的分析。之前有小伙伴们反馈仙桃工具对非肿瘤还是不太友好,其实非肿瘤进行生信分析的关键还是找到合适的数据集,仙桃工具已经收录了很多非肿瘤的GEO数据集,分析起来也是十分方便的。话不多说,我们开始复现啦。
复现流程
Table 1| 本文使用的GEO数据集信息汇总
我们根据在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中查询到的信息,在Word中汇总成三线表。
进入仙桃学术-数据集检索模块(https://www.xiantao.love/gds)→数据集检索栏中输入数据集,以GSE26378为例,输入GSE26378→点击【检索】→查看【数据集】【样本数】【物种】【平台号】等信息并点击左下方的【数据下载】→跳转至GEO界面→点击界面上方的【GSE26378】→跳转界面→可以看到样本相关的详细信息,包含了文中的【Reference】、【GEO】 、【Platform】、 【Control】、【Sepsis】几项里的内容,根据内容整理表格即可。
通过Table 1的信息我们可以看到,原文是将3个数据集分别进行分析的,最后将差异基因取交集。虽然这种方法比较常用,但是有凑图的嫌疑,而且其中2个数据集GSE26378和GSE26440都是GPL570平台的,所以可能会有审稿人要求进行合并分析。
这里我们换了和原文不同的思路,现在仙桃中用工具将两个相同平台的不同数据集进行合并分析,下面所有的复现结果都是基于GSE26378和GSE26440数据集的合并。
Figure 1| 3个GEO数据集的差异基因火山图(Figure 1A-C)
Figure 1复现:
第1步:差异分析
1、进入仙桃学术的【数据集检索】模块页面
进入仙桃学术-数据集检索模块(https://www.xiantao.love/gds)→数据集检索栏中输入数据集GSE26378→点击【检索】,可看到当前数据集的摘要及实验设计信息。
2、添加样本:找到对应数据集和平台,点击右下方的【选择样本】→点击第一行最前面的小方框,第一列都显示,表示选中了所有样本→点击【添加至样本库】。
重复第1、2步,添加GSE26440数据集样本到仙桃数据集检索模块。
3、添加分组信息
点击数据集检索模块左侧的【进入我的样本库】→添加分组信息→选择【标准化处理】,我们先选择【不处理】→点击【提交分析】后结果自动保存。
下载差异分析结果:
在页面下方的【分析记录】中可以看到刚才完成的差异分析记录,先点击【更名】,修改名称→点击【下载】。
下载的差异分析结果如下所示:
第2步:火山图绘制
登录仙桃学术(https://www.xiantao.love/)→选择【生信工具】→点击【分析工具】→点击左侧的【数据集工具】→选择【[数据集]火山图】→选择第1步中保存在仙桃中的数据→默认p值类型为【p.adj】→默认LogFC阈值为【1】, p值阈值为【0.05】→默认其他参数→下载火山图和差异表格。
下载的差异表格如下所示:
Figure 2| 3个数据集上调基因的韦恩图(Figure 2A)和下调基因的韦恩图(Figure 2B)
我们直接在仙桃中合并了GSE26378和GSE26440两个数据集进行差异分析,不需要绘制韦恩图。如果分别对两个数据集进行差异分析之后可以试试用韦恩图来获得共同差异基因。
仙桃学术的【韦恩图】模块可以绘制韦恩图,大家看一下。
Table 2| 3个数据集的差异基因交集情况
根据火山图下载的【差异表格】,就可以整理出上调和下调基因列表,根据这个基因列表整理上调基因和下调基因的三线表就可以完成Table 2。
Figure 3| 差异基因GOKEGG分析
Supplementary Table 1| 差异基因GO-BP条目的富集分析表
Supplementary Table 2| 差异基因GO-MF条目的富集分析表
Supplementary Table 3| 差异基因GO-CC条目的富集分析表
Supplementary Table 4| 差异基因KEGG条目的富集分析表
Figure 3和Supplementary Table 1-4都是差异基因的GO/KEGG富集分析,我们放在一起复现。
第1步:数据准备
第2步:GOKEGG富集分析-全部GO+KEGG条目
第3步:GOKEGG富集分析柱状图绘制(以Figure 3A为例)
第1步:
根据差异分析数据,阈值设定|logFC|≥1,padj<0.05筛选差异基因,得到差异基因列表。
第2步:
进入仙桃学术生信工具→点击上方工具选择栏【分析工具】→点击左侧导航栏的【功能聚类】→点击右侧导航栏【GOKEGG】中的【[GOKEGG]分析】→上传第1步的数据→点击【验证】→【富集参数】的【条目】选择【全部GO+KEGG】→默认其他参数→点击【确认】→点击【保存结果】并下载【GOKEGG.xlsx】。
在下载【GOKEGG.xlsx】提取top10的BP, CC, MF和KEGG四个条目的分析结果并整理表格可以得到Supplementary Table 1-4。
提取top10的BP/CC/MF/KEGG条目的分析结果并整理表格可以得Supplementary Table 1-4。
第3步:GOKEGG富集分析柱状图绘制
进入仙桃学术生信工具→点击上方工具选择栏【分析工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GOKEGG】中的【[GOKEGG]柱状图】→选择第2步保存结果的数据→添加top10 GO条目→设置【y轴映射】和【颜色映射】→默认其他参数→点击【确认】→下载图片。
我们看到柱状图的美观度还可以提升,通过调整【图片】的宽度、高度;【柱】的填充色、描边粗细、宽度;【风格】的文字大小,可以获得个性化的柱状图。
重复上述操作,添加top10 CC, MF, KEGG条目可以得到Figure 3B-D。
Figure 4| 差异基因的蛋白-蛋白互作网络
Figure 4复现:
第1步:数据准备
第2步:蛋白-蛋白互作网络分析
第3步:Cytoscape软件鉴定hub基因并绘制蛋白-蛋白互作网络图
第1步,根据差异分析结果提取差异表达基因列表,整理好的列表如下所示:
第2步:
进入仙桃学术生信工具→点击上方工具选择栏【分析工具】→点击左侧导航栏【交互网络】→点击右侧导航栏【蛋白互作】中的【STRING蛋白互作分析】→上传第1步整理好的数据→默认根据上传表格自动添加的ID或者自己添加ID→设置【互作分子阈值】→点击【确认】→下载【网络图输入.xlsx】。
第3步:
①文件导入:打开Cytoscape→点击【File-Import】→【Network from file】导入第2步中仙桃下载的【网络图输入.xlsx】。
②下载连通性列表:点击【Network】→点击向右的下箭头标志→下拉菜单中选择【edges】回到全部差异基因的界面→【Style】→选择【Sample 1】→点击【Layout】并选择【Degree Sorted Circle layout】→点击右下方的【Node Table】→点击图标,导出表格。
③更改整体样式:点击【Layout】→点击【Perfuse Force Directed Open CL Layout】→点击【Combined-score】。这个样式方便根据连通性列表对不同的分级的分子设置颜色和样式。
④根据连通性列表对蛋白互作网络图进行美化,在Byp.列设置点颜色、大小、透明度→在【Layout】中设置样式→通过【Layout Tools】调整样式的大小,可以得到最终的蛋白互作网络图。
⑤图片导出:点击【File】→点击【Export】→点击【Network to image】就可以保存图片。
Figure 5| hub基因的鉴定
复现过程:在Cytoscape软件中选择CytoHubba插件→点击calculate→Top 9,选择算算法,我们先选择MCC→点击【Submit】,即可得到Top 9的hub基因→点击【Layout】选择样式→点击【Style】并在Def.列修改点的高度、宽度和文字的大小→点击右侧的【Save Current Rank】即可保存对应基因的excel表→点击【File】→点击【Export】→点击【Network to image】保存图片。
Figure 6| 基于hub基因构建miRNA-差异基因网络
最后我们来看一下hub gene-miRNA网络的构建,这里我们使用NetworkAnalyst数据库进行可视化分析。之前我们已经获得了hub基因结果,这里我们进行简单整理就可以上传提交了。
打开NetworkAnalyst数据库(https://www.networkanalyst.ca/NetworkAnalyst/home.xhtml)
→选择【Gene List Input】模块,点击进入→跳转界面→选择物种和ID类型→粘贴9个hub基因→点击【Upload】→点击右下方的【Proceed】→跳转界面→【Gene-miRNA Interactions】进行可视化→点击右下方的【Proceed】→跳转界面→点击【First Order Network】点击右下方的【Proceed】→跳转界面→调整风格→下载png格式图片。
到这里原文的所有图表就都复现完了,在处理多个数据集时,也提供给大家两种不同的选择。不过合并数据集一定要是相同平台的数据集,在分析自己的数据过程中,小伙伴们可以都尝试一下,最后根据结果来选择使用哪一种方法。
最后给大家带来一颗彩蛋:GSEA富集分析。
GO/KEGG富集分析仅关注少数几个显著上调或下调的基因,容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息
GSEA不需要指定明确的差异基因阈值,算法根据实际整体趋势分析。
仙桃工具也可以轻松实现GSEA富集分析,我们一起来看一下。
第1步:准备数据
第2步:GSEA富集分析
第3步:GSEA经典可视化
第1步,整理差异分析表格,保留所有分子的id和logFC两列数据,如下所示:
第2步:GSEA富集分析
进入仙桃学术生信工具→点击【分析工具】→点击左侧导航【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]富集分析】→上传第1步整理好的数据→点击【验证】→默认主要参数→点击【确认】→提示“任务提交成功”,点击【确定】→在【历史记录】中下载GSEA分析结果。
下载的GSEA分析结果如下所示:
第3步:GSEA经典可视化
进入仙桃学术生信工具→点击【分析工具】→点击左侧导航【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]经典可视化】→选择第2步保存的结果→默认或者添加下载的GSEA分析结果中感兴趣的通路ID→默认其他主要参数→点击【确认】→下载GSEA经典可视化图。
原文的工作量不大,思路也十分简单,使用仙桃工具不但可以复现,还可以增加更多的结果。小伙伴们赶快使用工具搜索一下自己领域的数据集,如果有合适的数据集就赶快用仙桃工具进行分析吧,套路式流程走一遍,非肿瘤也可以获得这么多的结果,再加上表达差异简单验证一下,分分钟达到毕业要求,还在等什么,赶快开始吧。
我们也推出了许多仙桃工具相关的训练营,包括但不限于高级版训练营、分模块教学的快闪营、写作工具训练营等等,还没有入手高级版的小伙伴们不要犹豫了,早买早发文,也祝大家早日发表属于自己的生信文章!
微信扫码关注该文公众号作者