Redian新闻
>
GEO+TCGA双重挖掘!8图3表,3.9分肿瘤生信SCI全文复现

GEO+TCGA双重挖掘!8图3表,3.9分肿瘤生信SCI全文复现

公众号新闻

大家好,我是四叶草~~今天带来的这篇文章题目是“Five hub genes contributing to the oncogenesis and trastuzumab-resistance in gastric cancer”是2022年10月发表在Gene期刊的生信文章,我们一起来看一下吧。

题目:Five hub genes contributing to the oncogenesis and trastuzumab-resistance in gastric cancer(五个在胃癌发生和曲妥珠单抗耐药中起关键作用的基因)

期刊:Gene

IF:3.913(2022年)

全文共8图3表(正文5图2表)。

1.期刊介绍:

2.文章概要

套路:肿瘤

基因:5个关键基因(筛选后获得):GNGT1, KRT7, SOX9, TIMP1, KRT16

数据来源:

GEO数据库(GSE77346数据集)

TCGA数据库(TCGA- STAD RNA seq数据)

技术路线:该研究从 GEO数据库和 TCGA数据库中分别获取了GSE77346数据集以及胃癌(STAD)的RNA seq数据。使用 R 编程语言筛选出不同表达的基因 (DEGs),分别采用GSEA、GO和 KEGG 富集分析来分析 DEGs 的功能和通路。接着,使用 STRING和 Cytoscape 软件建立蛋白质相互作用网络 (PPI),并筛选出hub基因。采用ROC 分析方法来评估hub基因的诊断价值。最后通过Kaplan-Meier 分析和对数秩检验分析hub基因的表达和胃癌的总体生存期(OS)对应生存率的相关性。

3.图表简介

Fig. 1| TCGA-STAD和GEO数据集交集基因分析

Fig. 1A| TCGA-STAD数据集差异表达基因(DEGs)火山图
Fig. 1B| GSE77346数据集差异表达基因(DEGs)火山图
Fig. 1C| GSE77346数据集差异表达显著的基因热图
Fig. 1D| TCGA-STAD和GSE77346数据集差异表达基因(DEGs)韦恩图

Table 1| 差异表达基因的GO功能富集分析

Table 2| 差异表达基因的KEGG功能富集分析

Fig. 2| GSE77346数据集GSEA富集分析-经典可视化图

Fig. 3| 差异表达基因的GO-KEGG富集分析-柱状图

Fig. 4| PPI网络构建、子网络构建和hub基因筛选

Fig. 4A| STRING构建蛋白-蛋白互作网络
Fig. 4B| Cytoscape软件MCODE插件子网络分析
Fig. 4C| Cytoscape软件CytoHubba 关键基因(hub genes)筛选

Fig. 5| STAD中5个hub基因表达水平分组比较图和诊断ROC曲线

Fig. 5A-E| 5个hub基因mRNA表达水平的分组比较图
Fig. 5F-J| 5个hub基因的诊断ROC曲线
Fig. 5K| KRT16高低表达组的总生存期分析(生存曲线K-M)

4.分析工具:

  • 仙桃学术(https://www.xiantao.love/)(新版)  各种生信分析工具

  • GEO2R   对GSE23558数据集进行差异分析

5.复现流程

Fig. 1| TCGA-STAD和GEO数据集交集基因分析

Fig. 1A| TCGA-STAD数据集差异表达基因(DEGs)火山图
Fig. 1B| GSE77346数据集差异表达基因(DEGs)火山图
Fig. 1C| GSE77346数据集差异表达显著的基因的热图
Fig. 1D| TCGA-STAD和GSE77346数据集差异表达基因(DEGs)韦恩图

我们开始复现啦~~首先是Figure 1A复现。

我们先登录仙桃学术-生信工具页面。

进入仙桃学术(https://www.xiantao.love/)(新版)→选择“生信工具”

Fig. 1A复现:

第1步:TAGA-STAD数据集筛选分子

点击上方菜单栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧导航栏[云]筛选分子→选择云端数据“TCGA-STAD RNA seq TPM格式表达谱”→选择【临床变量】为【(临床)status】→添加分组(左侧为参考组,右侧为实验组)→默认【分析参数】→点击【确认】,出现任务提交成功提醒→在【历史记录】中查询保存的【筛选分子】结果,更名并下载【筛选分子】数据。

第2步:数据整理

根据得到的筛选分子结果,筛选基因类型protein coding(mRNA),并保留gene name和log2FoldChange、padj几列数据,调整列顺序,得到的数据如下所示:

第3步:TCGA-STAD数据集差异表达基因(DEGs)火山图绘制

点击上方工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击【火山图】→上传第2步整理好的数据→点击【验证】→【主要参数】中【阈值】默认【logFC阈值】为1,【P值阈值】为0.05→默认其他主要参数→点击【确认】→下载【差异表格.csv】和火山图图片。

PS:原文标注了几个基因,应该是最终得到的hub基因,可以在完成全文的分析之后,再重新绘制火山图并标注hub基因。

可以设置【点】参数的点的大小和透明度,能够提高下面融合成一片的点之间的区分度。

Fig. 1B复现:

第1步:GSE77346数据集差异分析

1、进入仙桃学术的【数据集检索】模块页面

进入仙桃学术-数据集检模块(https://www.xiantao.love/gds)→数据集检索栏中输入数据集GSE77346→点击【检索】,可看到当前数据集的摘要及实验设计信息。

2、添加样本:找到对应数据集和平台,点击右下方的【选择样本】→点击第一行最前面的小方框,第一列都显示,表示选中了所有样本→点击【添加至样本库】。

我们在添加样本时发现,分组中样本数<2,没有满足仙桃对GEO数据集进行差异分析的条件,所以我们尝试用GEO2R来进行差异分析。

GEO2R进行差异分析

1、在当前页面点击GEO2R

2、点击【Define groups】→输入分组名称并选择相应样本,再点击对应的分组,将样本添加到相应的分组中(先输入实验组后输入参考组)→点击下方的【Analyze】→待分析完成后显示结果图和数据表,点击下方页面的【Download full table】,下载差异分析表格→下载GEO2R分析结果的火山图。

PS:我们看到GEO2R差异分析之后会输出一些可视化图,其中有箱式图和火山图,我们看到箱式图比较整齐,说明数据是经过标准化的,需要再进行标准化设置,可以直接下载差异分析结果。我们可以直接下载GEO2R差异分析得到的火山图,也可以下载差异分析数据后进行整理,上传到仙桃生信工具的火山图模块进行差异分析。


Fig. 1D 复现:

第1步:数据准备:

根据TCGA-STDA RNA seq数据和数据集GSE77346差异分析结果,分别根据阈Padj< 0.05 & |log2(fold change)| >1筛选差异基因,得到两列差异基因列表:

TCGA-STDA RNA seq数据差异分析结果:

数据集GSE77346差异分析结果:

整理好的数据如下所示:

第2步:韦恩图绘制

点击【全部工具】→点击左侧的【基础绘图】→选择右侧的【韦恩图】→选择第1步中整理好的数据→点击【验证】→默认主要参数→下载【交集情况.xlsx】和韦恩图。


Fig.1C复现:

第1步:数据准备,下载表达矩阵

进入仙桃学术工具(https://www.xiantao.love/)→选择【数据集检索】→检索框中输入数据集GSE77346→点击【检索】→点击【数据下载】→跳转界面到GEO数据库→下载GSE77346_series_matrix.txt.gz。

下载的表达矩阵数据需要解压并提取,将文件拖动到打开的EXCEL文件中,并另存为新的EXCEL文件,数据如下所示:

第2步:数据整理,GEO2R差异分析top29显著差异基因筛选,探针替换及添加分组。

1、数据整理

删除1-62行,以及最后一行→整理根据GEO2R差异分析结果,用VLOOKUP函数匹配探针和Gene Symbol(GEO2R差异分析结果可以用来进行匹配),并最终用Gene Symbol替换探针→整理好格式之后另存为CSV格式文件。

2、GEO2R差异分析top29显著差异基因筛选

最终的top29 显著差异分子探针和Gene Symbol:

3、探针替换

4、添加分组

第3步:简易数值热图绘制

点击工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧导航栏简易数值热图→上传第2步整理好的数据→点击【验证】→选择数据log2(value+1)转换和归一化设置(是否归一化根据数据情况选择)→设置【聚类(顺序)/分割】→设置【色阶】,添加色块描边→点击【确认】→下载热图图片。

Fig. 2| GSE77346数据集GSEA富集分析-经典可视化图

Fig. 2复现:

第1步,整理GSE77346数据集差异分析表格,保留所有分子的id和logFC两列数据,如下所示:

第2步:GSEA富集分析

进入仙桃学术生信工具→点击上方菜单栏【全部工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]富集分析】→上传第1步整理好的数据→点击【验证】→默认主要参数→点击【确认】→提示“任务提交成功”,点击【确定】→在【历史记录】中更名并下载GSEA分析结果。


下载的GSEA分析结果如下所示:

参考原文,我们用p <0.01, q value <0.25为阈值,筛选显著富集的通路。

第3步:GSEA经典可视化

进入仙桃学术生信工具→点击【全部工具】→点击左侧导航【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]经典可视化】→选择第2步保存的结果→添加筛选的显著富集通路ID,我们选择了KEGG_METABOLISM_OF_XENOBIOTICS_BY_CYTOCHROME_P450→默认其他主要参数→点击【确认】→下载GSEA经典可视化图。


Table 1| 差异表达基因的GO功能富集分析

Table 2| 差异表达基因的KEGG功能富集分析

Table 1复现:

第1步:数据准备

根据韦恩图交集情况,提取交集基因,得到差异基因列表。

如下所示:

第2步:GO富集分析

进入仙桃学术生信工具→点击上方工具选择栏【全部工具】→点击左侧导航栏的【功能聚类】→点击右侧导航栏【GOKEGG】中的【[GOKEGG]分析】→上传第1步的数据→点击【验证】→【富集参数】的【条目】选择【全部GO】→默认其他参数→点击【确认】→点击【保存结果】并下载【GOKEGG.xlsx】。

根据原文,用padj<0.05筛选显著富集的通路。提取相关参数,就可以完成Table 1。

Table 2是KEGG通路富集的分析结果,参考Table 1我们只要在GOKEGG分析中选择【条目】为【KEGG】即可。

Fig. 3| 差异表达基因的GO-KEGG富集分析-柱状图

Fig. 3 复现:

需要重新进行GOKEGG富集分析,【条目】选择【全部GO+KEGG】,过程参考Table 1复现。

接着进行GOKEGG富集分析可视化,绘制柱状图。

进入仙桃学术生信工具→点击上方工具选择栏【全部工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GOKEGG】中的【[GOKEGG]柱状图】→选择GOKEGG富集分析保存结果→设置或默认【y轴映射】和【颜色映射】→默认其他参数→点击【确认】→下载图片。

  

PS:没有显示KEGG结果,是因为在 GOKEGG 富集分析模块中,最终的结果表格只保留了满足较宽的阈值(p<0.1 以及 qvalue<0.2)的结果,而不满足这一较宽值下的条目都会被过滤,如果整个类(BP、CC、MF、KEGG)都不满足这个阈值,那么最终的表格中就会缺少这个类。

Fig. 4|

Fig. 4A| STRING构建蛋白-蛋白互作网络
Fig. 4B| Cytoscape软件MCODE插件子网络分析
Fig. 4C| Cytoscape软件CytoHubba 关键基因(hub genes)筛选

Fig. 4A复现:

准备DEGs列表:

进入STRING数据库(https://string-db.org/)→左侧栏选择【Multiple proteins】→右侧上传DEGs列表→物种选择【homo sapiens】→点击【search】跳转界面→点击【CONTINUE】→跳转界面→点击【Settings】设置【minimum required interaction score】,这里默认了0.40,如果修改阈值,需要点击【UPDATE】更新设置→点击【Exports】,选择SVG格式的PPI网络图片和TSV格式的可以导入Cytoscape软件进一步分析及可视化的文件。


Fig. 4B复现:

文件导入:打开Cytoscape软件→点击【File】→点击【Import】→点击【Network from file】导入STRING数据库下载的TSV格式的互作网络数据。

 

MCODE插件子网络分析:

在Cytoscape上方【APP】中选择【MCODE】,默认设置Degree Cutoff=2, Max. Depth=100, K-Core=2,Node Score Cutoff=0.2→点击【Analyze Current Network】→可以看到每个子网络的得分,分别点击每个子网络→点击右侧的三个横线符号→选择【Create Cluster Network】。

设置Layout和Style,大家可以根据自己的不要设置不同的布局和样式。

子网络图片导出:点击【File】→【Export】→【Network to image】,保存子网络图片。

我们导出了分数最高的子网络,大家也可以按照相同的方法导出其他的子网络。

Fig. 4C复现:

1、CytoHubba插件鉴定hub基因

点击Cytoscape软件左侧的【cytoHubba】→选择目标PPI网络→点击【Calculate】→选择TOP【10】→默认MCC拓扑算法→点击【Submit】

2、设置Layout

3、保存hub基因的Excel表和hub基因网络图片:点击右侧的【Save Current Rank】即可保存hub基因的Excel表→点击【File】→点击【Export】→点击【Network to image】保存图片。

Fig. 5| STAD中5个hub基因表达水平分组比较图和诊断ROC曲线

Fig. 5A-E| 5个hub基因mRNA表达水平的分组比较图
Fig. 5F-J| 5个hub基因的诊断ROC曲线
Fig. 5K| KRT16高低表达组的总生存期分析(生存曲线K-M)

通过STRING构建PPI网络和Cytoscape的cytoHubba插件,我们得到了10个hub基因,接下来应该对这10个hub基因先进行基因表达水平分组比较图比较它们在STAD和正常组织中的mRNA表达水平的差异,接着通过诊断ROC曲线判断它们对STAD诊断的准确性,最后用K-M曲线进行生存分析。

最后选定的5个基因,是在STAD组织中的mRNA表达水平的显著高于正常组织,并且对STAD诊断的准确性高的基因。

Fig. 5A-E:

基因表达水平分组比较图复现:

点击工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧【 [云]疾病vs非疾病】→选择云端数据集(TCGA-STAD RNA seq TPM格式数据集)→输入hub基因,以AURKB为例→默认主要参数→点击【确认】→下载基因表达水平的分组比较图。


这里建议大家,在做和文章类似的分析时,先对10个hub基因做基因表达水平的分组比较图,根据诊断ROC和K-M分析之后,确定选定基因的数量,例如原文是最终鉴定了5个hub基因,这可能是因为,不是每个hub基因的mRNA表达水平都在正常组和疾病组之间存在显著差异,也不是每个hub基因用于疾病的诊断准确率高,也不是每个hub基因的表达量对生存结局有显著的影响,所以需要综合这几个分析的结果,鉴定出最终的hub基因。

Fig. 5F-J:

诊断ROC曲线复现:点击工具选择栏【全部工具】→点击左侧导航栏【临床意义】→点击右侧【[云]诊断ROC】→选择云端数据集(TCGA-STAD RNA seq TPM格式数据集)→输入hub基因,以AURKB为例→默认主要参数→点击【确认】→下载诊断ROC图片。

Fig. 5K:


K-M生存曲线复现:点击工具选择栏【全部工具】→点击左侧导航栏【临床意义】→点击右侧【[云]生存曲线(KM图)】→选择云端数据集(TCGA-STAD RNA seq TPM格式数据集)→输入hub基因,以AURKB为例→【预后类型】选择【OS】,【时间】选择【月】→选择分组方法(我们选择了P值最小分组)→点击【确认】→下载生存曲线(KM图)图片。

好啦,这篇文章的复现就完成啦~~该研究从 GEO数据库和 TCGA数据库中分别获取了GSE77346数据集以及胃癌(STAD)的RNA seq数据。

接着通过差异分析筛选出不同表达的基因 (DEGs),分别采用GSEA(GSE77346数据集)、GO和 KEGG 富集分析来分析 DEGs 的功能和通路。

接下来,使用 STRING和 Cytoscape 软件建立蛋白质相互作用网络 (PPI),并构建子网络,筛选出hub基因。采用ROC 分析方法来评估hub基因的诊断价值。

最后通过Kaplan-Meier 分析和对数秩检验分析hub基因的表达和胃癌的总体生存期(OS)对应生存率的相关性。

全文的分析思路并不复杂,大家可以借鉴原文的分析方法和思路完成自己研究课题的生信分析。

祝愿大家都能够早日发表自己的生信文章,更多教学内容大家可以参照往期复现推文,也可以加入我们的仙桃陪伴营,包括但不限于生信入门方法论、生信文献泛读与精读、生信常见图表解读与实操、生信课题设计方法、文章复现课(直播和文字版)、写作课等,感兴趣的小伙伴千万不要错过啦~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
9图4表完整复现3.8分生信SCI,干货满满简单5张图,用最简单生信SCI的模板套路复现!快速发表毕业就它了!第一共和银行起伏叹太实用了!全文干货!12图4表,2.64分干湿结合SCI全文复现重磅独家专访!摩根资产管理全球CEO George Gatch:看好中国业务前景,养老事业发展会为中国资管行业带来巨变没做实验!3个月发6分+SCI,这13个生信数据库快速搞定生信SCI!毕业不用愁!0代码带你复现6图2表非肿瘤SCI(实操性强,附教程)最新日程 | “6.5肿瘤心脏病日暨第四届全国肿瘤心脏病宣传周”开幕式暨“肿瘤心脏病AI筛查与评估软件”启动会本周日盛大召开!硬核技术!光速发SCI!生信用上它,没人高分SCI产量快过你!(附文章框架)这个世界总是有人让你动容Nature颠覆性发现:大脑思考,促进肿瘤生长!胶质瘤通过劫持神经元影响认知和生存以岭药业2022年收入、净利创历史新高 首款自研抗肿瘤生物药临床试验已获批惊呆!132篇经典生信文章复现,2400页+不做实验也能快速发高分SCI纯生信太难发高分?这些生信热点趁着没过气快发!数据库都给你匹配好了!癌症治疗新希望!Science:消除癌细胞中多余染色体可防止肿瘤生长!TCGA数据库挖掘,差异分析GSEA富集分析SCI全文复现带瘤生存7年,8岁男孩开始拍视频做肿瘤科普!中美俄科学家复现韩国的室温超导?你可能误解了“复现”|袁岚峰UMich GEO strike卷哭了!985医学硕士,实验室没人带,发不了生信SCI,结果出乎意料......复现2.8分生信文章,TCGA数据库挖掘,0代码搞定6张图如何控制肿瘤生长?科学家找到“基因密码”→哭了!生信SCI连续被拒三次,差点延毕,医学生也太惨了!好在师姐给我发了这……晨游。今天来谈谈ED,lol2023年9月排期 | 亲属移民F2A表A前进、表B出现排期;职业移民EB-3表A、表B均有所前进1月最新出炉!3.776分肿瘤免疫生信SCI,全文6图0代码复现3.62分肿瘤生信SCI全文复现,GOKEGG富集分析与信号通路嗷嗷快!生信SCI的硬核技术,TCGA挖掘就用它!(附文章框架)如何应对偷渡客问题(一)生信难发高分?这些2023生信套路助你冲击10分+!(附干湿结合)5图1表,复现单基因在GEO和TCGA数据集中共表达谷歌称TCP拥塞控制算法BBRv3表现出色,本月提交到Linux内核主线双林奇案录第三部之长命锁: 第九节2分+非肿瘤生信文章全文复现,6张图满满干货!惊呆!不会R语言、Python软件,零基础的师姐却三个月发二区生信SCI……厄贝沙坦 vs 氯沙坦、缬沙坦,有何区别?3表搞定!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。