1月最新出炉!3.776分肿瘤免疫生信SCI,全文6图0代码复现
大家好,我是四叶草~~今天带来的这篇文章“PLODs: Novel prognostic biomarkers and potential immunotherapy targets for head and neck squamous cell carcinoma”是2023年1月发表在Heliyon期刊的生信文章,我们一起来看一下吧。
题目:PLODs: Novel prognostic biomarkers and potential immunotherapy targets for head and neck squamous cell carcinoma
(PLODs:头颈部鳞状细胞癌新的预后生物标志物和潜在的免疫治疗靶点)
期刊:Heliyon
IF:3.776
全文共6图
套路:肿瘤-基因家族
基因:PLODs基因家族
数据来源:
UCSC Xena数据库的HNSCC RNA seq数据和临床数据
GSE29330数据集、GSE55549数据集、GSE23036数据集,用于验证
技术路线:通过UCSC Xena数据库下载HNSCC RNA seq数据和临床数据,通过GEO数据库下载GSE29330数据集、GSE55549数据集、GSE23036数据集(用于验证)→通过ONCOMINE tool分析多种肿瘤中,不同PLODs的表达水平→通过GEPIA2数据库用基因表达分组比较图的形式分析PLOD1, PLOD2和PLOD3在肿瘤和正常组织中表达水平的差异→通过火山图的形式,将GSE29330数据集、GSE55549数据集、GSE23036数据集的差异分析结果可视化,标注其中的PLOD1, PLOD2和PLOD3→通过K-M生存曲线进行生存分析,分析PLOD1, PLOD2和PLOD3表达水平对总生存期OS、疾病特异性生存期DSS和无进展生存期PFS生存率的影响→通过cBioPortal 数据库进行基因改变分析并分别对PLOD1, PLOD2和PLOD3通过GEPIA2数据库进行基因相关性分析,每个基因top100相关基因用韦恩图得到交集,获得共同的共表达基因,对9个共表达基因进行相关性分析并用相关性热图展示→通过ESTIMATE算法进行免疫浸润分析,绘制PLOD1, PLOD2,PLOD3的ImmuneScore, StromalScore和ESTIMATEScore的分组比较图,比较PLOD1, PLOD2,PLOD3高表达组vs低表达组之间ImmuneScore, StromalScore和ESTIMATEScore的差异;
通过ssGSEA算法进行免疫浸润分析,绘制PLOD1, PLOD2,PLOD3的棒棒糖图,比较PLOD1, PLOD2,PLOD3和24种免疫细胞的相关性→最后,进行GSEA富集分析,绘制了GSEA经典可视化图,展示显著富集的基因集。
Figure 1 | PLODs表达差异分析(ONCOMINE tool结果、基因表达水平分组比较图(TCGA)、火山图(GEO))
Figure 2 | HNSCC中PLODs表达水平对不同类型生存期存活率的影响(K-M曲线)
Figure 3 | cBioPortal数据库基因改变分析以及PLOD-相关基因分析
Figure 4 | PLOD表达和ImmuneScore, StromalScore, ESTIMATEScore的关系
Figure 5 | 通过ssGSEA算法进行免疫浸润分析,绘制PLOD1, PLOD2,PLOD3的棒棒糖图,比较PLOD1, PLOD2,PLOD3和24种免疫细胞的相关性
Figure6 | GSEA富集分析-经典可视化图
仙桃学术(https://www.xiantao.love/)(新版)各种生信分析工具
GEPIA2数据库(http://gepia.cancer-pku.cn/
PLOD表达水平差异及基因相关性分析
cBioPortal 数据库(https://www.cbioportal.org/
基因改变分析
Figure 1 | PLODs表达差异分析(基因表达水平分组比较图(TCGA)、火山图(GEO))
Figure 1A | PLODs在多种肿瘤中的表达(ONCOMINE)
Figure 1B | PLODs在头颈癌(HNSCC)正常组织中的表达水平分组比较图(GEPIA2)(TCGA-GTEx)
Figure 1C | PLODs在3个GEO数据集中的表达
ONCOMINE数据库已于2022年停用,Figure 1A我们不进行复现。
Figure 1B复现:
登录GEPIA2数据库(http://gepia.cancer-pku.cn/)选择【Boxplots】,【Gene】中输入SDC1,【Datasets Selection】选中BRCA,并点击【Add】,选择【Matched Normal data】,设置或这默认|Log2FC| Cutoff和p-value Cutoff(这里设置了p-value Cutoff为0.05),点击【Plot】出图后点击保存就可以了。
Figure 1C复现:以GSE29330数据集的差异分析为例
第1步:差异分析
1、进入仙桃学术的【数据集检索】模块页面
进入仙桃学术-数据集检模块(https://www.xiantao.love/gds)→数据集检索栏中输入数据集GSE29330→点击【检索】,可看到当前数据集的摘要及实验设计信息。
2、添加样本:找到对应数据集和平台,点击右下方的【选择样本】→点击第一列最上方的小方框,选中后显示,表示选中了该样本→点击【添加到样本库】。
3、添加分组信息
点击数据集检索模块左侧的【进入我的样本库】→添加分组信息→选择【标准化处理】,我们先选择【不处理】→点击【提交分析】后结果自动保存。
4、查看箱式图是否整齐并下载差异分析结果:
在页面下方的【分析记录】中可以看到刚才完成的差异分析记录,先点击【更名】,修改名称→点击【下载】,下载箱式图,确认是否需要对数据进行标准化处理。
箱式图已经很整齐了,说明数据是经过标准化的,不需要重新对数据进行标准化并进行差异分析。
虽然仙桃生信工具的GEO数据集差异分析之后,可以直接下载火山图,但是原文用的阈值和常用的不大一样,|logFC|>2,Padj<0.05。因为需要设置参数,所以我们整理下载的【差异分析.xlsx】,整理数据后绘制火山图。
下载的差异分析结果如下所示:
第2步:数据整理
整理好的数据如下所示:
第3步:火山图绘制
在仙桃学术中选择【生信工具】→点击【全部工具】→点击左侧【其他】→点击右侧【[数据集]火山图】→选择第2步中保存在仙桃中的数据→默认p值类型为【p.adj】→logFC阈值为【2】, p值阈值为【0.05】→默认其他参数→点击【确认】→下载火山图。
因为免费版、基础版和高级版三个版本之间能用的模块以及能保存的历史记录上限以及部分下载和结果说明有差别。我们选择模块数量最多,能保存的历史记录上限最高的高级版。
我们看到,按照原文的阈值,PLOD1,PLOD2,PLOD3在灰色区域,为没有显著变化的基因,所以我们调整一下阈值,用最常用的|logFC|>1,Padj<0.05再来看一下。
如上图所示,PLOD1和PLOD2在|logFC|>1,Padj<0.05的阈值下显著上调。
参照以上步骤,更换不同的GEO数据集进行差异分析、数据整理和火山图绘制就可以得到其他两张小图。大家自己尝试一下。
Figure 2 | HNSCC中PLODs表达水平对不同类型生存期存活率的影响(K-M曲线)
Figure 2A | HNSCC中PLODs表达水平对总生存期OS存活率的影响
Figure 2B | HNSCC中PLODs表达水平对疾病特异性生存期DSS存活率的影响
Figure 2C | HNSCC中PLODs表达水平对无进展生存期PFS存活率的影响
Figure 2复现:
以Figure 2A | HNSCC中PLOD1表达水平对总生存期OS存活率的影响为例复现:
点击仙桃学术工具上方的工具选择栏【全部工具】→点击左侧导航栏【临床意义】→点击右侧导航栏【预后类】中的【[云]生存曲线(KM图)】→选择云端数据“TCGA-HNSC RNA seq TPM格式表达谱”→输入分子PLOD1→【预后参数】时间设置为【月】→【分组方法】选择【p值最小分组】→默认其他主要参数→点击【确认】→下载生存曲线(KM图)。
Figure 3 | cBioPortal数据库基因改变分析以及PLOD-相关基因分析
Figure 3A | 不同组织样本中特定突变频率变化与PLODs(PLOD1、PLOD2和PLOD3)类型的相关
Figure 3B | 所有PLOD的突变分析
Figure 3C | PLOD相关基因的交集分析
Figure 3D | 与不同PLOD表达(PLOD1、PLOD2和PLOD3)相关的9个共表达基因的相关性热图
Figure 3A复现:
进入cBioPortal数据库(https://www.cbioportal.org/)→在【Query】下选择【Head and Neck】→在右侧选择头颈癌研究案例,这里选择了TCGA Firehose Legacy数据集→点击最下方的【Query By Gene】→选择Genomic Profiles→输入基因名称(PLOD1,PLOD2和 PLOD3)→结果界面中可以看到图3A,点击【Download】右侧的倒三角,下载需要格式的OncoPrint的图,即不同组织样本中特定突变频率变化与PLODs(PLOD1、PLOD2和PLOD3)类型的相关性。
Figure 3B复现:
在Figure 3A的结果界面中,点击工具栏【Cancer Type Summary】→选择突变分析结果图片右侧的下载符号,选择需要的格式,就可以得到Figure 3B。
Figure 3C复现:
原文通过GEPIA2数据库获得top 100 PLOD-相关基因
我们以top 100 PLOD1-相关基因的获得为例复现:
登录GEPIA2数据库,选择【Similar Genes】→【Gene】中输入PLOD1→【Top#similar Genes】输入【100】→分别在TCGA Tumor和TCGA Normal中选择【HNSC】并点击【Add】 →点击【List】→点击右侧的Download,txt文件拖动到打开的EXCEL文件中打开并另存。同样的方法,只要输入不同的基因名,就可以得到top 100 PLOD2和PLOD3相关基因。
第1步:数据整理
将得到的PLPD1,PLOD2和PLOD3-top100相关基因列表进行整理,只保留基因列表列,修改列名并建立副本到新的EXCEL工作簿,整理好的数据如下所示:
第2步:韦恩图绘制
点击【全部工具】→点击左侧的【基础绘图】→选择右侧的【韦恩图】→选择第1步中整理好的数据→点击【验证】→默认主要参数→下载【交集情况.xlsx】和韦恩图。
Figure 3D复现:
第1步:通过仙桃工具下载TCGA-HNSC RNAseq TPM格式数据
点击工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧【 [云]疾病vs非疾病】→默认所有参数→点击【确认】→点击【方法学】→点击【百度云超链接】并复制提取码→在新窗口中粘贴提取码并点击【提取文件】→选择文件并点击【下载】。
PS:
该文件包含了33种TCGA肿瘤的TPM格式的RNA-seq表达谱数据,整体下载时间会很长,建议先把文件保存到百度网盘,下载其中的TCGA-HNSC RNA-seq表达谱数据。
下载的TPM格式的TCGA- HNSC RNA-seq表达谱数据是txt格式。之后需要编辑时将文件拖到打开的Excel中打开并另存即可。
第2步:PLODs-相关基因RNA seq数据提取
删除转置前的数据,最终得到的数据如下所示:
第2步:相关性热图绘制
点击【全部工具】→点击左侧的【交互网络】→选择【相关性热图[原始矩阵]】→上传第1步整理好的数据→默认【统计】,【映射】,【布局】等主要参数→点击确认→下载相关性热图。
Figure 4 | PLOD表达和ImmuneScore, StromalScore,ESTIMATEScore的关系
Figure 4A | PLOD1表达和ImmuneScore, StromalScore, ESTIMATEScore的关系
Figure 4B | PLOD2表达和ImmuneScore, StromalScore, ESTIMATEScore的关系
Figure 4C | PLOD3表达和ImmuneScore, StromalScore, ESTIMATEScore的关系
Figure 4A复现:
点击上方菜单栏【全部工具】→点击左侧导航栏【交互网络】→点击右侧导航栏【免疫浸润】中的【[免疫浸润-云]单基因高低组差异】→选择云端数据TCGA-HNSC-RNA seq TPM格式数据→输入分子PLOD1→【算法】中选择ESTIMATE→点击【确认】→选择【ImmuneScore】【StromalScore】【ESTIMATEScore】→设置【组内总宽度】→设置【箱】【宽度】→设置【图片】【宽度】→默认其他主要参数→点击【确认】→保存免疫浸润-单基因高低组差异对比图。同理,输入分子PLOD2和PLOD3就可以得到其他两张免疫浸润-单基因高低组差异对比图,大家自己尝试一下~~
Figure 5 | 通过ssGSEA算法进行免疫浸润分析,绘制PLOD1, PLOD2,PLOD3的棒棒糖图
Figure 5A | PLOD1表达和24种免疫细胞的相关性
Figure 5B | PLOD2表达和24种免疫细胞的相关性
Figure 5C | PLOD3表达和24种免疫细胞的相关性
Figure 5A复现:
点击上方菜单栏【全部工具】→点击左侧导航栏【交互网络】→点击右侧导航栏【免疫浸润】中的【[免疫浸润-云]棒棒糖图】→选择云端数据TCGA-HNSC-RNA seq TPM格式数据→输入分子PLOD1→默认ssgsea算法和24个免疫细胞→默认映射→【标注】设置为【星号】→默认其他主要参数→点击【确认】→保存免疫浸润-棒棒糖图。同理,输入分子PLOD2和PLOD3就可以得到其他两张免疫浸润-棒棒糖图,大家自己尝试一下~~
Figure6 | GSEA富集分析-经典可视化图
Figure 6A | PLOD1的GSEA富集分析-经典可视化图
Figure 6B | PLOD2的GSEA富集分析-经典可视化图
Figure 6C | PLOD3的GSEA富集分析-经典可视化图
Figure 6A复现
第1步:单基因-差异分析
点击仙桃工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧导航栏【[云]单基因-差异分析】→选择云端数据“TCGA-HNSC RNA seq TPM格式表达谱”→输入分子PLOD1→默认【分组参数】,低表达组为参考组→默认【分析参数】→点击【确认】,出现任务提交成功提醒→在【历史记录】中查询保存的【单基因差异分析】结果,下载【单基因差异分析】数据。
第2步,整理差异分析表格,用阈值padj<0.05,|logFC|>1筛选差异表达基因。
保留所有分子的gene_name和log2FoldChange两列数据,简化log2FoldChange列名如下所示:
第3步:GSEA富集分析
进入仙桃学术生信工具→点击上方菜单栏【全部工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]富集分析】→上传第2步整理好的数据→点击【验证】→选择【基因集】(我们这里默认了一个基因集)和物种→设置【分析参数】中的【种子号】和【计算次数】→点击【确认】→提示“任务提交成功”,点击【确定】→在【历史记录】中更名并下载GSEA分析结果。
PS:
基因集主要来自MSigDB数据库(https://www.gsea-msigdb.org/gsea/msigdb/index.jsp),具体数据集的介绍可以在MSigDB数据库查看相关介绍。
物种选择,可以选人源、大鼠、小鼠。
设置种子,由于 GSEA 会进行重复随机计算,需要设置种子号保证每次输入的结果都是一致的,不同种子号产生的结果都有可能会有一定的差别。
计算次数:默认无,可以选 1000、5000、100000。提高计算次数能够增加 GSEA 富集结果的稳定性。(可能会有效降低校正后的 p值。)
下载的GSEA分析结果如下所示:
第3步:GSEA经典可视化
进入仙桃学术生信工具→点击【全部工具】→点击左侧导航【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]经典可视化】→选择第2步保存的结果→添加整理过的GSEA分析结果中感兴趣的通路id→默认其他主要参数→点击【确认】→下载GSEA经典可视化图。
Figure 6B和Figure 6C的复现大家参考Figure 6A的复现就可以了~~
好啦,今天的这篇文献就复现完啦~~这篇文章的思路和分析方法非常适合用零代码分析。
没有复杂的数据处理,只需要用到几个公共数据库像GEPIA2,cBioPortal数据库以及仙桃学术生信工具就可以完成分析和可视化~~~非常便捷。
这篇文章研究对象是PLODs,是一个包含了3个基因(PLOD1,PLOD2和PLOD3)的基因家族,大家在肿瘤领域,研究基因家族时可以借鉴这篇文章的思路。
数据来源包括某肿瘤TCGA-seq数据,某肿瘤GEO数据集(用于验证)。
接着通过GEPIA2数据库用基因表达分组比较图的形式分析基因家族中的几个基因在肿瘤和正常组织中表达水平的差异,并通过火山图的形式将GEO数据集的差异分析结果可视化,标注研究的基因家族的基因。
接下来,通过K-M生存曲线进行生存分析,分析基因家族的基因的表达水平对生存率的影响。
接着还可以通过cBioPortal 数据库进行基因改变分析并分别对基因家族的基因进行基因相关性分析,每个基因top100相关基因用韦恩图得到交集,获得共同的共表达基因,对共表达基因进行相关性分析并用相关性热图展示。
接着还可以通过ESTIMATE算法进行免疫浸润分析,绘制基因家族基因的ImmuneScore,StromalScore和ESTIMATEScore的分组比较图;
通过ssGSEA算法进行免疫浸润分析,绘制基因家族的棒棒糖图。最后,进行GSEA富集分析,绘制GSEA经典可视化图,展示显著富集的基因集。
微信扫码关注该文公众号作者