1月最新出炉！3.776分肿瘤免疫生信SCI,全文6图0代码复现

2023-06-26 09:06

大家好，我是四叶草~~今天带来的这篇文章“PLODs: Novel prognostic biomarkers and potential immunotherapy targets for head and neck squamous cell carcinoma”是2023年1月发表在Heliyon期刊的生信文章，我们一起来看一下吧。

题目：PLODs: Novel prognostic biomarkers and potential immunotherapy targets for head and neck squamous cell carcinoma

（PLODs：头颈部鳞状细胞癌新的预后生物标志物和潜在的免疫治疗靶点）

期刊：Heliyon

IF：3.776

全文共6图

图片1.png

期刊介绍

文章概要

套路：肿瘤-基因家族

基因：PLODs基因家族

数据来源：

UCSC Xena数据库的HNSCC RNA seq数据和临床数据

GSE29330数据集、GSE55549数据集、GSE23036数据集，用于验证

技术路线：通过UCSC Xena数据库下载HNSCC RNA seq数据和临床数据，通过GEO数据库下载GSE29330数据集、GSE55549数据集、GSE23036数据集（用于验证）→通过ONCOMINE tool分析多种肿瘤中，不同PLODs的表达水平→通过GEPIA2数据库用基因表达分组比较图的形式分析PLOD1, PLOD2和PLOD3在肿瘤和正常组织中表达水平的差异→通过火山图的形式，将GSE29330数据集、GSE55549数据集、GSE23036数据集的差异分析结果可视化，标注其中的PLOD1, PLOD2和PLOD3→通过K-M生存曲线进行生存分析，分析PLOD1, PLOD2和PLOD3表达水平对总生存期OS、疾病特异性生存期DSS和无进展生存期PFS生存率的影响→通过cBioPortal 数据库进行基因改变分析并分别对PLOD1, PLOD2和PLOD3通过GEPIA2数据库进行基因相关性分析，每个基因top100相关基因用韦恩图得到交集，获得共同的共表达基因，对9个共表达基因进行相关性分析并用相关性热图展示→通过ESTIMATE算法进行免疫浸润分析，绘制PLOD1, PLOD2，PLOD3的ImmuneScore， StromalScore和ESTIMATEScore的分组比较图，比较PLOD1, PLOD2，PLOD3高表达组vs低表达组之间ImmuneScore， StromalScore和ESTIMATEScore的差异；

通过ssGSEA算法进行免疫浸润分析，绘制PLOD1, PLOD2，PLOD3的棒棒糖图，比较PLOD1, PLOD2，PLOD3和24种免疫细胞的相关性→最后，进行GSEA富集分析，绘制了GSEA经典可视化图，展示显著富集的基因集。

图表简介

Figure 1 | PLODs表达差异分析（ONCOMINE tool结果、基因表达水平分组比较图（TCGA）、火山图（GEO））

Figure 2 | HNSCC中PLODs表达水平对不同类型生存期存活率的影响（K-M曲线）

Figure 3 | cBioPortal数据库基因改变分析以及PLOD-相关基因分析

Figure 4 | PLOD表达和ImmuneScore, StromalScore, ESTIMATEScore的关系

Figure 5 | 通过ssGSEA算法进行免疫浸润分析，绘制PLOD1, PLOD2，PLOD3的棒棒糖图，比较PLOD1, PLOD2，PLOD3和24种免疫细胞的相关性

Figure6 | GSEA富集分析-经典可视化图

分析工具

仙桃学术（https://www.xiantao.love/）（新版）各种生信分析工具

GEPIA2数据库（http://gepia.cancer-pku.cn/
PLOD表达水平差异及基因相关性分析
cBioPortal 数据库（https://www.cbioportal.org/
基因改变分析

复现流程

Figure 1 | PLODs表达差异分析（基因表达水平分组比较图（TCGA）、火山图（GEO））

Figure 1A | PLODs在多种肿瘤中的表达（ONCOMINE）

Figure 1B | PLODs在头颈癌（HNSCC）正常组织中的表达水平分组比较图（GEPIA2）（TCGA-GTEx）

Figure 1C | PLODs在3个GEO数据集中的表达

ONCOMINE数据库已于2022年停用，Figure 1A我们不进行复现。

Figure 1B复现：

登录GEPIA2数据库（http://gepia.cancer-pku.cn/）选择【Boxplots】，【Gene】中输入SDC1，【Datasets Selection】选中BRCA，并点击【Add】，选择【Matched Normal data】，设置或这默认|Log2FC| Cutoff和p-value Cutoff（这里设置了p-value Cutoff为0.05），点击【Plot】出图后点击保存就可以了。

Figure 1C复现：以GSE29330数据集的差异分析为例

第1步：差异分析

1、进入仙桃学术的【数据集检索】模块页面

进入仙桃学术-数据集检模块（https://www.xiantao.love/gds）→数据集检索栏中输入数据集GSE29330→点击【检索】，可看到当前数据集的摘要及实验设计信息。

2、添加样本：找到对应数据集和平台，点击右下方的【选择样本】→点击第一列最上方的小方框，选中后显示，表示选中了该样本→点击【添加到样本库】。

3、添加分组信息

点击数据集检索模块左侧的【进入我的样本库】→添加分组信息→选择【标准化处理】，我们先选择【不处理】→点击【提交分析】后结果自动保存。

4、查看箱式图是否整齐并下载差异分析结果：

在页面下方的【分析记录】中可以看到刚才完成的差异分析记录，先点击【更名】，修改名称→点击【下载】，下载箱式图，确认是否需要对数据进行标准化处理。

箱式图已经很整齐了，说明数据是经过标准化的，不需要重新对数据进行标准化并进行差异分析。

虽然仙桃生信工具的GEO数据集差异分析之后，可以直接下载火山图，但是原文用的阈值和常用的不大一样，|logFC|＞2，Padj＜0.05。因为需要设置参数，所以我们整理下载的【差异分析.xlsx】，整理数据后绘制火山图。

下载的差异分析结果如下所示：

第2步：数据整理

整理好的数据如下所示：

第3步：火山图绘制

在仙桃学术中选择【生信工具】→点击【全部工具】→点击左侧【其他】→点击右侧【[数据集]火山图】→选择第2步中保存在仙桃中的数据→默认p值类型为【p.adj】→logFC阈值为【2】， p值阈值为【0.05】→默认其他参数→点击【确认】→下载火山图。

因为免费版、基础版和高级版三个版本之间能用的模块以及能保存的历史记录上限以及部分下载和结果说明有差别。我们选择模块数量最多，能保存的历史记录上限最高的高级版。

图片21.png

图片22.png

图片23.png

图片24.png

图片25.png

我们看到，按照原文的阈值，PLOD1，PLOD2，PLOD3在灰色区域，为没有显著变化的基因，所以我们调整一下阈值，用最常用的|logFC|＞1，Padj＜0.05再来看一下。

图片26.png

图片27.png

如上图所示，PLOD1和PLOD2在|logFC|＞1，Padj＜0.05的阈值下显著上调。

参照以上步骤，更换不同的GEO数据集进行差异分析、数据整理和火山图绘制就可以得到其他两张小图。大家自己尝试一下。

Figure 2 | HNSCC中PLODs表达水平对不同类型生存期存活率的影响（K-M曲线）

Figure 2A | HNSCC中PLODs表达水平对总生存期OS存活率的影响

Figure 2B | HNSCC中PLODs表达水平对疾病特异性生存期DSS存活率的影响

Figure 2C | HNSCC中PLODs表达水平对无进展生存期PFS存活率的影响

Figure 2复现：

以Figure 2A | HNSCC中PLOD1表达水平对总生存期OS存活率的影响为例复现：

点击仙桃学术工具上方的工具选择栏【全部工具】→点击左侧导航栏【临床意义】→点击右侧导航栏【预后类】中的【[云]生存曲线（KM图）】→选择云端数据“TCGA-HNSC RNA seq TPM格式表达谱”→输入分子PLOD1→【预后参数】时间设置为【月】→【分组方法】选择【p值最小分组】→默认其他主要参数→点击【确认】→下载生存曲线（KM图）。

图片30.png

图片31.png

图片32.png

图片33.png

图片34.png

图片35.png

图片36.png

Figure 3 | cBioPortal数据库基因改变分析以及PLOD-相关基因分析

Figure 3A | 不同组织样本中特定突变频率变化与PLODs（PLOD1、PLOD2和PLOD3）类型的相关

Figure 3B | 所有PLOD的突变分析

Figure 3C | PLOD相关基因的交集分析

Figure 3D | 与不同PLOD表达（PLOD1、PLOD2和PLOD3）相关的9个共表达基因的相关性热图

Figure 3A复现：

进入cBioPortal数据库（https://www.cbioportal.org/）→在【Query】下选择【Head and Neck】→在右侧选择头颈癌研究案例，这里选择了TCGA Firehose Legacy数据集→点击最下方的【Query By Gene】→选择Genomic Profiles→输入基因名称（PLOD1，PLOD2和 PLOD3）→结果界面中可以看到图3A，点击【Download】右侧的倒三角，下载需要格式的OncoPrint的图，即不同组织样本中特定突变频率变化与PLODs（PLOD1、PLOD2和PLOD3）类型的相关性。

图片39.png

图片40.png

图片41.png

图片42.png

图片43.png

Figure 3B复现：

在Figure 3A的结果界面中，点击工具栏【Cancer Type Summary】→选择突变分析结果图片右侧的下载符号，选择需要的格式，就可以得到Figure 3B。

图片45.png

图片46.png

Figure 3C复现：

原文通过GEPIA2数据库获得top 100 PLOD-相关基因

我们以top 100 PLOD1-相关基因的获得为例复现：

登录GEPIA2数据库，选择【Similar Genes】→【Gene】中输入PLOD1→【Top#similar Genes】输入【100】→分别在TCGA Tumor和TCGA Normal中选择【HNSC】并点击【Add】 →点击【List】→点击右侧的Download，txt文件拖动到打开的EXCEL文件中打开并另存。同样的方法，只要输入不同的基因名，就可以得到top 100 PLOD2和PLOD3相关基因。

图片48.png

图片49.png

图片50.png

图片51.png

图片52.png

第1步：数据整理

将得到的PLPD1，PLOD2和PLOD3-top100相关基因列表进行整理，只保留基因列表列，修改列名并建立副本到新的EXCEL工作簿，整理好的数据如下所示：

第2步：韦恩图绘制

点击【全部工具】→点击左侧的【基础绘图】→选择右侧的【韦恩图】→选择第1步中整理好的数据→点击【验证】→默认主要参数→下载【交集情况.xlsx】和韦恩图。

图片54.png

图片55.png

图片56.png

图片57.png

图片58.png

图片59.png

Figure 3D复现：

第1步：通过仙桃工具下载TCGA-HNSC RNAseq TPM格式数据

点击工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧【 [云]疾病vs非疾病】→默认所有参数→点击【确认】→点击【方法学】→点击【百度云超链接】并复制提取码→在新窗口中粘贴提取码并点击【提取文件】→选择文件并点击【下载】。

图片61.png

图片62.png

图片63.png

图片64.png

PS：

该文件包含了33种TCGA肿瘤的TPM格式的RNA-seq表达谱数据，整体下载时间会很长，建议先把文件保存到百度网盘，下载其中的TCGA-HNSC RNA-seq表达谱数据。
下载的TPM格式的TCGA- HNSC RNA-seq表达谱数据是txt格式。之后需要编辑时将文件拖到打开的Excel中打开并另存即可。

图片65.png

图片66.png

图片67.png

第2步：PLODs-相关基因RNA seq数据提取

图片68.png

图片69.png

图片70.png

图片71.png

图片72.png

图片73.png

图片74.png

图片75.png

图片76.png

删除转置前的数据，最终得到的数据如下所示：

第2步：相关性热图绘制

点击【全部工具】→点击左侧的【交互网络】→选择【相关性热图[原始矩阵]】→上传第1步整理好的数据→默认【统计】，【映射】，【布局】等主要参数→点击确认→下载相关性热图。

图片78.png

图片79.png

图片80.png

图片81.png

图片82.png

Figure 4 | PLOD表达和ImmuneScore, StromalScore,ESTIMATEScore的关系

Figure 4A | PLOD1表达和ImmuneScore, StromalScore, ESTIMATEScore的关系

Figure 4B | PLOD2表达和ImmuneScore, StromalScore, ESTIMATEScore的关系

Figure 4C | PLOD3表达和ImmuneScore, StromalScore, ESTIMATEScore的关系

Figure 4A复现：

点击上方菜单栏【全部工具】→点击左侧导航栏【交互网络】→点击右侧导航栏【免疫浸润】中的【[免疫浸润-云]单基因高低组差异】→选择云端数据TCGA-HNSC-RNA seq TPM格式数据→输入分子PLOD1→【算法】中选择ESTIMATE→点击【确认】→选择【ImmuneScore】【StromalScore】【ESTIMATEScore】→设置【组内总宽度】→设置【箱】【宽度】→设置【图片】【宽度】→默认其他主要参数→点击【确认】→保存免疫浸润-单基因高低组差异对比图。同理，输入分子PLOD2和PLOD3就可以得到其他两张免疫浸润-单基因高低组差异对比图，大家自己尝试一下~~

图片85.png

图片86.png

图片87.png

图片88.png

图片89.png

图片90.png

图片91.png

Figure 5 | 通过ssGSEA算法进行免疫浸润分析，绘制PLOD1, PLOD2，PLOD3的棒棒糖图

Figure 5A | PLOD1表达和24种免疫细胞的相关性

Figure 5B | PLOD2表达和24种免疫细胞的相关性

Figure 5C | PLOD3表达和24种免疫细胞的相关性

Figure 5A复现：

点击上方菜单栏【全部工具】→点击左侧导航栏【交互网络】→点击右侧导航栏【免疫浸润】中的【[免疫浸润-云]棒棒糖图】→选择云端数据TCGA-HNSC-RNA seq TPM格式数据→输入分子PLOD1→默认ssgsea算法和24个免疫细胞→默认映射→【标注】设置为【星号】→默认其他主要参数→点击【确认】→保存免疫浸润-棒棒糖图。同理，输入分子PLOD2和PLOD3就可以得到其他两张免疫浸润-棒棒糖图，大家自己尝试一下~~

图片94.png

图片95.png

图片96.png

图片97.png

图片98.png

图片99.png

Figure6 | GSEA富集分析-经典可视化图

Figure 6A | PLOD1的GSEA富集分析-经典可视化图

Figure 6B | PLOD2的GSEA富集分析-经典可视化图

Figure 6C | PLOD3的GSEA富集分析-经典可视化图

Figure 6A复现

第1步：单基因-差异分析

点击仙桃工具选择栏【全部工具】→点击左侧导航栏【表达差异】→点击右侧导航栏【[云]单基因-差异分析】→选择云端数据“TCGA-HNSC RNA seq TPM格式表达谱”→输入分子PLOD1→默认【分组参数】,低表达组为参考组→默认【分析参数】→点击【确认】，出现任务提交成功提醒→在【历史记录】中查询保存的【单基因差异分析】结果，下载【单基因差异分析】数据。

图片102.png

图片103.png

图片104.png

图片105.png

图片106.png

图片107.png

图片108.png

第2步，整理差异分析表格，用阈值padj＜0.05，|logFC|＞1筛选差异表达基因。

保留所有分子的gene_name和log2FoldChange两列数据，简化log2FoldChange列名如下所示：

第3步：GSEA富集分析

进入仙桃学术生信工具→点击上方菜单栏【全部工具】→点击左侧导航栏【功能聚类】→点击右侧导航栏【GSEA分析】中的【[GSEA]富集分析】→上传第2步整理好的数据→点击【验证】→选择【基因集】（我们这里默认了一个基因集）和物种→设置【分析参数】中的【种子号】和【计算次数】→点击【确认】→提示“任务提交成功”，点击【确定】→在【历史记录】中更名并下载GSEA分析结果。

PS：