新年新气象,新版仙桃发文章啦!
大家好,我是浮浮~
已经2023年了,新年新气象,我们的仙桃工具也迎来了2.0的升级版本,并且在逐步更新,最终会形成一键集成化分析的体系,对于我们筛选分子进行生信分析会更加方便快捷。那么新的一年,大家的生信分析文章投出去了吗?
有一些还没有入门生信的学员还是感到不可思议,那么今天我们再带来一篇满满仙桃风的文章进行复现,一看就是仙桃工具的成果。今天带来的这篇文章“AFF3 is a novel prognostic biomarker and a potential target for immunotherapy in gastric cancer”是2022年4月发表在“Journal of Clinical Laboratory Analysis”的生信文章,我们一起来看一下吧。
题目:AFF3是一种新的预后生物标志物,也是胃癌免疫治疗的潜在靶点
期刊:Journal of Clinical Laboratory Analysis
全文一共2个表格9张图片,非常符合模块化论证的生信思路。
1.期刊介绍:
2.文章概要
套路:单基因套路
基因:AFF3
数据来源:TCGA
技术路线:泛癌表达差异--单基因表达差异--临床相关性--KM生存曲线--富集分析--免疫浸润--免疫标志物相关性--免疫微环境。
3.图表简介
Figure1:AFF3在多种人类癌症中的表达
Figure2:GC中AFF3的表达下调
Figure3:胃癌中AFF3表达与临床参数的相关性
Figure4:AFF3对胃癌的预后。OS的Kaplan-Meier生存曲线
Figure5:AFF3的GO术语和KEGG通路富集分析。
Figure6:AFF3对基质细胞和免疫细胞浸润的影响。
Figure7:AFF3和免疫细胞之间的相关性
Figure8:AFF3与免疫治疗标志物的相关性
Figure9:AFF3与TMB和MSI在多种癌症中的表达关联
Table1:TIMER2.0中AFF3与免疫细胞基因标记物的相关性分析
Table2:AFF3与GEPIA中免疫细胞基因标记物的相关性分析
4.分析工具
仙桃学术(https://www.xiantao.love/)(新版)各种生信分析工具
the Human Protein Atlas (https://www.prote inatl as.org/)
5.复现流程
首先我们来复现Figure1
我们打开生信分析神器:仙桃工具,开始对本文进行复现。进入仙桃学术主页:https://www.xiantao.love/
点击“生信工具”
【高级版】 → 【立即使用】(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)。▼
我们先来看一下工具首页,这里从视觉上就和旧版区别很大,就是将各个分析模块的示例图片放到了首页,大家可以通过点击相应的示例图片进入分析部分,这样就可以精准分析出图啦。
我们的升级版仍然在更新中,也在搬运旧版的内容,有一些分析模块暂时只能在旧版中使用,不过不要担心,慢慢都会搬运到新版中的。那么如果我们现在想要分析的部分在新版中还没有怎么办呢?我们可以通过下方的方式来进入旧版进行分析的。
首先我们来复现表达差异的结果,原文作者分析了主变量分子在泛癌中的表达情况,还有在胃癌中的表达差异,非配对和配对的结果都展示了,并且很明显就是用仙桃分析的。新版仙桃工具泛癌分析在“系列模块”。
新版工具操作也十分简单。点击“云端数据”,可以看到泛癌的更多选择。
这里有多种选择,根据原文我们选择TCGA和GTEx,就是选择了正常组织的数据,点击“确认”进行绘图。
我们可以看到,结果的内容和风格与原文都不完全一致(比原文简洁好看),这是因为和作者使用的数据库不同。我们也经常收到学员提问为什么有时候结果就不一样,这是因为分析数据、处理方法、纳入排除标准以及使用R包不同,就很难完全复现结果。不过大致是相同的,比如胃癌STAD的结果与原文是一致的。
接下来是Figure2
我们复现单基因单个疾病的表达差异部分,这里使用新版的工具来尝尝鲜吧。进入工具首页后,可以在【分类】这里点击“表达差异”,下面的示例图显示的就都是表达差异部分的分析模块,看到这些可视化的结果是不是一目了然呢。存储有云端数据的模块除了在文字部分有【云】的字样外,在示例图片上也有“云”字的水印,方便大家选择。
将鼠标停留在示例图片上面,还会显示该分析的应用,也方便我们进行选择适合的分析模块。我们以“疾病vs非疾病”模块为例进行复现。大家在分析自己课题的时候可以看一下配对样本的结果,同时展示配对样本结果会更有说服力。
进入模块之后可以发现里面的布局也有较大的调整。不过这样调整之后也方便后续进行更多功能的更新,而且也并不影响我们分析的进度,我们一起来操作一下吧。首选还是输入疾病,鼠标点击“云端数据”。
会弹出一个小窗口,在这里进行对疾病的选择。我们点击疾病的检索框,可以看到,新版的疾病以部位进行分类整理,并且可以选择数据过滤和格式,这样可以方便地得到更精确的检索结果,而且还可以增加分析的思路。
比如本文的疾病是胃癌,在“胃”部位中选择胃癌,有的部位是有多种癌症的,如果自己分析的时候遇到在同一部位有多个癌种,那么是不是可以分别进行分析,然后比较一下某个分子在同一部位两种疾病的差异呢?万一要是结果很好呢。话不多说,更多的可能性留给大家探索,我们继续进行复现,点击“胃癌”。
这里出现了四条结果,其中可以分为两类,一种是TCGA数据库,另一种是包含了GTEx正常组织的数据,原文使用了多种数据集,这里使用仙桃就可以直接得到两种结果。另外两条的区别是数据格式,分别是TPM和FPKM,我们推荐优先使用TPM格式,这里以TCGA数据库为例,点击“确认”。
首页就显示了我们新选择的疾病,注意,这里还显示了数据过滤情况和处理合适,方便我们检查是否用错了数据和方法。之后我们选择分子,这里就很简单了,在搜索框中输入选择即可。参数部分可以先使用默认的,这里增加了“保存参数”和“重置参数”,如果我们有自己习惯用的风格,不需要在一次次选择更改了,使用会更加方便。
结果部分的风格也做了较大的调整,将结果、解释、方法学进行了折叠,查看更加方便。“保存结果”即为保存到历史记录中,方便直接在工具中拼图,左下角也可以下载不同格式的结果,可以后期处理在AI中拼图,都是很方便的。
原文的这张图还展示了主变量分子在免疫组化结果中的表达差异。如果大家在临床能够很方便地收到组织标本,建议大家用自己的临床样本进行免疫组化,这里可以算是补实验的内容。如果没有条件做免疫组化也没有关系,我们可以使用THE HUMAN PROTEIN ATLAS(https://www.proteinatlas.org/)这个数据库得到相应的结果图片,不过这仍然属于生信分析的内容了。
进入数据库首页,直接在检索框中输入基因名称。
该检索为模糊检索,在结果中点击我们的目的基因。这次的结果结果只有一个,就不用筛选了,点击“pathology”。
在新的页面往下浏览到“Protein expression”位置,可以看到该分子在不同肿瘤中的免疫组化结果,如果这里没有想要的癌种,点击左侧的“CANCER”,在下拉菜单中找到想要的癌种,点击进入。
这里有很多病例结果可供选择,点击小图可以进入查看年龄、性别、抗体信息等等。如果想要正常组织的,在检索结果中点击“tissue”即可。解螺旋官网的单元课中也有该数据库的详细教程,感兴趣的小伙伴可以查看详细学习。
接下来Figure3
作者分析了该分子的临床意义,仙桃工具首页在“临床意义”中,点击后发现第一个“临床意义”就是,点击进入。
可以看到,临床意义这个模块,升级后的新版将这部分参数放到了分子这里,选择相对更加方便。我们根据原文第一个小图选择分组,临床变量中还有很多的选择,大家可以多尝试,选择后点击“确认”。
可以看到这个结果虽然和原文不一样,但是和差异结果相符合。该分子在肿瘤中表达低,而年龄大是肿瘤高危因素,所以该分子在高龄中低表达。后面的小图也都是在这个模块做的,我们就不一一重复操作了,大家可以试试。
Figure4是预后相关的结果。
首先是预后分析非常经典的KM曲线,我们在“临床意义”中找到带有云端数据的“生存曲线(KM图)”。
这个模块相对于旧版有一些改动,仙桃工具细节满满,我们可以先点击“确认”看一下。
可能会有小伙伴奇怪,为什么没有HR值了,这是因为统计方法不同,接下来我们看一下。
HR值是由于使用了Cox回归方法进行统计,在“主要参数”中的“统计”中更改。还有一点在“预后参数”中,可以看到“时间单位”直接可以更改为年、月、日,这让风格更加多样,也让大家有了更多的选择。
我们看一下改为“月”的结果,坐标轴显得清晰了一些,如果小伙伴喜欢这种风格,可以选择这种方式保存。
原文展示了不同类型的生存曲线,这里仙桃工具也是可以做到的,在“预后参数”中“预后类型”中可以选择。操作也是十分简便,小伙伴们可以尝试一下。
这张图片右侧展示的是亚组KM值中的森林图,仙桃工具提供了亚组KM图的分析和可视化,我们一起来看一下吧。仍然是在“临床意义”中,找到“亚组KM图”进入。
可以看到这里相比于经典的KM图多了临床变量,我们先根据原文选择性别的变量。
直接选择“cox回归”的方法展示HR值,需要提取HR和P值来绘制森林图。如果小伙伴们想要直接展示这个亚组KM曲线也可以和经典生存曲线拼成一个图一起展示。
我们来展示一下原文的结果,方便小伙伴们分析自己课题的时候也有更多的选择。在“临床意义”中找到“森林图”点击进入。
我们看一下示例数据,这些数据内容在刚才亚组KM图片中都有,小伙伴们可以分别分析然后整理到excel表中。
这个结果和原文形式上是一致的,小伙伴们如果喜欢森林图的格式也可以这样整理使用这种形式展示。
Figure5是单基因差异分析和富集分析的结果
我们首先进行单基因差异分析,在“表达差异”部分,找到“单基因-差异分析”进入。
这里操作也是十分简单的,工具会记录疾病和分子,所以点进去之后直接点“确认”即可,默认是按照分子表达中位数进行高表达和低表达分组的,大家也可以根据自己的需求在“主要参数”中调整。
分析完成后下载保存结果。
我们来看一下结果,提供的信息比较多,接下来是绘制火山图,使用我们的仙桃工具也是可以轻松完成。首先筛选一下类型“gene_type”,筛选“protein_coding”。
“火山图”在“表达差异”中,点击进入。
我们来看一下火山图的示例数据,根据该格式整理结果。
上传数据后进行验证,“验证成功”说明数据没有问题。进行绘制火山图的时候,我们甚至不需要自己先筛选阈值,只要在“主要参数”中将阈值和p值输入即可。
结果还是和原文很相似的,我们可以保存图片和差异的结果。
我们保存一下这个“差异表格”的结果作为富集分析的输入数据。我们先来进行一下GO/KEGG分析,在“功能聚类”中点击进入“[GOKEGG]分析”。
这里有两种输入数据的方式,可以上传文件,也可以直接在“分子列表”中输入,两种都是可以的。
结果默认展示前5个条目信息,这里要点击“保存结果”以及下载分析后的数据以便修改可视化内容。
之后进入可视化模块,我们这里以“气泡图”为例进行展示。
这里默认是展示前3个结果,如果大家在分析自己项目的时候有其他需求,比如想要展示更多或者想要展示某几个项目,都可以在ID列表中进行修改的。
Figure6是进行了免疫浸润的分析
使用仙桃工具可以展示棒棒糖图、分组对照图和散点图,免疫浸润相关模块仍然是在“交互网络”模块,我们一起来看一下。这部分的结果与原文不完全一致,但是表达出来的内容是相似的。
我们先来看一下棒棒糖图。
由于可以记忆疾病和分子,所以进入后直接点击“确认”即可出图。
和旧版最明显的区别就是标注了相关性以及统计学意义,这样大家的图片表达的意义更加丰富。默认的颜色风格是蓝色-红色的顺序,所以这个结果才会“一片蓝色”,大家可以在参数中调整配色。
原文的表格展示的都是主变量分子与免疫细胞相关性的结果,这里仙桃工具也可以提供类似的结果,小伙伴们可以选择展示。在本页面的“补充结果”中。
Figure7主要是展示散点图的结果
散点图和分组比较图里面的参数变化不大,大家可以登录自己的账号尝试一下。其中,分组比较图是“单基因高低组差异”这个模块。仙桃工具提供了三种不同形式的图片展示免疫浸润相关性,大家可以根据自己的喜好和拼图的空间决定如何搭配,要比单纯展示散点图更美观多样~
原文也使用了TIMER(http://timer.cistrome.org/)进行了免疫浸润分析,但是这个网站不稳定,这里提供网址,感兴趣的小伙伴也可以尝试一下。
Figure9展示了主变量分子和免疫治疗相关分子的相关性
首先我们来复现散点图,之后根据散点图中得到的信息,整理后可以绘制雷达图。在仙桃工具的“交互网络”中,点击“表达相关散点图”进入。
点进去之后疾病和主分子都自动选好了,我们在“补充分子”的位置输入。这里个人感觉原文的展示有些不妥,主变量分子应该是在横坐标的位置进行展示,意味着随着主变量的表达变化,其他分子如何改变。
默认统计方法是spearman。
“补充结果”中给出了两种相关分析的系数R值和统计学P值,我们记录一下用于后续绘制雷达图
在工具的“基础绘图”分类下可以找到“雷达图”。
输入数据也是比较简单的,我输入了原文散点图的数据,我们一起来看一下。
上传文件之后还是要点击“验证”,要出现“验证成功”才可以进行下一步操作。
如果小伙伴们在自己分析的时候发现显示不全,可以通过调整“图片”中的大小,适当增加图片大小将文字显示完全。
或者保存pdf版本之后在AI中进行调整也是可以的。
文章最后TMB和MSI评分仙桃工具暂时还没有更新收录,后续仙桃工具会更新更多的分析模块,大家敬请期待。
以上就是我们对这篇文章的复现的呈现过程。希望复现的过程对大家有所帮助,能让大家了解文章的思路,分析工具,方法和步骤等,对大家撰写类似的文章有所启发。
好啦,本篇文章咱们就已经复现差不多了,仅仅用了两个网站,仙桃基本上承担了全部工作,一篇SCI就这么发了,还不够心动吗~
希望大家能够抓紧开始,赶上这趟末班车,也祝愿大家都能够早日发表自己的生信文章,更多的教学内容大家可以参照往期的复现推文,也可以加入我们的生信训练营,包括但不限于基础班训练营、文章复现训练营、分模块教学的快闪营、写作工具训练营等等,感兴趣的小伙伴千万不要错过啦~
微信扫码关注该文公众号作者