Redian新闻
>
可能是史上最好懂的的GEO数据库入门教程

可能是史上最好懂的的GEO数据库入门教程

公众号新闻

我们今天为什么要讲GEO?不少小伙伴打开前,脑子里可能充满了问号。

那这里就告诉你GEO有多好:

别人的数据,发自己的文章!

无论是肿瘤、非肿瘤、芯片、NGS、差异分析,还是分子验证……

你能想到的数据,这里几乎都有,

还可以做一些在线分析。

你会想?这也可以?!

当然可以!发了文章要公开数据的!你用的就是这些数据!

互联网的精神就是公开。

呃,扯远了……下面开始说正题,把这个好用的数据库的基本操作介绍给大家!

一、GEO数据库介绍

1、GEO数据库概况

首先我们来了解一下GEO数据库:

GEO,全称Gene Expression Omnibus (基因表达综合数据库),网址∶https∶/ww.ncbinlm.nih.gov/geo/,是由美国国立生物技术信息中心 (National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。
GEO是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。

这就是以后我们做课题和写论文几乎天天都要打交道的GEO数据库了。

GEO数据库最有价值的部分是存储了大量芯片数据,包括原始数据和处理后数据。

GEO数据有两种存储形式,其中:

GEO DataSets 以数据集为单位,存储同一个实验中的数据;

GEO Profiles 以基因为单位,存储基因在数据集中的表达谱。

不同的存储形式涉及两种不同的数据检索方式。

2、GEO数据组织结构

GEO数据库中海量的数据自然不能杂乱无章地堆积,

严密的数据组织结构就是十分必须的。

GEO数据库的数据就依据不同的等级,从大到小,组成了如下所示的层次严密的组织结构:

Platforms 

高通量实验检测所用工具(哪个公司哪款产品),号GPL开头,例如 GPL570

Series 

构成某个实验的相关样本,组成一个有生物意义的数据集,

包括样本信息和方案设计等信息,可以看做一套完整的实验方案,实际上每个Series基本对应一篇完整的论文,

Series 在科研工作中是最为常用的数据层级! 

编号GSE开头,例如GSE5764。

Datasets & Profiles

一些高质量的GSE数据集还会被GEO官方工作者整理为Datasets和Profiles。

Datasets 是分析好的Series,号以GDS开头。

Profiles 则以基因为单位存储数据,是Datasets 各分组中的表达谱,分配的是流水号,例如33759453。

但并不是所有上传的数据都会被整理,甚至只有少数会被整理,因为很多GSE数据集没有进一步被拆分的必要。

Sample 

实验中的样本。每一个样本都会分配一个号码。编号以GSM开头,例如GSM134584

在GEO首页,我们就可以根据不同的数据组织结构,查找数据。


研究者上传数据时填写信息,GEO官方根据填写的信息分配编号。

3、GEO的研究数据类型

GEO数据库的数据类型有9种,以芯片为主,例如RNA、甲基化和SNP芯片数据等。

也包括很多高通量测序数据。

高通量测序数据,原始数据存储在SRA,处理后数据则存储在GEO中。

在一份GSE数据集详情页面,我们就可以看到清晰的说明

使用GEO数据时,千万不要忘记注明引用该数据文献的PMID编号!

2、GEO数据库的检索

1、GEO官网简单检索

在官网首页,我们可以轻松地根据数据集等级或编号轻松搜索浏览数据

下面是以lung cancer为关键词的检索结果

但这样,往往只能简单搜到一些完全匹配的数据,需要作者在Title里正好用了你使用的关键词。

点击链接,最后的页面也会回到GEO DataSetsGEO Profiles 两种检索方式。

所以,下面我们分别演示这两种不同的数据检索方式。

2、Entrez的GEO Profiles检索

还是以lung cancer为例,我们检索一下lung cancer的abcc1基因,我们在GEO首页检索框的下拉列表里选择GEO Profiles

可以得到如下结果,各种详细信息都很清楚地展示出来。

这里特别强调一下黄框中两个有用的信息,检索语言和数据信息图示。

在Search Details中可以清晰看出不同关键词之间用布尔运算符表示的逻辑关系。

特别要注意的是“lung cancer”是作为一个完整的词组进行检索;

如果要分别检索“lung”和“cancer”,

在“lung cancer”中间加上“AND”就可以了。

每条明细后面的示意图展示了数据集中不同分组的表达水平

点击示意图,可以查阅详细的分组信息、表达水平和3样本的具体信息。

3、Entrez的GEO Datasets检索和分析

首先,我们在下拉框中选择Datasets。这个检索框可检索GPL、GSE、GDS、GSM,但实际应用中,多数场景下只检索GSE数据集。

我们输入lung cancer cisplatin cisplatin resistant,关于肺癌抗性的关键词,每个条目都列出了数据集明细。两边分别有根据数据集类型和来源的归类整理。

例如,我们选择DataSets数据集,就只显示DataSets结果

点击数据集标题可以进入详情页面,有数据集的各类信息明细,

我们可以先点击查看热图

选择热图指定区域,点击查看Profiles

选择Clustering,可以改变热图的分类方法和表现形式

回到详情页面,点击Expression Profiles,我们可以查看所有该DataSets下所有Profiles

Data Analysis Tools则是一组在线分析小工具

首先是查看Profiles(也就是基因)

如果什么都不填,那和点击点击Expression Profiles的结果是一样的,也就是查看所有的Profiles

如果填写具体基因,就只看到该基因的结果

接下来,依次点击不同小工具选项,按照需求选择分析要求,可分别做差异分析、聚类和中位分布。

点击Sample Subset可获得样本信息

点击DataSets所属的GPL,可获得GPL的详细信息

点击DataSets所属的GSE,可获得GSE的详细信息

在GSE的详情页面,我们也可以访问GSE中每一个GSM的详情

三、GEO数据的下载和解读

GEO数据库提供了两种数据:

原始数据:芯片扫描仪直接读取的原始荧光信号数据

归一化数据:芯片整体荧光信号背景校正,对所有表达情况做标准化和平衡,对异常值做处理,对荧光信号做计算转化为数值变量。

在GSE中,我们可以看到这两种数据

通常我们下载SOFT文件和Series Matrix文件。

但也不是所有归一化后的文件都可用,我们要去GSM的详细信息页面中去找

一般,如下图所示,RAM归一化后的数据是可以直接用的,因为这样的数据经过log2处理,相差不大,分析计算结果比较可靠。

在下载原始数据时,有些GSE数据集可能体积很大,几百M甚至上G,NCBI因为是美国网络,服务器不稳定,浏览器下载很容易中断重来,建议使用迅雷下载。

END

撰文丨三叶虫
排版丨三叶虫
编辑丨三叶虫


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Andy教授解读数据库的2022:大规模数据库投资大幅放缓、区块链数据库仍然是一个愚蠢的想法2022年希腊神话之旅 21 蝴蝶谷,奇特的自然景观Amazon 半价尿布,可能是史上尿布最好的折扣了...老照片:你还记得1990年吗?无敌!TCGA、GEO、STRING等14个数据库挖掘教程,0代码即可实现!面试官:数据库日期类型字段,需要兼容不同数据库,应该如何选择?这是史上第二次中$15亿大奖的机会,你需要了解这8条选号攻略太硬核了!TCGA/GEO/CCLE等13个生信数据库大盘点!轻松实现完美复现……全美最好逛的的亚洲超市又上新+特价啦!价格超美丽,商品骨折价!速速来抢!不容错过!新iPad Pro数据线反向升级;腾讯会议开启付费模式;P60渲染图曝光多款数据库入选 Gartner 全球数据库魔力象限,腾讯云是怎么做到的?| Q推荐老照片:民国时期的职业女性单卡就能运行AI画画模型,小白也能看懂的教程来了,还有100万卡时免费NPU算力可用丨昇思MindSpore“白嫖”公共数据,用GEO数据库完成自己的第一篇SCI争相上市、抢夺本土市场,未来三五年数据库将迎来大洗牌 | 解读数据库的2022为什么2022是史上最糟的一年?2022 年数据库发展总结:中国和海外数据库差距还有多远?美越战争中的老照片,在失去家园的同时,20万少女沦为娼妓Halloween Special Edition!!!!! Pt. 2 Yasss这个菌好懂事哦哈哈哈哈无敌了!生信SCI照这4步写直接开挂,附赠对应13个数据库详细教程!新年第一天登热搜榜首!XBB为什么是史上最强免疫逃逸毒株?绝了!TCGA、GEO、STRING等13个生信数据库挖掘教程,掌握6月毕业不用愁……外网疯传!这份Web3.0入门教程,居然有5W人悄悄学过?这可能是史上最快的进化,达尔文看了都不敢相信数据烟囱亟需打破,云原生融合数据库雪中送炭|解读云原生数据库的 2022多模数据库、“Serverless 化” | 开源数据库领域解读国产数据库市场横空杀出个巨头?亚信 AntDB数据库凭什么盘点2022年的数据库/数据仓库/数据湖市场(下)——Teradata退出中国市场了,Oracle还没走。。。5w人在线学习!这份Web3.0入门教程,零基础3天即可速成阿里云已将 Serverless 数据库大规模落地,这是否代表着数据库的新风向?盘点2022年的数据库/数据仓库/数据湖市场(上)。。。数据库“焕然新生”:架构视角下,云原生数据库的创新实践 | Q推荐终于有一本好读、好懂又好玩的物理书啦!华人创业最成功的的Zoom也裁员1300人,CEO袁征自降98%薪水,工资将低于美国贫困线
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。