Redian新闻
>
请大牛科普下这几个database:Oncomine, TCGA, CCLE, cBioPortal
avatar
请大牛科普下这几个database:Oncomine, TCGA, CCLE, cBioPortal# Biology - 生物学
b*g
1
我准备弄eb1a,正在积累审稿。现在手头在审理一篇稿件,感觉水平很一般,想锯掉算
了。
现在我的问题是,即使我把这个文章锯掉了也算我的一次审稿吧?还是必须经我审稿后
发表的才算一次审稿?
这个问题我在移民版块也发了,觉得这里也有些人可能懂,所以在这里再发一遍。由于
是新手,欢迎提供任何看法。多谢。
avatar
b*a
2
如题,一部van来回,可坐6,7人。
avatar
l*e
3
我目前的理解是
Oncomine只有transcript data (mRNA)。
TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找
avatar
a*n
4
这个当然算你的审稿了
证据是邀请你审稿的邀请信
不是被审后发表的文章

【在 b******g 的大作中提到】
: 我准备弄eb1a,正在积累审稿。现在手头在审理一篇稿件,感觉水平很一般,想锯掉算
: 了。
: 现在我的问题是,即使我把这个文章锯掉了也算我的一次审稿吧?还是必须经我审稿后
: 发表的才算一次审稿?
: 这个问题我在移民版块也发了,觉得这里也有些人可能懂,所以在这里再发一遍。由于
: 是新手,欢迎提供任何看法。多谢。

avatar
M*n
5
oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
的数据
avatar
b*g
6
好吧。多谢,我也是这么想的,只是求个证实,不想白花力气。

【在 a**n 的大作中提到】
: 这个当然算你的审稿了
: 证据是邀请你审稿的邀请信
: 不是被审后发表的文章

avatar
s*8
7
请问TCGA的数据一般怎么分析?

【在 M******n 的大作中提到】
: oncomine和cbioportal都是提供分析好的数据的平台,数据来源比较杂,TCGA的原始数
: 据非常大,做一两个sample还行,想做大规模分析一般人没这个资源,CCLE只有细胞株
: 的数据

avatar
f*u
8
只要你能从编辑那里要来审稿的证明就行。

【在 b******g 的大作中提到】
: 好吧。多谢,我也是这么想的,只是求个证实,不想白花力气。
avatar
M*n
9
oncomine和cbioportal上有TCGA数据的分析结果,要想分析原始数据,至少先读个CS的
master吧,然后转行得了,分析数据都省了。

【在 s******8 的大作中提到】
: 请问TCGA的数据一般怎么分析?
avatar
b*g
10
嗯,多谢!

【在 f**u 的大作中提到】
: 只要你能从编辑那里要来审稿的证明就行。
avatar
C*s
11
才知道cell line原来这么翻译的。。。
cbioportal很不错 TCGA的分析结果基本都在了 来源应该是Broad 只是不支持大规模的
数据下载 可以自己写写script去query 用不着cs master
TCGA的原始数据 如果是bam file 是需要账号的 我记得只有美国的pi才行 也用不着cs
master
从cghub下载 https://cghub.ucsc.edu/docs/user/download.html

【在 l*******e 的大作中提到】
: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找

avatar
a*r
12
我的理解是,TCGA 的原始数据需要对使用人的身份进行认证和审批,raw-data,特别
是seq data, 牵涉到病人的隐私(IRP和HIPAA). 一般就是直接从TCGA的网站上下载
level-3级别的data,就是已经处理好(当然你必须要再加工,否则很难用),完全没
有个人信息的(clinical meta data也只是有病人ID)。
avatar
G*n
13
TCGA 会用R,会统计就行了,如果不分析raw data的话。
最好补一下统计和线性代数,矩阵算起来快一些。

【在 l*******e 的大作中提到】
: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找

avatar
s*s
14
我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。
TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。
另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用。
它可以帮你自动找到需要的数据,并且做简单的处理,否则自己找累死。
类似TCGA的,还有一个TARGET,都是小孩的癌症。现在只有一个ALL的数据,
不过其他数据基本都好了,估计整理一下几个月内能出来。不过TARGET的WGS
基本是complete genomics data,也在cghub,估计大家下载了也没用。

【在 l*******e 的大作中提到】
: 我目前的理解是
: Oncomine只有transcript data (mRNA)。
: TCGA: The Cancer Genome Atlas 来自病人的组织,而且都是raw data
: CCLE: Cancer Cell Line Encyclopedia 数据来自大约1000肿瘤癌症细胞株
: cBioPortal: 数据来自组织和细胞株,数据做了处理,比较容易查找

avatar
a*r
15
赞详细解释!

【在 s******s 的大作中提到】
: 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
: 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
: genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
: 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
: 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
: 批准不难。
: TCGA的数据主要分三部分,一个是data portal上的open access data,随便
: 下载;另一个是protected access data, 要账号;最后是原始的NGS data,
: 在ucsc的cghub上有一份,在uchicago的pdc上有一份。
: 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,

avatar
m*T
16
赞!解释得很详细

【在 s******s 的大作中提到】
: 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
: 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
: genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
: 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
: 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
: 批准不难。
: TCGA的数据主要分三部分,一个是data portal上的open access data,随便
: 下载;另一个是protected access data, 要账号;最后是原始的NGS data,
: 在ucsc的cghub上有一份,在uchicago的pdc上有一份。
: 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,

avatar
R*n
17
TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
就满了。

【在 s******s 的大作中提到】
: 我比较熟TCGA啊,哈哈,估计版上比我熟的不多。
: 不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
: genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
: 没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
: 属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
: 批准不难。
: TCGA的数据主要分三部分,一个是data portal上的open access data,随便
: 下载;另一个是protected access data, 要账号;最后是原始的NGS data,
: 在ucsc的cghub上有一份,在uchicago的pdc上有一份。
: 另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database,

avatar
s*s
18
我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
assembler弄下来。
你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
数据比较的烦死我。

matrix

【在 R****n 的大作中提到】
: TCGA assembler 是从server上直接download?SNP什么的估计还行,RNAseq 450k,都是
: 几百兆上G的data怎么实时分析?我16G的机器,基本上load一个methylation的matrix
: 就满了。

avatar
R*n
19
我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
assemble成matrix就一两个小时,这个assembler能快点不?

【在 s******s 的大作中提到】
: 我说了, NGS的BAM和FASTQ都在CGHub; 所有其他能infer sequence的东西,比如
: genotype, vcf,要password;其他的一切东西,包括蛋白分析,methylation, cnv,
: maf(tumor - normal), gene表达, 等绝大多数,都在open access, 基本上都能
: assembler弄下来。
: 你的450k,估计你不会自己去分析raw data吧,分析过的beta value啥都很小的。
: 用assembler搞450k尤其方便,因为它可以帮你搞gene level的平均,然后把gene
: 名字搞成hugo. TCGA的gene model是GAF2,那个是用起来相当的头痛,和其他地方
: 数据比较的烦死我。
:
: matrix

avatar
s*s
20
没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。

dry

【在 R****n 的大作中提到】
: 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
: 都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
: level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
: assemble成matrix就一两个小时,这个assembler能快点不?

avatar
s*s
21
btw, MD Anderson有一个TCGA data plate effect的visualization, 貌似很强大,不过
我只是玩过,没真用过

dry

【在 R****n 的大作中提到】
: 我都是直接搞level 3,normalization让TCGA弄吧,我现在也不可能一个人把wet,dry
: 都从头到尾搞定了。450k的差异是很小,很多有差异的基因均值也就差0.0x。450k一个
: level3的文件就是30M,一种cancer300-500的病人,一般就要8-10G的内存。一般
: assemble成matrix就一两个小时,这个assembler能快点不?

avatar
R*n
22
K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
现在凑合着用。希望今年能拿点钱买个专门的server.

【在 s******s 的大作中提到】
: 没研究过内存使用,我们自己有cloud,我一般都开一个大的,96GB一类的。
: 你试一下就行了,看看里面那个sample,就第一次做可能要让他抓目录过夜,
: 然后你研究一下估计半个小时就能搞定。应该不需要那么多内存,一个文件
: 也就20M,一共五列,有用的也就是beta和gene name或者coordinate,如果
: 不是做genomewide(包括所有没基因的区域), 只算gene level,就少了很多,
: 而且可以一个一个算,最后算个mean就行了,不需要一起放进内存。
:
: dry

avatar
s*s
23
应该不会用那么多。我估计有个4G、8G就行了。人家做这个软件应该是给
普通实验室用的,不是给我这样乱开VM的。
说实话,要用R, core啥的都没用,主要还是ram.
其实用的不多的话,还不如上amazon. 我刚看了一下,8 core 61 GB的instance
也才七毛钱一个小时。平时开个小的用,要用的时候开大的,一年花不了几百。

【在 R****n 的大作中提到】
: K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
: 现在凑合着用。希望今年能拿点钱买个专门的server.

avatar
s*s
24
btw, 炫耀一下。我们实验室大概有100T左右的memory,嘿嘿嘿。

【在 R****n 的大作中提到】
: K, 那就不能比了,96g ram!!土豪。 我ubuntu,和windows都在这个i7+16G的机器上,
: 现在凑合着用。希望今年能拿点钱买个专门的server.

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。