有没有tumor CNA的统计数据 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Biology - 生物学

有没有tumor CNA的统计数据

有没有tumor CNA的统计数据# Biology - 生物学

x*u2015-06-08 07:06

1 楼

c*w2015-06-08 07:06

2 楼

ITEM PRICE QTY TOTAL
Nexus 4 (8GB) $299.00 1 $299.00
ORDER NUMBER
###
Subtotal: $299.00
Shipping: $13.99
Tax: $22.69
Total: $335.68

n*72015-06-08 07:06

3 楼

我想统计一下tumor genome里面copy number的分布
比如
CN = 0, 1%
CN = 1, 10%
CN = 2, 85%
...
有没有这样各种tumor 各种sample在一起的总体统计？

O*n2015-06-08 07:06

4 楼

看出是谁啦！好像长个啦！

s*e2015-06-08 07:06

5 楼

税和运费kill deal了，这么算算也不很便宜了， Lumia 920 32g也就450。

【在 c**w 的大作中提到】

: ITEM PRICE QTY TOTAL
: Nexus 4 (8GB) $299.00 1 $299.00
: ORDER NUMBER
: ###
: Subtotal: $299.00
: Shipping: $13.99
: Tax: $22.69
: Total: $335.68

y*12015-06-08 07:06

6 楼

TCGA?

s*r2015-06-08 07:06

7 楼

难道是ID？

【在 O**********n 的大作中提到】

: 看出是谁啦！好像长个啦！

b*g2015-06-08 07:06

8 楼

what browser you used ? Thanks

n*72015-06-08 07:06

9 楼

没有统计数据
level3 的CNV数据我记得还主要是microarray的
处理过的WGS的数据得申请才能弄到

【在 y*******1 的大作中提到】

: TCGA?

b*a2015-06-08 07:06

10 楼

啊，你们又聚会了？嫉妒啊嫉妒

【在 x********u 的大作中提到】

: rt

w*u2015-06-08 07:06

11 楼

Lumia 920 450块也没算TAX呀。。。

【在 s*****e 的大作中提到】

: 税和运费kill deal了，这么算算也不很便宜了， Lumia 920 32g也就450。

s*s2015-06-08 07:06

12 楼

有啊。TCGA一堆数据, SNP6 level 3 segmentation data, open-access
没空研究的，去看一下Broad ABSOLUTE的paper，可能TCGA pan-cancer的paper也有

【在 n******7 的大作中提到】

: 我想统计一下tumor genome里面copy number的分布
: 比如
: CN = 0, 1%
: CN = 1, 10%
: CN = 2, 85%
: ...
: 有没有这样各种tumor 各种sample在一起的总体统计？

O*n2015-06-08 07:06

13 楼

那张床单在以前的照片里出现过。

【在 s******r 的大作中提到】

: 难道是ID？

b*g2015-06-08 07:06

14 楼

加到cart里就出错

s*s2015-06-08 07:06

15 楼

low coverage WGS的raw data是protected, 不过算出来的CNA应该是open-access的。
TCGA里面只有具体的sequence或者genotype是protected, 其他的都能拿到

【在 n******7 的大作中提到】

: 没有统计数据
: level3 的CNV数据我记得还主要是microarray的
: 处理过的WGS的数据得申请才能弄到

b*a2015-06-08 07:06

16 楼

哇塞，这太牛了吧。

【在 O**********n 的大作中提到】

: 那张床单在以前的照片里出现过。

F*e2015-06-08 07:06

17 楼

多试几次。我刷了五六十次，出“order”七八来次，最后一次才成功。手要快。

n*72015-06-08 07:06

18 楼

TCGA 的CNA基本都是microarray based
基于WGS的data存在CGhub
这些data process过后再ICGC有（我在TCGA死活没找到）
而这个是controlled access

【在 s******s 的大作中提到】

: low coverage WGS的raw data是protected, 不过算出来的CNA应该是open-access的。
: TCGA里面只有具体的sequence或者genotype是protected, 其他的都能拿到

x*u2015-06-08 07:06

19 楼

嘿嘿嘿

【在 b******a 的大作中提到】

: 啊，你们又聚会了？嫉妒啊嫉妒

c*w2015-06-08 07:06

20 楼

chrome

【在 b******g 的大作中提到】

: what browser you used ? Thanks

s*s2015-06-08 07:06

21 楼

你的理解是错误的。你要找什么data，我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口，controlled里面是所有有序列的data, 包括genotyping,
variant，和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些，全部都是open access.
CNA主要是AFFY SNP6的，也有一些其他的平台，包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多，但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找，DCC是一处，或者用TCGA Assembler
拉，另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了，然后都combine成matrix form。你要自己找DCC
的data，必须去TCGA annotation database去找哪些data 必须QC扔掉（
这个非常重要！！！我和许多做过TCGA data analysis的人聊过，大多数
不知道这个annotation是啥）。
ICGC是另外一回事。他们主要看sequencing data，而且只用一部分他们
认为好分析的或者质量好的BAM来分析，你要看非TCGA的data很有用，
但是对TCGA来说，非常的不全。

【在 n******7 的大作中提到】

: TCGA 的CNA基本都是microarray based
: 基于WGS的data存在CGhub
: 这些data process过后再ICGC有（我在TCGA死活没找到）
: 而这个是controlled access

b*a2015-06-08 07:06

22 楼

怪不得你们这两天都没上来灌水

【在 x********u 的大作中提到】

: 嘿嘿嘿

N*n2015-06-08 07:06

23 楼

还要锁6个月。。。

【在 w***u 的大作中提到】

:
: Lumia 920 450块也没算TAX呀。。。

n*72015-06-08 07:06

24 楼

谢谢详细解答，有些是我知道的，有些细节我确实不清楚
我之前就发现TCGA的CNA主要都是array平台来的，而且很多信息不是很清楚（比如有个
cnv/nocnv的注释，去年ACCR我问了TCGA的人，也没完全说明白）
我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
他们那个bulk download没搞清楚怎么用...
TCGA Assembler和firebrowse都没用过，annotation database也是第一次听说
TCGA把这么重要的东西藏这么深也太挫了，我现在文章都写好了。。
我决定先投了，reviewer让QC再QC吧，结果应该只会更好
我们需要WGS data, 在TCGA dcc 只有WES的data，WGS都在cgHub
但是我们不想自己从bam开始处理，想直接拿SNV/SV的calling，这个ICGC可以提供，所
以我们需要access
昨天我想要一个很简单的统计，比如每个cancer sample，整个genome上%多少的region
是double deletion, single deletion,之类，不知道哪里有这种数据。也许可以根据
vcf文件算一下？

你的理解是错误的。你要找什么data，我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口，controlled里面是所有有序列的data, 包括genotyping,
variant，和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些，全部都是open access.
CNA主要是AFFY SNP6的，也有一些其他的平台，包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多，但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找，DCC是一处，或者用TCGA Assembler
拉，另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了，然后都combine成matrix form。你要自己找DCC
的data，必须去TCGA annotation database去找哪些data 必须QC扔掉（
这个非常重要！！！我和许多做过TCGA data analysis的人聊过，大多数
不知道这个annotation是啥）。
ICGC是另外一回事。他们主要看sequencing data，而且只用一部分他们
认为好分析的或者质量好的BAM来分析，你要看非TCGA的data很有用，
但是对TCGA来说，非常的不全。

【在 s******s 的大作中提到】

: 你的理解是错误的。你要找什么data，我也许可以帮到你。
: 只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
: DCC有两个入口，controlled里面是所有有序列的data, 包括genotyping,
: variant，和一些pcr sequencing。如果是mutation (tumor - normal), CNA
: 这些，全部都是open access.
: CNA主要是AFFY SNP6的，也有一些其他的平台，包括low coverage WGS,
: 这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
: 虽然多，但是并不是所有的disease都有所有的data type.
: TCGA的data我一般在三个地方找，DCC是一处，或者用TCGA Assembler
: 拉，另外常见的open data可以去firebrowse.org下载。firebrowse的好处是

b*i2015-06-08 07:06

25 楼

哈哈，柴鱼辛苦了。
某人的头...
小布很幸福，某人很可怜。

【在 x********u 的大作中提到】

: rt

t*y2015-06-08 07:06

26 楼

如果现在可以买的话，果断入。。。

【在 s*****e 的大作中提到】

: 税和运费kill deal了，这么算算也不很便宜了， Lumia 920 32g也就450。

n*72015-06-08 07:06

27 楼

刚看到这个回复
这两个paper都看过，我再看看有没处理过的数据
实在没有就算了，这两天折腾的结论是CNA对我们做的这个方法干扰很小
不知道算好事还是坏事。。

【在 s******s 的大作中提到】

: 有啊。TCGA一堆数据, SNP6 level 3 segmentation data, open-access
: 没空研究的，去看一下Broad ABSOLUTE的paper，可能TCGA pan-cancer的paper也有

x*u2015-06-08 07:06

28 楼

恩。忙着吃，忙着带狗Hiking，忙着jjww笨妈又没来喝酒

【在 b******a 的大作中提到】

: 怪不得你们这两天都没上来灌水

p*e2015-06-08 07:06

29 楼

日啊，狗狗这么长时间就备了这么几台货？这不跟小米一样玩大家呢

【在 F**********e 的大作中提到】

: 多试几次。我刷了五六十次，出“order”七八来次，最后一次才成功。手要快。

s*s2015-06-08 07:06

30 楼

我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
WGS的data主要是low coverage CNA，有很多；mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么？我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
关于cnv/nocnv，我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是，既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道，直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误，样品污染，样品swap，病人吃了药影响数据，数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.

【在 n******7 的大作中提到】

: 谢谢详细解答，有些是我知道的，有些细节我确实不清楚
: 我之前就发现TCGA的CNA主要都是array平台来的，而且很多信息不是很清楚（比如有个
: cnv/nocnv的注释，去年ACCR我问了TCGA的人，也没完全说明白）
: 我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
: 他们那个bulk download没搞清楚怎么用...
: TCGA Assembler和firebrowse都没用过，annotation database也是第一次听说
: TCGA把这么重要的东西藏这么深也太挫了，我现在文章都写好了。。
: 我决定先投了，reviewer让QC再QC吧，结果应该只会更好
: 我们需要WGS data, 在TCGA dcc 只有WES的data，WGS都在cgHub
: 但是我们不想自己从bam开始处理，想直接拿SNV/SV的calling，这个ICGC可以提供，所

b*a2015-06-08 07:06

31 楼

5555555555，嫉妒啊，嫉妒

【在 x********u 的大作中提到】

: 恩。忙着吃，忙着带狗Hiking，忙着jjww笨妈又没来喝酒

N*n2015-06-08 07:06

32 楼

zan
firebrowse上的数据都是经过QC处理过了，比如RPPA原来的数据有195 protein, 现在
就变成了150，而且他们有差别，给我们省了很多时间做预处理。
firebrowse上的分析很全，都已经发表了，还是初步分析？

C*W2015-06-08 07:06

33 楼

左拥右抱确实好爽啊！羡慕～～～～

n*72015-06-08 07:06

34 楼

我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
－－
这个不错。不过好像没有sample annotation information？用data matrix会生成一
个包，里面有每个sample的annotation。比较重要的就是sample code，因为这里面有
tumor sample也有normal control。我写了个脚本，从local 文件里面抽取想要的
sample挺方便的
WGS的data主要是low coverage CNA，有很多；mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么？我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
－－
这个我也了解不多，我们知道有处理过的data之后，就混乱进去，现在等他们给我们一
个什么wiki的access，估计有download的信息
关于cnv/nocnv，我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是，既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道，直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误，样品污染，样品swap，病人吃了药影响数据，数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.
－－
这个太发指了。。。我的方法做有些cancer上面效果明显差一些，我怀疑就是这个问
题...

【在 s******s 的大作中提到】

: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: WGS的data主要是low coverage CNA，有很多；mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
: 出来。
: ICGC的mutation可以下载了么？我知道刚差不多finish了sanger pipeline; 其他
: 的两个刚开始。
: 关于cnv/nocnv，我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
: 的cnv. 意思就是，既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
: 把normal的也考虑进去了。

l*82015-06-08 07:06

35 楼

太娇惯它们了!
我这边很难找到养大狗的华人. 有些朋友总惦记着我家训好后大狗, 目前花脸又是被
关注对象.

i*e2015-06-08 07:06

36 楼

nocnv记得是tumor cnv去除germline cnv
难道我记错了？

【在 s******s 的大作中提到】

b*i2015-06-08 07:06

37 楼

奇怪，你耳朵根儿这几天没觉着热吗？
我们商量着哪天去bobo家玩儿或者house warming，然后视察一下如果她那儿不宜停留
，我们就小坐一会儿意思意思，然后就顺道去你们家几人几狗的让你管吃管喝管住管玩
儿了。

【在 b******a 的大作中提到】

: 5555555555，嫉妒啊，嫉妒

i*e2015-06-08 07:06

38 楼

sample annotation在bcr那个目录里

【在 n******7 的大作中提到】

:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: －－
: 这个不错。不过好像没有sample annotation information？用data matrix会生成一
: 个包，里面有每个sample的annotation。比较重要的就是sample code，因为这里面有
: tumor sample也有normal control。我写了个脚本，从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA，有很多；mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会

b*a2015-06-08 07:06

39 楼

我家猫岂不是要集体自杀了？老早就想让你们来来着，就是怕猫受不了。唉，都是活祖
宗。

【在 b********i 的大作中提到】

: 奇怪，你耳朵根儿这几天没觉着热吗？
: 我们商量着哪天去bobo家玩儿或者house warming，然后视察一下如果她那儿不宜停留
: ，我们就小坐一会儿意思意思，然后就顺道去你们家几人几狗的让你管吃管喝管住管玩
: 儿了。

s*s2015-06-08 07:06

40 楼

你说的是magetab？
比如SNP6的东西在这儿：https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
snp/
CNA的单独文件在这：https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
mage-tab的SDRF在这：https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.mage-tab.1.2012.0/broad.mit.edu_LUAD.Genome_
Wide_SNP_6.sdrf.txt
另外mage-tab里面的的IDF文件多读读，就能明白每个文件具体是咋回事了。
还有更过分的
1. 文件目录broad.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0 里面的"84"
，可以拿出来做sample collection/shipment level的batch effect analysis, MD
Anderson有专门一个网站做这个，好像还有batch corrected的data。
2. 文件名BASIC_p_TCGASNP_219_221_223_N_GenomeWideSNP_6_F06_1148642.nocnv_
hg19.seg.txt里面的“BASIC"，应该是SNP6 Chip的名字，可以拿来做experimental 的
batch effect。
嘿嘿嘿，TCGA里面东西很黑的。。。

这个不错。不过好像没有sample annotation information？用data matrix会生成一
个包，里面有每个sample的annotation。比较重要的就是sample code，因为这里面有
tumor sample也有normal control。我写了个脚本，从local 文件里面抽取想要的
sample挺方便的

【在 n******7 的大作中提到】

b*i2015-06-08 07:06

41 楼

咦，笨妈你今天态度怎么这么好？我不适应了...

【在 b******a 的大作中提到】

: 我家猫岂不是要集体自杀了？老早就想让你们来来着，就是怕猫受不了。唉，都是活祖
: 宗。

s*s2015-06-08 07:06

42 楼

我就是这个意思啊，所以一般就用这个

【在 i*e 的大作中提到】

: nocnv记得是tumor cnv去除germline cnv
: 难道我记错了？

b*a2015-06-08 07:06

43 楼

你这是找pia！！！

【在 b********i 的大作中提到】

: 咦，笨妈你今天态度怎么这么好？我不适应了...

s*s2015-06-08 07:06

44 楼

仔细看一遍，你是要知道哪些file是tumor，哪些事normal？
就用那个sdrf文件，找到文件名，同行里面往前看找TCGA barcode, 然后code第四段
前两个字符01的是solid tumor, 10的是blood normal. 其他的啥solid normal千万别
用，
这玩意儿混了一堆tumor污染。

【在 n******7 的大作中提到】

s*l2015-06-08 07:06

45 楼

左拥右抱啊～～～

n*72015-06-08 07:06

46 楼

找了一下当时的email, nocnv是你说的这个filtered cnv，当时感觉这名字起得太反人
类了，找
我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
0 就是cnv gain，我不知道是不是只要postive，不管具体的数值，都当作cnv gain来
处理。因为很多值非常接近0
Sample Chromosome Start End Num_Probes Segment_Mean
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
247813706 128097 0.0031
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
242476062 130191 0.0082
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 3 2212571
197538677 105482 0.0028
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 4 1053934
188762240 101807 0.0022
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 5 914233
180360469 99615 0.0029
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 1014281
47690499 27941 0.0013
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 47690547
47690613 2 -2.1749

【在 i*e 的大作中提到】

: nocnv记得是tumor cnv去除germline cnv
: 难道我记错了？

b*i2015-06-08 07:06

47 楼

oyeah,mark留念。
一句话就露出你原形了。

【在 b******a 的大作中提到】

: 你这是找pia！！！

n*72015-06-08 07:06

48 楼

对，就是这个mage-tab文件，挺有用的，我extract data都是用这个文件
自己又写了一个config文件，提供level，tissue之类的信息
真JB黑，我以前其实用了很多solid normal sample，后来发现结果很乱，就只用tumor
sample了
tumor sample有normal cell的contamination很正常，我记得TCGA号称sample purity
很高，开始能保证tumor > 50%，后来的sample是 tumor > 70%，不知道是不是吹的
BTW，你这些quality control的信息/八卦都在哪里找的？我想以后有些结果不好也去
找些这消息当借口 :)

broad
distro_
broad

【在 s******s 的大作中提到】

: 你说的是magetab？
: 比如SNP6的东西在这儿：https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
: distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
: snp/
: CNA的单独文件在这：https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
: .mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
: 223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
: mage-tab的SDRF在这：https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad

x*u2015-06-08 07:06

49 楼

我们还讨论了一下你家哪个猫会挥着爪子咆哮，呵呵

【在 b******a 的大作中提到】

: 我家猫岂不是要集体自杀了？老早就想让你们来来着，就是怕猫受不了。唉，都是活祖
: 宗。

s*s2015-06-08 07:06

50 楼

去读我说的那些magetab目录里面的idf吧，应该这些信息都有。
我记得seg mean的值，应该是 log2(copy number /2). 也就是正常
diploid，segmean＝0. gain>0; loss<0.

>

【在 n******7 的大作中提到】

: 找了一下当时的email, nocnv是你说的这个filtered cnv，当时感觉这名字起得太反人
: 类了，找
: 我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
: 0 就是cnv gain，我不知道是不是只要postive，不管具体的数值，都当作cnv gain来
: 处理。因为很多值非常接近0
: Sample Chromosome Start End Num_Probes Segment_Mean
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
: 247813706 128097 0.0031
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
: 242476062 130191 0.0082

a*82015-06-08 07:06

51 楼

羡慕啊，可惜，这次没赶上，屁屁又无聊了。

s*s2015-06-08 07:06

52 楼

那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯，肺癌啥的很烂。
很多信息都在idf里面, 或者tcga的wiki，另外，这个目录你是怎么也不知道的啊，哈哈
https://tcga-data.nci.nih.gov/docs/，因为哪里都没链接，我喜欢乱翻网站。
至于八卦么，多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
聊聊天就知道了，嘿嘿嘿嘿嘿嘿嘿。

tumor
purity

【在 n******7 的大作中提到】

: 对，就是这个mage-tab文件，挺有用的，我extract data都是用这个文件
: 自己又写了一个config文件，提供level，tissue之类的信息
: 真JB黑，我以前其实用了很多solid normal sample，后来发现结果很乱，就只用tumor
: sample了
: tumor sample有normal cell的contamination很正常，我记得TCGA号称sample purity
: 很高，开始能保证tumor > 50%，后来的sample是 tumor > 70%，不知道是不是吹的
: BTW，你这些quality control的信息/八卦都在哪里找的？我想以后有些结果不好也去
: 找些这消息当借口 :)
:
: broad

s*d2015-06-08 07:06

53 楼

你们又聚会。。。。。。。。。

n*72015-06-08 07:06

54 楼

你说的我知道
我的意思是为什么有的值特别小
比如0.003
这应该是因为cancer cell heterogeneity 造成的吧
我当时是不太清楚要不要过滤掉值比较低的

【在 s******s 的大作中提到】

: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯，肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki，另外，这个目录你是怎么也不知道的啊，哈哈
: https://tcga-data.nci.nih.gov/docs/，因为哪里都没链接，我喜欢乱翻网站。
: 至于八卦么，多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了，嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity

l*o2015-06-08 07:06

55 楼

哇哈哈，我回来了~
这两天艾迪玩爽死了，回家倒头就睡。

n*72015-06-08 07:06

56 楼

这个purity我没想太多，以为主要是clonal evolution导致的不同
你这个docs的目录看点在哪里？看了一会儿，不知所以

哈哈

【在 s******s 的大作中提到】

b*a2015-06-08 07:06

57 楼

肯定是妞妞，笨笨肯定在床底下，喵喵球球估计藏一会儿出来打一会儿，打不过的话估
计又要藏起来了，哈哈。

【在 x********u 的大作中提到】

: 我们还讨论了一下你家哪个猫会挥着爪子咆哮，呵呵

s*s2015-06-08 07:06

58 楼

我觉的就是这个原因。
至于是不是要滤过，看你干啥了。你说这个是不是有cna，那多半是没有，滤过就可以；
你比如和基因表达对照看，表达值如果是一个portion做出来的，那么有一样的
heterogeneity，
那么显然应该保留0.003

【在 n******7 的大作中提到】

: 你说的我知道
: 我的意思是为什么有的值特别小
: 比如0.003
: 这应该是因为cancer cell heterogeneity 造成的吧
: 我当时是不太清楚要不要过滤掉值比较低的

i*s2015-06-08 07:06

59 楼

想搬家！！！！！！！！！！！！

【在 x********u 的大作中提到】

: rt

s*s2015-06-08 07:06

60 楼

这玩意儿是个大杂烩，垃圾多，有用的东西也多。
比如有GAF，有一堆fasta，有barcode和uuid的mapping文件。
我还看的，有clinical elements CDE的dictionary，还有些xsd的估计大家不关心。

【在 n******7 的大作中提到】

: 这个purity我没想太多，以为主要是clonal evolution导致的不同
: 你这个docs的目录看点在哪里？看了一会儿，不知所以
:
: 哈哈

b*i2015-06-08 07:06

61 楼

回来啦？
按说你们应该也觉着耳根子热了。呵呵。

【在 a*****8 的大作中提到】

: 羡慕啊，可惜，这次没赶上，屁屁又无聊了。

n*72015-06-08 07:06

62 楼

...你对TCGA是真爱啊，我估计八成读过你们组的文章

【在 s******s 的大作中提到】

: 这玩意儿是个大杂烩，垃圾多，有用的东西也多。
: 比如有GAF，有一堆fasta，有barcode和uuid的mapping文件。
: 我还看的，有clinical elements CDE的dictionary，还有些xsd的估计大家不关心。

y*o2015-06-08 07:06

63 楼

+1

【在 b******a 的大作中提到】

: 哇塞，这太牛了吧。

s*s2015-06-08 07:06

64 楼

没办法，工作需要，而且这方面工作发不出文章，还不让宣传 :(

【在 n******7 的大作中提到】

: ...你对TCGA是真爱啊，我估计八成读过你们组的文章

a*82015-06-08 07:06

65 楼

赫赫，刚回来，忙着弄学校的事情，还没缓过来呢。
是啊，想念brayden的大尾巴了。

【在 b********i 的大作中提到】

: 回来啦？
: 按说你们应该也觉着耳根子热了。呵呵。

n*72015-06-08 07:06

66 楼

这是什么工作啊，既不发文章，又不能说？
感觉是公司里面的干活？

【在 s******s 的大作中提到】

: 没办法，工作需要，而且这方面工作发不出文章，还不让宣传 :(

s*s2015-06-08 07:06

67 楼

哪来的公司？学校里的干活！
拿着千老的工资，干着start-up的活，做点research都算休息 :(

【在 n******7 的大作中提到】

: 这是什么工作啊，既不发文章，又不能说？
: 感觉是公司里面的干活？

n*72015-06-08 07:06

68 楼

sequencing center？
你说的这些TCGA的问题让我感觉这是一个巨大的坑
我下个project还要用TCGA data，真愁死了

【在 s******s 的大作中提到】

: 哪来的公司？学校里的干活！
: 拿着千老的工资，干着start-up的活，做点research都算休息 :(