c*w
2 楼
ITEM PRICE QTY TOTAL
Nexus 4 (8GB) $299.00 1 $299.00
ORDER NUMBER
###
Subtotal: $299.00
Shipping: $13.99
Tax: $22.69
Total: $335.68
Nexus 4 (8GB) $299.00 1 $299.00
ORDER NUMBER
###
Subtotal: $299.00
Shipping: $13.99
Tax: $22.69
Total: $335.68
n*7
3 楼
我想统计一下tumor genome里面copy number的分布
比如
CN = 0, 1%
CN = 1, 10%
CN = 2, 85%
...
有没有这样各种tumor 各种sample在一起的总体统计?
比如
CN = 0, 1%
CN = 1, 10%
CN = 2, 85%
...
有没有这样各种tumor 各种sample在一起的总体统计?
O*n
4 楼
看出是谁啦!好像长个啦!
y*1
6 楼
TCGA?
b*g
8 楼
what browser you used ? Thanks
b*g
14 楼
加到cart里就出错
F*e
17 楼
多试几次。我刷了五六十次,出“order”七八来次,最后一次才成功。手要快。
s*s
21 楼
你的理解是错误的。你要找什么data,我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。
【在 n******7 的大作中提到】
: TCGA 的CNA基本都是microarray based
: 基于WGS的data存在CGhub
: 这些data process过后再ICGC有(我在TCGA死活没找到)
: 而这个是controlled access
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。
【在 n******7 的大作中提到】
: TCGA 的CNA基本都是microarray based
: 基于WGS的data存在CGhub
: 这些data process过后再ICGC有(我在TCGA死活没找到)
: 而这个是controlled access
n*7
24 楼
谢谢详细解答,有些是我知道的,有些细节我确实不清楚
我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
他们那个bulk download没搞清楚怎么用...
TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
我决定先投了,reviewer让QC再QC吧,结果应该只会更好
我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
以我们需要access
昨天我想要一个很简单的统计,比如每个cancer sample,整个genome上%多少的region
是double deletion, single deletion,之类,不知道哪里有这种数据。也许可以根据
vcf文件算一下?
你的理解是错误的。你要找什么data,我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。
【在 s******s 的大作中提到】
: 你的理解是错误的。你要找什么data,我也许可以帮到你。
: 只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
: DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
: variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
: 这些,全部都是open access.
: CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
: 这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
: 虽然多,但是并不是所有的disease都有所有的data type.
: TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
: 拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
他们那个bulk download没搞清楚怎么用...
TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
我决定先投了,reviewer让QC再QC吧,结果应该只会更好
我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
以我们需要access
昨天我想要一个很简单的统计,比如每个cancer sample,整个genome上%多少的region
是double deletion, single deletion,之类,不知道哪里有这种数据。也许可以根据
vcf文件算一下?
你的理解是错误的。你要找什么data,我也许可以帮到你。
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。
【在 s******s 的大作中提到】
: 你的理解是错误的。你要找什么data,我也许可以帮到你。
: 只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
: DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
: variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
: 这些,全部都是open access.
: CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
: 这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
: 虽然多,但是并不是所有的disease都有所有的data type.
: TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
: 拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
s*s
30 楼
我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道,直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误,样品污染,样品swap,病人吃了药影响数据,数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.
【在 n******7 的大作中提到】
: 谢谢详细解答,有些是我知道的,有些细节我确实不清楚
: 我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
: cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
: 我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
: 他们那个bulk download没搞清楚怎么用...
: TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
: TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
: 我决定先投了,reviewer让QC再QC吧,结果应该只会更好
: 我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
: 但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道,直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误,样品污染,样品swap,病人吃了药影响数据,数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.
【在 n******7 的大作中提到】
: 谢谢详细解答,有些是我知道的,有些细节我确实不清楚
: 我之前就发现TCGA的CNA主要都是array平台来的,而且很多信息不是很清楚(比如有个
: cnv/nocnv的注释,去年ACCR我问了TCGA的人,也没完全说明白)
: 我用TCGA的data matrix 入口download过所有的lv3 data和部分lv2 data
: 他们那个bulk download没搞清楚怎么用...
: TCGA Assembler和firebrowse都没用过,annotation database也是第一次听说
: TCGA把这么重要的东西藏这么深也太挫了,我现在文章都写好了。。
: 我决定先投了,reviewer让QC再QC吧,结果应该只会更好
: 我们需要WGS data, 在TCGA dcc 只有WES的data,WGS都在cgHub
: 但是我们不想自己从bam开始处理,想直接拿SNV/SV的calling,这个ICGC可以提供,所
N*n
32 楼
zan
firebrowse上的数据都是经过QC处理过了,比如RPPA原来的数据有195 protein, 现在
就变成了150,而且他们有差别,给我们省了很多时间做预处理。
firebrowse上的分析很全,都已经发表了,还是初步分析?
firebrowse上的数据都是经过QC处理过了,比如RPPA原来的数据有195 protein, 现在
就变成了150,而且他们有差别,给我们省了很多时间做预处理。
firebrowse上的分析很全,都已经发表了,还是初步分析?
C*W
33 楼
左拥右抱确实好爽啊!羡慕~~~~
n*7
34 楼
我一般都是直接去
tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
--
这个不错。不过好像没有sample annotation information? 用data matrix会生成一
个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
sample挺方便的
WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
出来。
ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
的两个刚开始。
--
这个我也了解不多,我们知道有处理过的data之后,就混乱进去,现在等他们给我们一
个什么wiki的access,估计有download的信息
关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
把normal的也考虑进去了。
annotation这玩意儿连几篇marker paper和pan-can paper上面都没提。不过他们
估计都知道,直接去firebrowse搞就不用考虑annotation了。annotation里面有很多
比如疾病分类错误,样品污染,样品swap,病人吃了药影响数据,数据QC不通过
等。最大的一类是SNP6的genotype, 应该有一两千个样品标记Do Not Use.
--
这个太发指了。。。 我的方法做有些cancer上面效果明显差一些,我怀疑就是这个问
题...
【在 s******s 的大作中提到】
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
: 出来。
: ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
: 的两个刚开始。
: 关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
: 的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
: 把normal的也考虑进去了。
l*8
35 楼
太娇惯它们了!
我这边很难找到养大狗的华人. 有些朋友总惦记着我家训好后大狗, 目前花脸又是被
关注对象.
我这边很难找到养大狗的华人. 有些朋友总惦记着我家训好后大狗, 目前花脸又是被
关注对象.
i*e
36 楼
nocnv记得是tumor cnv去除germline cnv
难道我记错了?
【在 s******s 的大作中提到】
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
: 出来。
: ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
: 的两个刚开始。
: 关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
: 的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
: 把normal的也考虑进去了。
难道我记错了?
【在 s******s 的大作中提到】
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
: 出来。
: ICGC的mutation可以下载了么?我知道刚差不多finish了sanger pipeline; 其他
: 的两个刚开始。
: 关于cnv/nocnv,我的理解是cnv是tumor的cnv, nocnv大概是tumor relative normal
: 的cnv. 意思就是,既然你没有normal的cnv data, 那么一般研究应该用nocnv, 也就是
: 把normal的也考虑进去了。
i*e
38 楼
sample annotation在bcr那个目录里
【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
s*s
40 楼
你说的是magetab?
比如SNP6的东西在这儿:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
snp/
CNA的单独文件在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
mage-tab的SDRF在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.mage-tab.1.2012.0/broad.mit.edu_LUAD.Genome_
Wide_SNP_6.sdrf.txt
另外mage-tab里面的的IDF文件多读读,就能明白每个文件具体是咋回事了。
还有更过分的
1. 文件目录broad.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0 里面的"84"
,可以拿出来做sample collection/shipment level的batch effect analysis, MD
Anderson有专门一个网站做这个,好像还有batch corrected的data。
2. 文件名BASIC_p_TCGASNP_219_221_223_N_GenomeWideSNP_6_F06_1148642.nocnv_
hg19.seg.txt里面的“BASIC",应该是SNP6 Chip的名字,可以拿来做experimental 的
batch effect。
嘿嘿嘿,TCGA里面东西很黑的。。。
这个不错。不过好像没有sample annotation information? 用data matrix会生成一
个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
sample挺方便的
【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
比如SNP6的东西在这儿:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
snp/
CNA的单独文件在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
mage-tab的SDRF在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
.mit.edu_LUAD.Genome_Wide_SNP_6.mage-tab.1.2012.0/broad.mit.edu_LUAD.Genome_
Wide_SNP_6.sdrf.txt
另外mage-tab里面的的IDF文件多读读,就能明白每个文件具体是咋回事了。
还有更过分的
1. 文件目录broad.mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0 里面的"84"
,可以拿出来做sample collection/shipment level的batch effect analysis, MD
Anderson有专门一个网站做这个,好像还有batch corrected的data。
2. 文件名BASIC_p_TCGASNP_219_221_223_N_GenomeWideSNP_6_F06_1148642.nocnv_
hg19.seg.txt里面的“BASIC",应该是SNP6 Chip的名字,可以拿来做experimental 的
batch effect。
嘿嘿嘿,TCGA里面东西很黑的。。。
这个不错。不过好像没有sample annotation information? 用data matrix会生成一
个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
sample挺方便的
【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
s*s
44 楼
仔细看一遍,你是要知道哪些file是tumor,哪些事normal?
就用那个sdrf文件,找到文件名,同行里面往前看找TCGA barcode, 然后code第四段
前两个字符01的是solid tumor, 10的是blood normal. 其他的啥solid normal千万别
用,
这玩意儿混了一堆tumor污染。
【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
就用那个sdrf文件,找到文件名,同行里面往前看找TCGA barcode, 然后code第四段
前两个字符01的是solid tumor, 10的是blood normal. 其他的啥solid normal千万别
用,
这玩意儿混了一堆tumor污染。
【在 n******7 的大作中提到】
:
: 我一般都是直接去
: tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/
: --
: 这个不错。不过好像没有sample annotation information? 用data matrix会生成一
: 个包,里面有每个sample的annotation。比较重要的就是sample code,因为这里面有
: tumor sample也有normal control。我写了个脚本,从local 文件里面抽取想要的
: sample挺方便的
: WGS的data主要是low coverage CNA,有很多;mutation calling的可能和WXS
: 混在一起了。我知道TCGA现在在做multi center calling, 大多数data应该很快会
s*l
45 楼
左拥右抱啊~~~
n*7
46 楼
找了一下当时的email, nocnv是你说的这个filtered cnv,当时感觉这名字起得太反人
类了,找
我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
0 就是cnv gain,我不知道是不是只要postive,不管具体的数值,都当作cnv gain来
处理。因为很多值非常接近0
Sample Chromosome Start End Num_Probes Segment_Mean
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
247813706 128097 0.0031
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
242476062 130191 0.0082
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 3 2212571
197538677 105482 0.0028
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 4 1053934
188762240 101807 0.0022
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 5 914233
180360469 99615 0.0029
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 1014281
47690499 27941 0.0013
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 47690547
47690613 2 -2.1749
【在 i*e 的大作中提到】
: nocnv记得是tumor cnv去除germline cnv
: 难道我记错了?
类了,找
我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
0 就是cnv gain,我不知道是不是只要postive,不管具体的数值,都当作cnv gain来
处理。因为很多值非常接近0
Sample Chromosome Start End Num_Probes Segment_Mean
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
247813706 128097 0.0031
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
242476062 130191 0.0082
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 3 2212571
197538677 105482 0.0028
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 4 1053934
188762240 101807 0.0022
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 5 914233
180360469 99615 0.0029
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 1014281
47690499 27941 0.0013
AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 6 47690547
47690613 2 -2.1749
【在 i*e 的大作中提到】
: nocnv记得是tumor cnv去除germline cnv
: 难道我记错了?
n*7
48 楼
对,就是这个mage-tab文件,挺有用的,我extract data都是用这个文件
自己又写了一个config文件,提供level,tissue之类的信息
真JB黑,我以前其实用了很多solid normal sample,后来发现结果很乱,就只用tumor
sample了
tumor sample有normal cell的contamination很正常,我记得TCGA号称sample purity
很高,开始能保证tumor > 50%,后来的sample是 tumor > 70%,不知道是不是吹的
BTW,你这些quality control的信息/八卦都在哪里找的?我想以后有些结果不好也去
找些这消息当借口 :)
broad
distro_
broad
【在 s******s 的大作中提到】
: 你说的是magetab?
: 比如SNP6的东西在这儿:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
: distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
: snp/
: CNA的单独文件在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
: .mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
: 223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
: mage-tab的SDRF在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
自己又写了一个config文件,提供level,tissue之类的信息
真JB黑,我以前其实用了很多solid normal sample,后来发现结果很乱,就只用tumor
sample了
tumor sample有normal cell的contamination很正常,我记得TCGA号称sample purity
很高,开始能保证tumor > 50%,后来的sample是 tumor > 70%,不知道是不是吹的
BTW,你这些quality control的信息/八卦都在哪里找的?我想以后有些结果不好也去
找些这消息当借口 :)
broad
distro_
broad
【在 s******s 的大作中提到】
: 你说的是magetab?
: 比如SNP6的东西在这儿:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/
: distro_ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/
: snp/
: CNA的单独文件在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
: .mit.edu_LUAD.Genome_Wide_SNP_6.Level_3.84.2012.0/BASIC_p_TCGASNP_219_221_
: 223_N_GenomeWideSNP_6_F06_1148642.nocnv_hg19.seg.txt
: mage-tab的SDRF在这:https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_
: ftpusers/anonymous/tumor/luad/cgcc/broad.mit.edu/genome_wide_snp_6/snp/broad
s*s
50 楼
去读我说的那些magetab目录里面的idf吧,应该这些信息都有。
我记得seg mean的值,应该是 log2(copy number /2). 也就是正常
diploid,segmean=0. gain>0; loss<0.
>
【在 n******7 的大作中提到】
: 找了一下当时的email, nocnv是你说的这个filtered cnv,当时感觉这名字起得太反人
: 类了,找
: 我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
: 0 就是cnv gain,我不知道是不是只要postive,不管具体的数值,都当作cnv gain来
: 处理。因为很多值非常接近0
: Sample Chromosome Start End Num_Probes Segment_Mean
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
: 247813706 128097 0.0031
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
: 242476062 130191 0.0082
我记得seg mean的值,应该是 log2(copy number /2). 也就是正常
diploid,segmean=0. gain>0; loss<0.
>
【在 n******7 的大作中提到】
: 找了一下当时的email, nocnv是你说的这个filtered cnv,当时感觉这名字起得太反人
: 类了,找
: 我当时还有另外一个问题这哥们儿没理我。关于segment mean value,他说 segment >
: 0 就是cnv gain,我不知道是不是只要postive,不管具体的数值,都当作cnv gain来
: 处理。因为很多值非常接近0
: Sample Chromosome Start End Num_Probes Segment_Mean
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 1 3218610
: 247813706 128097 0.0031
: AQUAE_p_TCGA_112_304_b2_N_GenomeWideSNP_6_A01_1348356 2 484222
: 242476062 130191 0.0082
a*8
51 楼
羡慕啊,可惜,这次没赶上,屁屁又无聊了。
s*s
52 楼
那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
tumor
purity
【在 n******7 的大作中提到】
: 对,就是这个mage-tab文件,挺有用的,我extract data都是用这个文件
: 自己又写了一个config文件,提供level,tissue之类的信息
: 真JB黑,我以前其实用了很多solid normal sample,后来发现结果很乱,就只用tumor
: sample了
: tumor sample有normal cell的contamination很正常,我记得TCGA号称sample purity
: 很高,开始能保证tumor > 50%,后来的sample是 tumor > 70%,不知道是不是吹的
: BTW,你这些quality control的信息/八卦都在哪里找的?我想以后有些结果不好也去
: 找些这消息当借口 :)
:
: broad
很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
tumor
purity
【在 n******7 的大作中提到】
: 对,就是这个mage-tab文件,挺有用的,我extract data都是用这个文件
: 自己又写了一个config文件,提供level,tissue之类的信息
: 真JB黑,我以前其实用了很多solid normal sample,后来发现结果很乱,就只用tumor
: sample了
: tumor sample有normal cell的contamination很正常,我记得TCGA号称sample purity
: 很高,开始能保证tumor > 50%,后来的sample是 tumor > 70%,不知道是不是吹的
: BTW,你这些quality control的信息/八卦都在哪里找的?我想以后有些结果不好也去
: 找些这消息当借口 :)
:
: broad
s*d
53 楼
你们又聚会。。。。。。。。。
n*7
54 楼
你说的我知道
我的意思是为什么有的值特别小
比如0.003
这应该是因为cancer cell heterogeneity 造成的吧
我当时是不太清楚要不要过滤掉值比较低的
【在 s******s 的大作中提到】
: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
: https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
: 至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity
我的意思是为什么有的值特别小
比如0.003
这应该是因为cancer cell heterogeneity 造成的吧
我当时是不太清楚要不要过滤掉值比较低的
【在 s******s 的大作中提到】
: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
: https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
: 至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity
l*o
55 楼
哇哈哈, 我回来了~
这两天艾迪玩爽死了,回家倒头就睡。
这两天艾迪玩爽死了,回家倒头就睡。
n*7
56 楼
这个purity我没想太多,以为主要是clonal evolution导致的不同
你这个docs的目录看点在哪里? 看了一会儿,不知所以
哈哈
【在 s******s 的大作中提到】
: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
: https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
: 至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity
你这个docs的目录看点在哪里? 看了一会儿,不知所以
哈哈
【在 s******s 的大作中提到】
: 那片ABSOLUTE的文章里面应该有purify, 卵巢癌应该非常纯,肺癌啥的很烂。
: 很多信息都在idf里面, 或者tcga的wiki,另外,这个目录你是怎么也不知道的啊,哈哈
: https://tcga-data.nci.nih.gov/docs/,因为哪里都没链接,我喜欢乱翻网站。
: 至于八卦么,多和TCGA DCC (NCI), BCR (Nationwidechildren), GDAC (Broad) 的人
: 聊聊天就知道了,嘿嘿嘿嘿嘿嘿嘿。
:
: tumor
: purity
相关阅读
饶毅问沃森的问题好low啊阿鲁阿卡巴Molecular Cell和nature communications哪个好精子千里迢迢寻找卵子结合文献求助美帝的医保200米林封顶?!仇子龙又要发大文章了千老在大城市买房能做到吗?求推荐微生物实验室最新图像识别算法突破skype 面试前 PI 要research proposal 是什么意思?Trump proposes to cut NIH funding by $1.2bn this year没有绿卡,暂时不要转CS了吧, 基本不给entry level办H1B了转载 百位科技精英力挺:"多数论文毫无作用“中国将改变最后防线抗生素的使用,但为时已晚很多中国老板忽悠说你们发了CNS就好了,什么都有了加入一个杂志的 reviewer borad有什么好处沃森谈了科研人员的发展情况了吗Position Opening-Genomics Scientist/Research Specialist请教Circular dichroism