s*o
3 楼
还可以
但是会一步一步释放
工程那块不是那么难 难在试剂
除非有全新的概念 3-4年没人追上
罗氏也在整 不知道能弄出啥
有没有用的说说 速度提高4倍 有啥好处?
但是会一步一步释放
工程那块不是那么难 难在试剂
除非有全新的概念 3-4年没人追上
罗氏也在整 不知道能弄出啥
有没有用的说说 速度提高4倍 有啥好处?
l*d
5 楼
关键词: 100$ per genome
s*o
8 楼
$100 还有点难
当然最终目标是10
所以现在bioinformtion 才起步
那么多数据怎么分析 是大问题 特别和临床结合
当然最终目标是10
所以现在bioinformtion 才起步
那么多数据怎么分析 是大问题 特别和临床结合
s*o
11 楼
这个也不能说太多
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
s*o
12 楼
这个也不能说太多
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
s*o
13 楼
这个也不能说太多
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
l*d
14 楼
100$ per genome 对于Human Longevity这种靠数据量忽悠人的公司来说还是有实际意
义的.
大概以后搞genomics的不测个千尔八百的sample的出门都不好意思和人打招呼了.
-----------------------------------------------------------------------
http://www.businesswire.com/news/home/20170109006363/en/Illumina-Introduces-NovaSeq-Series%E2%80%94a-Architecture-Designed-Usher
"We are excited to be among the first to incorporate Illumina’s new NovaSeq
System into the HLI sequencing center to complement our existing HiSeq X
174; Systems,” said J. Craig Venter, PhD, Co-founder and Executive Chairman
of Human Longevity Inc. “Faster, inexpensive and innovative sequencing
technology is a key component driving breakthroughs in precision medicine.
This technology is also enabling HLI to expand the HLI database, the world’
s most comprehensive database of genomic, phenotypic, and clinical data."
义的.
大概以后搞genomics的不测个千尔八百的sample的出门都不好意思和人打招呼了.
-----------------------------------------------------------------------
http://www.businesswire.com/news/home/20170109006363/en/Illumina-Introduces-NovaSeq-Series%E2%80%94a-Architecture-Designed-Usher
"We are excited to be among the first to incorporate Illumina’s new NovaSeq
System into the HLI sequencing center to complement our existing HiSeq X
174; Systems,” said J. Craig Venter, PhD, Co-founder and Executive Chairman
of Human Longevity Inc. “Faster, inexpensive and innovative sequencing
technology is a key component driving breakthroughs in precision medicine.
This technology is also enabling HLI to expand the HLI database, the world’
s most comprehensive database of genomic, phenotypic, and clinical data."
n*7
26 楼
是差10倍
一个是1e-3,一个是1e-4
但是这对结果有多大影响?
比如目标是call出AF>=0.01的variant site
这个就是1e-2,跟1e-3的错误率都差了10倍了
况且Q30算比较保守的了,实际大部分base的质量要高很多
另外,quality score也不过是infer出来的,又不是ground truth
没必要太当回事
我自己也搞过计算quality score的模型
很多时候不过给人一些安慰罢了
即使对WGS,我觉得把quality score离散化,分成几个类
比如不靠谱,有点靠谱,靠谱,非常靠谱
就够了,即减少数据体积,也不会过度解读这个score
要不你给我个简单的例子
说说Q30和Q40怎么区别大了
我给你发包子?
【在 s******s 的大作中提到】
: 区别大了,是error的概率差10倍了。比较好的caller这个error rate应该是算在概率
: 里面的。
一个是1e-3,一个是1e-4
但是这对结果有多大影响?
比如目标是call出AF>=0.01的variant site
这个就是1e-2,跟1e-3的错误率都差了10倍了
况且Q30算比较保守的了,实际大部分base的质量要高很多
另外,quality score也不过是infer出来的,又不是ground truth
没必要太当回事
我自己也搞过计算quality score的模型
很多时候不过给人一些安慰罢了
即使对WGS,我觉得把quality score离散化,分成几个类
比如不靠谱,有点靠谱,靠谱,非常靠谱
就够了,即减少数据体积,也不会过度解读这个score
要不你给我个简单的例子
说说Q30和Q40怎么区别大了
我给你发包子?
【在 s******s 的大作中提到】
: 区别大了,是error的概率差10倍了。比较好的caller这个error rate应该是算在概率
: 里面的。
s*s
33 楼
你操心太多了,要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
如果sequence降到$100以下,过三四年有pipeline更新(想想mutect 2013年的paper,
mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
那个时候说不定都降到$20了。至于library和biosample都用完了?随随便便就多测
100倍的样品,以前的数据没有这么valuable啦。
【在 c******o 的大作中提到】
: 连bam都要省掉?
: variant calling 选项那么多,光package就好几个,而且还要根据平台和coverage微
: 调,这样没法重复阿,过几年你人一走或者package一更新,后面的人就傻眼了
如果sequence降到$100以下,过三四年有pipeline更新(想想mutect 2013年的paper,
mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
那个时候说不定都降到$20了。至于library和biosample都用完了?随随便便就多测
100倍的样品,以前的数据没有这么valuable啦。
【在 c******o 的大作中提到】
: 连bam都要省掉?
: variant calling 选项那么多,光package就好几个,而且还要根据平台和coverage微
: 调,这样没法重复阿,过几年你人一走或者package一更新,后面的人就傻眼了
s*s
34 楼
你这个是无数年前的pipeline啦,靠AF来做cutoff。
你去看看mutect的paper,m&m底下的算法,就知道怎么用quality score,
这个都还是四年前的pipeline了
至于quality score,你可以用BQSR做adjust. 其实把AF 在hetero附近的
variant挑出来统计一下,基本上也能把这个调的准一些。正紧点的分析
中心,BQSR是必须的吧
【在 n******7 的大作中提到】
: 是差10倍
: 一个是1e-3,一个是1e-4
: 但是这对结果有多大影响?
: 比如目标是call出AF>=0.01的variant site
: 这个就是1e-2,跟1e-3的错误率都差了10倍了
: 况且Q30算比较保守的了,实际大部分base的质量要高很多
: 另外,quality score也不过是infer出来的,又不是ground truth
: 没必要太当回事
: 我自己也搞过计算quality score的模型
: 很多时候不过给人一些安慰罢了
你去看看mutect的paper,m&m底下的算法,就知道怎么用quality score,
这个都还是四年前的pipeline了
至于quality score,你可以用BQSR做adjust. 其实把AF 在hetero附近的
variant挑出来统计一下,基本上也能把这个调的准一些。正紧点的分析
中心,BQSR是必须的吧
【在 n******7 的大作中提到】
: 是差10倍
: 一个是1e-3,一个是1e-4
: 但是这对结果有多大影响?
: 比如目标是call出AF>=0.01的variant site
: 这个就是1e-2,跟1e-3的错误率都差了10倍了
: 况且Q30算比较保守的了,实际大部分base的质量要高很多
: 另外,quality score也不过是infer出来的,又不是ground truth
: 没必要太当回事
: 我自己也搞过计算quality score的模型
: 很多时候不过给人一些安慰罢了
n*7
36 楼
我看了一下metect的paper,更加确定了我的想法
几点评论:
1. 我不是用AF来做cutoff call snv,而是个设定的目标
一般develop相关的方法,不管计算的还是实验的
都会设定这样一个有实际意义的specification
我最近帮人做一个方法,在决定测序通量的时候就这么算的
其实mutect paper里面也是这样,你看method section里面
Variant detection这个部分,那个f就是AF
2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
也就是说,脱离AF谈error rate是没有意义的
还是我之前的列子,如果AF是1%,而error rate是0.1%
也就是Q30
那么很大可能这就是个true SNP,因为差太远了
但是你想call 0.1%的SNV的话,Q30就不够用了
反过来,如果是AF 50%的 SNV,read depth足够的话,Q5就可以了
这个mutect的第二步就是基本的bayesian分析
我最早看到类似的用法应该还是在samtools里面
后来我照葫芦画瓢用到一个特别的project里面了
不过我是用来做QC
最终我还是根据具体的quality score来算的
但是只是因为有了这个数,算起来也直接
Q30还是40,如果跟你的设定目标(e.g. AF=0.01)差的很远的话
其实区别不大
3. 不过我并不是说mutect没啥东西
我自己那个QC的项目,也跟mutect一样
还考虑了一些non-random的效应,比如reads的direction
我最后的感受就是,方法说起来不复杂,但是要真在real data上work
要下很多看不见的功夫调试,非常花时间的
4. BQSR我就先不看了,起码我现在追到13年的工作了
感觉心里踏实一些了:)
一种新data出来,开始几年分析方法算是进步比较快的
后来的提高就是marginal的了,大部分文章和方法都是故弄玄虚
所以我也懒得去看
最终的提高还是数据本身的。
比如这几年流行的molecular barcode方法,才是本质上的提高
还有如果single cell sequencing成熟了,也极大简化了这个问题
一个例外是RNA quantification这块,这两年在处理速度上突破了
真tm快
【在 s******s 的大作中提到】
: 你这个是无数年前的pipeline啦,靠AF来做cutoff。
: 你去看看mutect的paper,m&m底下的算法,就知道怎么用quality score,
: 这个都还是四年前的pipeline了
: 至于quality score,你可以用BQSR做adjust. 其实把AF 在hetero附近的
: variant挑出来统计一下,基本上也能把这个调的准一些。正紧点的分析
: 中心,BQSR是必须的吧
几点评论:
1. 我不是用AF来做cutoff call snv,而是个设定的目标
一般develop相关的方法,不管计算的还是实验的
都会设定这样一个有实际意义的specification
我最近帮人做一个方法,在决定测序通量的时候就这么算的
其实mutect paper里面也是这样,你看method section里面
Variant detection这个部分,那个f就是AF
2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
也就是说,脱离AF谈error rate是没有意义的
还是我之前的列子,如果AF是1%,而error rate是0.1%
也就是Q30
那么很大可能这就是个true SNP,因为差太远了
但是你想call 0.1%的SNV的话,Q30就不够用了
反过来,如果是AF 50%的 SNV,read depth足够的话,Q5就可以了
这个mutect的第二步就是基本的bayesian分析
我最早看到类似的用法应该还是在samtools里面
后来我照葫芦画瓢用到一个特别的project里面了
不过我是用来做QC
最终我还是根据具体的quality score来算的
但是只是因为有了这个数,算起来也直接
Q30还是40,如果跟你的设定目标(e.g. AF=0.01)差的很远的话
其实区别不大
3. 不过我并不是说mutect没啥东西
我自己那个QC的项目,也跟mutect一样
还考虑了一些non-random的效应,比如reads的direction
我最后的感受就是,方法说起来不复杂,但是要真在real data上work
要下很多看不见的功夫调试,非常花时间的
4. BQSR我就先不看了,起码我现在追到13年的工作了
感觉心里踏实一些了:)
一种新data出来,开始几年分析方法算是进步比较快的
后来的提高就是marginal的了,大部分文章和方法都是故弄玄虚
所以我也懒得去看
最终的提高还是数据本身的。
比如这几年流行的molecular barcode方法,才是本质上的提高
还有如果single cell sequencing成熟了,也极大简化了这个问题
一个例外是RNA quantification这块,这两年在处理速度上突破了
真tm快
【在 s******s 的大作中提到】
: 你这个是无数年前的pipeline啦,靠AF来做cutoff。
: 你去看看mutect的paper,m&m底下的算法,就知道怎么用quality score,
: 这个都还是四年前的pipeline了
: 至于quality score,你可以用BQSR做adjust. 其实把AF 在hetero附近的
: variant挑出来统计一下,基本上也能把这个调的准一些。正紧点的分析
: 中心,BQSR是必须的吧
s*s
38 楼
hmmm
现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
你看了error rate,就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了,所
以error rate才重要。到了mutect2里面,虽然文章还没发,但是用的haplotypecaller
engine, 很多variant貌似只要很少的haplotype support就能call出来,这样每个
reads以及quality score应该更重要了。
你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章,
这种bias在call出来以后是应该filter掉的。
【在 n******7 的大作中提到】
: 我看了一下metect的paper,更加确定了我的想法
: 几点评论:
: 1. 我不是用AF来做cutoff call snv,而是个设定的目标
: 一般develop相关的方法,不管计算的还是实验的
: 都会设定这样一个有实际意义的specification
: 我最近帮人做一个方法,在决定测序通量的时候就这么算的
: 其实mutect paper里面也是这样,你看method section里面
: Variant detection这个部分,那个f就是AF
: 2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
: 也就是说,脱离AF谈error rate是没有意义的
现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
你看了error rate,就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了,所
以error rate才重要。到了mutect2里面,虽然文章还没发,但是用的haplotypecaller
engine, 很多variant貌似只要很少的haplotype support就能call出来,这样每个
reads以及quality score应该更重要了。
你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章,
这种bias在call出来以后是应该filter掉的。
【在 n******7 的大作中提到】
: 我看了一下metect的paper,更加确定了我的想法
: 几点评论:
: 1. 我不是用AF来做cutoff call snv,而是个设定的目标
: 一般develop相关的方法,不管计算的还是实验的
: 都会设定这样一个有实际意义的specification
: 我最近帮人做一个方法,在决定测序通量的时候就这么算的
: 其实mutect paper里面也是这样,你看method section里面
: Variant detection这个部分,那个f就是AF
: 2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
: 也就是说,脱离AF谈error rate是没有意义的
n*7
40 楼
最初提起quality score,不是说Q30一下就不要了
而是说quality score占很大地方,但是很多信息是没用的
要么trim之后就不用了
要么Q30 Q40之类区别不大
如果AF 1%都做不到,Q30以上真的就差不多了
AF 0.1%我是举个例子,我知道一般数据上做不到,也没必要
ctDNA这块结合软硬各种手段,可以做到0.02%左右,这是两年前的水平
reads direction的问题我知道的,我之前的quality score model就把这个考虑进去了
所以说quality score也是算出来的,跟真实的差别多大很难说
haplotypecaller
【在 s******s 的大作中提到】
: hmmm
: 现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
: 你看了error rate,就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了,所
: 以error rate才重要。到了mutect2里面,虽然文章还没发,但是用的haplotypecaller
: engine, 很多variant貌似只要很少的haplotype support就能call出来,这样每个
: reads以及quality score应该更重要了。
: 你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章,
: 这种bias在call出来以后是应该filter掉的。
而是说quality score占很大地方,但是很多信息是没用的
要么trim之后就不用了
要么Q30 Q40之类区别不大
如果AF 1%都做不到,Q30以上真的就差不多了
AF 0.1%我是举个例子,我知道一般数据上做不到,也没必要
ctDNA这块结合软硬各种手段,可以做到0.02%左右,这是两年前的水平
reads direction的问题我知道的,我之前的quality score model就把这个考虑进去了
所以说quality score也是算出来的,跟真实的差别多大很难说
haplotypecaller
【在 s******s 的大作中提到】
: hmmm
: 现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
: 你看了error rate,就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了,所
: 以error rate才重要。到了mutect2里面,虽然文章还没发,但是用的haplotypecaller
: engine, 很多variant貌似只要很少的haplotype support就能call出来,这样每个
: reads以及quality score应该更重要了。
: 你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章,
: 这种bias在call出来以后是应该filter掉的。
c*o
42 楼
make sense
看到2010年以前的2x50的序列,就在想把时间放这上面不如重新用2x100 或者更高的测
一遍
来。
了,
【在 s******s 的大作中提到】
: 你操心太多了,要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
: 如果sequence降到$100以下,过三四年有pipeline更新(想想mutect 2013年的paper,
: mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
: 那个时候说不定都降到$20了。至于library和biosample都用完了?随随便便就多测
: 100倍的样品,以前的数据没有这么valuable啦。
看到2010年以前的2x50的序列,就在想把时间放这上面不如重新用2x100 或者更高的测
一遍
来。
了,
【在 s******s 的大作中提到】
: 你操心太多了,要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
: 如果sequence降到$100以下,过三四年有pipeline更新(想想mutect 2013年的paper,
: mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
: 那个时候说不定都降到$20了。至于library和biosample都用完了?随随便便就多测
: 100倍的样品,以前的数据没有这么valuable啦。
相关阅读
Paper help关于我们为什么会近视paper help包子请教一个基因expression变化的问题Postdoctoral positions are available at Pennsylvania State University College of MedicineJ1马上满四年,如果回国再回来,签证有问题么?谢谢!其实生物的很多的问题,都是学术界的通病,不是生物本身的问题请问CRISPR比RNAi先进在哪些方面?关于genentech博士后paper help, thanksPaper help!11公的主要方向更靠近他博士的方向还是博士后的方向?请问有没有NGS 的教程,好用的教程10个包子奉上【求职招聘】诚聘心血管、神经、骨科方向兼职western样品加入loading buffer后忘了混匀就煮了,能补救吗?求审稿机会浙江大学生命科学研究院研究员海外招聘宣讲会 SF, Chicago, DCmeissis recombination frequency生物学青年千人交流好多造假的人连基本的诚意都没有啊