大家对Nova seq怎么看？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Biology - 生物学

大家对Nova seq怎么看？

大家对Nova seq怎么看？# Biology - 生物学

l*d2017-01-10 08:01

1 楼

小公司出什么招架？

R*D2017-01-10 08:01

2 楼

小公司？看来只有上贼船一条路。垄断会越来越厉害。

【在 l*********d 的大作中提到】

: 小公司出什么招架？

s*o2017-01-10 08:01

3 楼

还可以
但是会一步一步释放
工程那块不是那么难难在试剂
除非有全新的概念 3-4年没人追上
罗氏也在整不知道能弄出啥
有没有用的说说速度提高4倍有啥好处？

j*g2017-01-10 08:01

4 楼

相当于iPhone7 升级到iPhone7s。
对学术界的facility没啥影响，还是NextSeq好用。速度提高更没用。生物实验也不差
那两三天。

【在 s****o 的大作中提到】

: 还可以
: 但是会一步一步释放
: 工程那块不是那么难难在试剂
: 除非有全新的概念 3-4年没人追上
: 罗氏也在整不知道能弄出啥
: 有没有用的说说速度提高4倍有啥好处？

l*d2017-01-10 08:01

5 楼

关键词: 100$ per genome

j*g2017-01-10 08:01

6 楼

囧…… 没看到这个。真这样就秒X10了…

: 关键词: 100$ per genome

【在 l*********d 的大作中提到】

: 关键词: 100$ per genome

l*y2017-01-10 08:01

7 楼

100块也就是marketing说说的，1000块都不是随便找一个实验室就能做到的
这个机器优势是大小通吃吧，买一台啥都能做了

【在 j*********g 的大作中提到】

: 囧…… 没看到这个。真这样就秒X10了…
:
:
: 关键词: 100$ per genome
:

s*o2017-01-10 08:01

8 楼

$100 还有点难
当然最终目标是10
所以现在bioinformtion 才起步
那么多数据怎么分析是大问题特别和临床结合

c*o2017-01-10 08:01

9 楼

工程那块不是那么难难在试剂
工程上最难的， illumina 卖仪器都是赔本的，靠试剂赚回来
除非有全新的概念 3-4年没人追上
通量是上去了，读长的老问题还是没决绝，很多区域还是没法map，其他几家还是有生
存空间的

【在 s****o 的大作中提到】

j*g2017-01-10 08:01

10 楼

怎么分析那么多数据？bioinformatics跟不上。
只能人工智能。
不就是王俊和碳云科技要做的事……

【在 s****o 的大作中提到】

: $100 还有点难
: 当然最终目标是10
: 所以现在bioinformtion 才起步
: 那么多数据怎么分析是大问题特别和临床结合

s*o2017-01-10 08:01

11 楼

这个也不能说太多
本身这个机器涉及到光，机，流体，半导体
但是最关键是试剂部分其他机器拿过来可以copy
就是agent 不确信，
对单个企业来说，你做信息分析当然没问题从国家层面又被别人掐出脖子
像现在一样一堆文章没几个机器是自己的为什么
因为这个砸钱都榨不出
华大投了多少你妈没国家扶持就是个屁
癌症病人强制基因测序收集数据还要病人付6000

s*o2017-01-10 08:01

12 楼

s*o2017-01-10 08:01

13 楼

l*d2017-01-10 08:01

14 楼

100$ per genome 对于Human Longevity这种靠数据量忽悠人的公司来说还是有实际意
义的.
大概以后搞genomics的不测个千尔八百的sample的出门都不好意思和人打招呼了.
-----------------------------------------------------------------------
http://www.businesswire.com/news/home/20170109006363/en/Illumina-Introduces-NovaSeq-Series%E2%80%94a-Architecture-Designed-Usher
"We are excited to be among the first to incorporate Illumina’s new NovaSeq
System into the HLI sequencing center to complement our existing HiSeq X
174; Systems,” said J. Craig Venter, PhD, Co-founder and Executive Chairman
of Human Longevity Inc. “Faster, inexpensive and innovative sequencing
technology is a key component driving breakthroughs in precision medicine.
This technology is also enabling HLI to expand the HLI database, the world’
s most comprehensive database of genomic, phenotypic, and clinical data."

s*s2017-01-10 08:01

15 楼

这个东西的主要问题是储存，分析不难，现有的分析流程有很大的优化，或者
GPU/专门芯片加速的潜力。
在我看来，如果测序成本降低到一定数量级，那么是否保存原始数据就值得讨论了。
要么有其它的高压缩格式，不必要capture所有的BAM信息；要么直接保存variant。

【在 j*********g 的大作中提到】

: 怎么分析那么多数据？bioinformatics跟不上。
: 只能人工智能。
: 不就是王俊和碳云科技要做的事……

j*g2017-01-10 08:01

16 楼

存储也是问题。刚有NGS的时候，连测序的图像文件都是保存的，现在默认都不保存了。
但是怎么从这么多大数据中提取信息，还是需要人工智能的。王俊和他的碳云智能就看
到了这一趋势。

【在 s******s 的大作中提到】

: 这个东西的主要问题是储存，分析不难，现有的分析流程有很大的优化，或者
: GPU/专门芯片加速的潜力。
: 在我看来，如果测序成本降低到一定数量级，那么是否保存原始数据就值得讨论了。
: 要么有其它的高压缩格式，不必要capture所有的BAM信息；要么直接保存variant。

n*72017-01-10 08:01

17 楼

主要还是分析流程还不统一
比如光做个trimming就一堆工具
parameter啥的也是很灵活
其实trim之后quality score就没啥用了
这就可以省好多空间
能用上reference genome信息就更省了

【在 s******s 的大作中提到】

s*s2017-01-10 08:01

18 楼

谁说trim以后quality score就没用了？variant calling 全靠quality score

【在 n******7 的大作中提到】

: 主要还是分析流程还不统一
: 比如光做个trimming就一堆工具
: parameter啥的也是很灵活
: 其实trim之后quality score就没啥用了
: 这就可以省好多空间
: 能用上reference genome信息就更省了

n*72017-01-10 08:01

19 楼

这块做的比较少，主要跑pipeline
不过Q30和Q40有区别吗？

【在 s******s 的大作中提到】

: 谁说trim以后quality score就没用了？variant calling 全靠quality score

n*72017-01-10 08:01

20 楼

这块做的比较少，主要跑pipeline
不过Q30和Q40有区别吗？

【在 s******s 的大作中提到】

: 谁说trim以后quality score就没用了？variant calling 全靠quality score

s*s2017-01-10 08:01

21 楼

区别大了，是error的概率差10倍了。比较好的caller这个error rate应该是算在概率
里面的。

【在 n******7 的大作中提到】

: 这块做的比较少，主要跑pipeline
: 不过Q30和Q40有区别吗？

c*o2017-01-10 08:01

22 楼

连bam都要省掉？
variant calling 选项那么多，光package就好几个，而且还要根据平台和coverage微
调，这样没法重复阿，过几年你人一走或者package一更新，后面的人就傻眼了

【在 s******s 的大作中提到】

c*o2017-01-10 08:01

23 楼

pacbio 最喜欢阁下了

【在 n******7 的大作中提到】

: 这块做的比较少，主要跑pipeline
: 不过Q30和Q40有区别吗？

s*r2017-01-10 08:01

24 楼

pipeline不统一省不了，每个做bioinfo的人都觉得自己做出来的是个宝，其他人都是
瞎做，换个人接手都是raw data开始从头来过

【在 c******o 的大作中提到】

: 连bam都要省掉？
: variant calling 选项那么多，光package就好几个，而且还要根据平台和coverage微
: 调，这样没法重复阿，过几年你人一走或者package一更新，后面的人就傻眼了

c*o2017-01-10 08:01

25 楼

双手同意， 70%都是这种情况
不过也有算法更新或着换角度mining

【在 s******r 的大作中提到】

: pipeline不统一省不了，每个做bioinfo的人都觉得自己做出来的是个宝，其他人都是
: 瞎做，换个人接手都是raw data开始从头来过

n*72017-01-10 08:01

26 楼

是差10倍
一个是1e-3,一个是1e-4
但是这对结果有多大影响？
比如目标是call出AF>=0.01的variant site
这个就是1e-2,跟1e－3的错误率都差了10倍了
况且Q30算比较保守的了，实际大部分base的质量要高很多
另外，quality score也不过是infer出来的，又不是ground truth
没必要太当回事
我自己也搞过计算quality score的模型
很多时候不过给人一些安慰罢了
即使对WGS，我觉得把quality score离散化，分成几个类
比如不靠谱，有点靠谱，靠谱，非常靠谱
就够了，即减少数据体积，也不会过度解读这个score
要不你给我个简单的例子
说说Q30和Q40怎么区别大了
我给你发包子？

【在 s******s 的大作中提到】

: 区别大了，是error的概率差10倍了。比较好的caller这个error rate应该是算在概率
: 里面的。

n*72017-01-10 08:01

27 楼

有CIGAR字符串就能重建sequence
quality score另说

【在 c******o 的大作中提到】

n*72017-01-10 08:01

28 楼

你说反了
我很喜欢pacbio
之前用pacbio做de novo
结果PERFECT
我从来没有预期能做出那么好的结果

【在 c******o 的大作中提到】

: pacbio 最喜欢阁下了

n*72017-01-10 08:01

29 楼

我从来不这样觉得
我只要求自己在瞎做的时候，能尽量reasonable一些
整个过程中太多不靠谱的地方太多了
包括最上游的fastq file，这个也有不少变数的
还有各种annotation，太多瞎搞的

【在 s******r 的大作中提到】

: pipeline不统一省不了，每个做bioinfo的人都觉得自己做出来的是个宝，其他人都是
: 瞎做，换个人接手都是raw data开始从头来过

n*72017-01-10 08:01

30 楼

主要原因是省事
接手别人的东西比自己从头来麻烦多了

【在 c******o 的大作中提到】

: 双手同意， 70%都是这种情况
: 不过也有算法更新或着换角度mining

c*o2017-01-10 08:01

31 楼

问题是拿到ＣＩＧＡＲ时已经ｍａｐed 过了，用的是那个ｐａｃｋａｇｅ那个ｓｅｔ
ｔｉｎｇ可能都不可知了，你除了Ｍ可以重建，其他的够呛吧

【在 n******7 的大作中提到】

: 有CIGAR字符串就能重建sequence
: quality score另说

n*72017-01-10 08:01

32 楼

哦，这个疏忽了，应该加上具体variant的信息
多年前写个一个这样的东西
这只是为了用reference sequence最小化原始序列的信息存储
只记录difference
不是为了reproduce分析的结果

【在 c******o 的大作中提到】

: 问题是拿到ＣＩＧＡＲ时已经ｍａｐed 过了，用的是那个ｐａｃｋａｇｅ那个ｓｅｔ
: ｔｉｎｇ可能都不可知了，你除了Ｍ可以重建，其他的够呛吧

s*s2017-01-10 08:01

33 楼

你操心太多了，要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
如果sequence降到$100以下，过三四年有pipeline更新(想想mutect 2013年的paper,
mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
那个时候说不定都降到$20了。至于library和biosample都用完了？随随便便就多测
100倍的样品，以前的数据没有这么valuable啦。

【在 c******o 的大作中提到】

s*s2017-01-10 08:01

34 楼

你这个是无数年前的pipeline啦，靠AF来做cutoff。
你去看看mutect的paper，m&m底下的算法，就知道怎么用quality score,
这个都还是四年前的pipeline了
至于quality score，你可以用BQSR做adjust. 其实把AF 在hetero附近的
variant挑出来统计一下，基本上也能把这个调的准一些。正紧点的分析
中心，BQSR是必须的吧

【在 n******7 的大作中提到】

: 是差10倍
: 一个是1e-3,一个是1e-4
: 但是这对结果有多大影响？
: 比如目标是call出AF>=0.01的variant site
: 这个就是1e-2,跟1e－3的错误率都差了10倍了
: 况且Q30算比较保守的了，实际大部分base的质量要高很多
: 另外，quality score也不过是infer出来的，又不是ground truth
: 没必要太当回事
: 我自己也搞过计算quality score的模型
: 很多时候不过给人一些安慰罢了

s*s2017-01-10 08:01

35 楼

CIGAR其实就是最不容易压缩的部分，我看70%都是为了存CIGAR.
SRA或者CRAM要压缩的给力，最后都落到有损压缩CIGAR上

【在 n******7 的大作中提到】

: 有CIGAR字符串就能重建sequence
: quality score另说

n*72017-01-10 08:01

36 楼

我看了一下metect的paper，更加确定了我的想法
几点评论:
1. 我不是用AF来做cutoff call snv，而是个设定的目标
一般develop相关的方法，不管计算的还是实验的
都会设定这样一个有实际意义的specification
我最近帮人做一个方法，在决定测序通量的时候就这么算的
其实mutect paper里面也是这样，你看method section里面
Variant detection这个部分，那个f就是AF
2. 接第一点，你可以看到这个likelihood的计算是基于AF和error rate的
也就是说，脱离AF谈error rate是没有意义的
还是我之前的列子，如果AF是1%，而error rate是0.1%
也就是Q30
那么很大可能这就是个true SNP，因为差太远了
但是你想call 0.1%的SNV的话，Q30就不够用了
反过来，如果是AF 50%的 SNV，read depth足够的话，Q5就可以了
这个mutect的第二步就是基本的bayesian分析
我最早看到类似的用法应该还是在samtools里面
后来我照葫芦画瓢用到一个特别的project里面了
不过我是用来做QC
最终我还是根据具体的quality score来算的
但是只是因为有了这个数，算起来也直接
Q30还是40，如果跟你的设定目标（e.g. AF=0.01）差的很远的话
其实区别不大
3. 不过我并不是说mutect没啥东西
我自己那个QC的项目，也跟mutect一样
还考虑了一些non-random的效应，比如reads的direction
我最后的感受就是，方法说起来不复杂，但是要真在real data上work
要下很多看不见的功夫调试，非常花时间的
4. BQSR我就先不看了，起码我现在追到13年的工作了
感觉心里踏实一些了:)
一种新data出来，开始几年分析方法算是进步比较快的
后来的提高就是marginal的了，大部分文章和方法都是故弄玄虚
所以我也懒得去看
最终的提高还是数据本身的。
比如这几年流行的molecular barcode方法，才是本质上的提高
还有如果single cell sequencing成熟了，也极大简化了这个问题
一个例外是RNA quantification这块，这两年在处理速度上突破了
真tm快

【在 s******s 的大作中提到】

: 你这个是无数年前的pipeline啦，靠AF来做cutoff。
: 你去看看mutect的paper，m&m底下的算法，就知道怎么用quality score,
: 这个都还是四年前的pipeline了
: 至于quality score，你可以用BQSR做adjust. 其实把AF 在hetero附近的
: variant挑出来统计一下，基本上也能把这个调的准一些。正紧点的分析
: 中心，BQSR是必须的吧

n*72017-01-10 08:01

37 楼

有损压缩CIGAR？？
这个怎么损？
这个一损就没意义了
quality score还差不多

【在 s******s 的大作中提到】

: CIGAR其实就是最不容易压缩的部分，我看70%都是为了存CIGAR.
: SRA或者CRAM要压缩的给力，最后都落到有损压缩CIGAR上

s*s2017-01-10 08:01

38 楼

hmmm
现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
你看了error rate，就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了，所
以error rate才重要。到了mutect2里面，虽然文章还没发，但是用的haplotypecaller
engine, 很多variant貌似只要很少的haplotype support就能call出来，这样每个
reads以及quality score应该更重要了。
你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章，
这种bias在call出来以后是应该filter掉的。

【在 n******7 的大作中提到】

: 我看了一下metect的paper，更加确定了我的想法
: 几点评论:
: 1. 我不是用AF来做cutoff call snv，而是个设定的目标
: 一般develop相关的方法，不管计算的还是实验的
: 都会设定这样一个有实际意义的specification
: 我最近帮人做一个方法，在决定测序通量的时候就这么算的
: 其实mutect paper里面也是这样，你看method section里面
: Variant detection这个部分，那个f就是AF
: 2. 接第一点，你可以看到这个likelihood的计算是基于AF和error rate的
: 也就是说，脱离AF谈error rate是没有意义的

s*s2017-01-10 08:01

39 楼

说错了，是quality score

【在 n******7 的大作中提到】

: 有损压缩CIGAR？？
: 这个怎么损？
: 这个一损就没意义了
: quality score还差不多

n*72017-01-10 08:01

40 楼

最初提起quality score，不是说Q30一下就不要了
而是说quality score占很大地方，但是很多信息是没用的
要么trim之后就不用了
要么Q30 Q40之类区别不大
如果AF 1%都做不到，Q30以上真的就差不多了
AF 0.1%我是举个例子，我知道一般数据上做不到，也没必要
ctDNA这块结合软硬各种手段，可以做到0.02%左右,这是两年前的水平
reads direction的问题我知道的，我之前的quality score model就把这个考虑进去了
所以说quality score也是算出来的，跟真实的差别多大很难说

haplotypecaller

【在 s******s 的大作中提到】

: hmmm
: 现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
: 你看了error rate，就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了，所
: 以error rate才重要。到了mutect2里面，虽然文章还没发，但是用的haplotypecaller
: engine, 很多variant貌似只要很少的haplotype support就能call出来，这样每个
: reads以及quality score应该更重要了。
: 你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章，
: 这种bias在call出来以后是应该filter掉的。

n*72017-01-10 08:01

41 楼

哦那就对了
有损压缩quality score的路是对的
因为这玩意损不损区别不大
刚查了下illumina的官方文档
它也建议离散化quality score
这样可以省好多空间
再用reference sequence信息省省
存储空间可以继续下降不少
不过坏处是高压缩比的数据处理起来远没有 fastq.gz方便
我前段时间研究过一下
还是决定用fastq.gz了

【在 s******s 的大作中提到】

: 说错了，是quality score

c*o2017-01-10 08:01

42 楼

make sense
看到2010年以前的2x50的序列，就在想把时间放这上面不如重新用2x100 或者更高的测
一遍

来。
了,

【在 s******s 的大作中提到】

: 你操心太多了，要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
: 如果sequence降到$100以下，过三四年有pipeline更新(想想mutect 2013年的paper,
: mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
: 那个时候说不定都降到$20了。至于library和biosample都用完了？随随便便就多测
: 100倍的样品，以前的数据没有这么valuable啦。