Redian新闻
>
大家对Nova seq怎么看?
avatar
R*D
2
小公司?看来只有上贼船一条路。垄断会越来越厉害。

【在 l*********d 的大作中提到】
: 小公司出什么招架?
avatar
s*o
3
还可以
但是会一步一步释放
工程那块不是那么难 难在试剂
除非有全新的概念 3-4年没人追上
罗氏也在整 不知道能弄出啥
有没有用的说说 速度提高4倍 有啥好处?
avatar
j*g
4
相当于iPhone7 升级到iPhone7s。
对学术界的facility没啥影响,还是NextSeq好用。速度提高更没用。生物实验也不差
那两三天。

【在 s****o 的大作中提到】
: 还可以
: 但是会一步一步释放
: 工程那块不是那么难 难在试剂
: 除非有全新的概念 3-4年没人追上
: 罗氏也在整 不知道能弄出啥
: 有没有用的说说 速度提高4倍 有啥好处?

avatar
l*d
5
关键词: 100$ per genome
avatar
j*g
6
囧…… 没看到这个。真这样就秒X10了…


: 关键词: 100$ per genome



【在 l*********d 的大作中提到】
: 关键词: 100$ per genome
avatar
l*y
7
100块也就是marketing说说的,1000块都不是随便找一个实验室就能做到的
这个机器优势是大小通吃吧,买一台啥都能做了

【在 j*********g 的大作中提到】
: 囧…… 没看到这个。真这样就秒X10了…
:
:
: 关键词: 100$ per genome
:

avatar
s*o
8
$100 还有点难
当然最终目标是10
所以现在bioinformtion 才起步
那么多数据怎么分析 是大问题 特别和临床结合
avatar
c*o
9
工程那块不是那么难 难在试剂
工程上最难的, illumina 卖仪器都是赔本的,靠试剂赚回来
除非有全新的概念 3-4年没人追上
通量是上去了,读长的老问题还是没决绝,很多区域还是没法map,其他几家还是有生
存空间的

【在 s****o 的大作中提到】
: 还可以
: 但是会一步一步释放
: 工程那块不是那么难 难在试剂
: 除非有全新的概念 3-4年没人追上
: 罗氏也在整 不知道能弄出啥
: 有没有用的说说 速度提高4倍 有啥好处?

avatar
j*g
10
怎么分析那么多数据?bioinformatics跟不上。
只能人工智能。
不就是王俊和碳云科技要做的事……

【在 s****o 的大作中提到】
: $100 还有点难
: 当然最终目标是10
: 所以现在bioinformtion 才起步
: 那么多数据怎么分析 是大问题 特别和临床结合

avatar
s*o
11
这个也不能说太多
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
avatar
s*o
12
这个也不能说太多
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
avatar
s*o
13
这个也不能说太多
本身这个机器涉及到光,机,流体,半导体
但是最关键是试剂部分 其他机器拿过来可以copy
就是agent 不确信,
对单个企业来说, 你做信息分析当然没问题 从国家层面 又被别人掐出脖子
像现在一样 一堆文章 没几个机器是自己的 为什么
因为这个砸钱都榨不出
华大投了多少 你妈没国家扶持就是个屁
癌症病人强制基因测序 收集数据 还要病人付6000
avatar
l*d
14
100$ per genome 对于Human Longevity这种靠数据量忽悠人的公司来说还是有实际意
义的.
大概以后搞genomics的不测个千尔八百的sample的出门都不好意思和人打招呼了.
-----------------------------------------------------------------------
http://www.businesswire.com/news/home/20170109006363/en/Illumina-Introduces-NovaSeq-Series%E2%80%94a-Architecture-Designed-Usher
"We are excited to be among the first to incorporate Illumina’s new NovaSeq
System into the HLI sequencing center to complement our existing HiSeq X
174; Systems,” said J. Craig Venter, PhD, Co-founder and Executive Chairman
of Human Longevity Inc. “Faster, inexpensive and innovative sequencing
technology is a key component driving breakthroughs in precision medicine.
This technology is also enabling HLI to expand the HLI database, the world’
s most comprehensive database of genomic, phenotypic, and clinical data."
avatar
s*s
15
这个东西的主要问题是储存,分析不难,现有的分析流程有很大的优化,或者
GPU/专门芯片加速的潜力。
在我看来,如果测序成本降低到一定数量级,那么是否保存原始数据就值得讨论了。
要么有其它的高压缩格式,不必要capture所有的BAM信息;要么直接保存variant。

【在 j*********g 的大作中提到】
: 怎么分析那么多数据?bioinformatics跟不上。
: 只能人工智能。
: 不就是王俊和碳云科技要做的事……

avatar
j*g
16
存储也是问题。刚有NGS的时候,连测序的图像文件都是保存的,现在默认都不保存了。
但是怎么从这么多大数据中提取信息,还是需要人工智能的。王俊和他的碳云智能就看
到了这一趋势。

【在 s******s 的大作中提到】
: 这个东西的主要问题是储存,分析不难,现有的分析流程有很大的优化,或者
: GPU/专门芯片加速的潜力。
: 在我看来,如果测序成本降低到一定数量级,那么是否保存原始数据就值得讨论了。
: 要么有其它的高压缩格式,不必要capture所有的BAM信息;要么直接保存variant。

avatar
n*7
17
主要还是分析流程还不统一
比如光做个trimming就一堆工具
parameter啥的也是很灵活
其实trim之后quality score就没啥用了
这就可以省好多空间
能用上reference genome信息就更省了

【在 s******s 的大作中提到】
: 这个东西的主要问题是储存,分析不难,现有的分析流程有很大的优化,或者
: GPU/专门芯片加速的潜力。
: 在我看来,如果测序成本降低到一定数量级,那么是否保存原始数据就值得讨论了。
: 要么有其它的高压缩格式,不必要capture所有的BAM信息;要么直接保存variant。

avatar
s*s
18
谁说trim以后quality score就没用了?variant calling 全靠quality score

【在 n******7 的大作中提到】
: 主要还是分析流程还不统一
: 比如光做个trimming就一堆工具
: parameter啥的也是很灵活
: 其实trim之后quality score就没啥用了
: 这就可以省好多空间
: 能用上reference genome信息就更省了

avatar
n*7
19
这块做的比较少,主要跑pipeline
不过Q30和Q40有区别吗?

【在 s******s 的大作中提到】
: 谁说trim以后quality score就没用了?variant calling 全靠quality score
avatar
n*7
20
这块做的比较少,主要跑pipeline
不过Q30和Q40有区别吗?

【在 s******s 的大作中提到】
: 谁说trim以后quality score就没用了?variant calling 全靠quality score
avatar
s*s
21
区别大了,是error的概率差10倍了。比较好的caller这个error rate应该是算在概率
里面的。

【在 n******7 的大作中提到】
: 这块做的比较少,主要跑pipeline
: 不过Q30和Q40有区别吗?

avatar
c*o
22
连bam都要省掉?
variant calling 选项那么多,光package就好几个,而且还要根据平台和coverage微
调,这样没法重复阿,过几年你人一走或者package一更新,后面的人就傻眼了

【在 s******s 的大作中提到】
: 这个东西的主要问题是储存,分析不难,现有的分析流程有很大的优化,或者
: GPU/专门芯片加速的潜力。
: 在我看来,如果测序成本降低到一定数量级,那么是否保存原始数据就值得讨论了。
: 要么有其它的高压缩格式,不必要capture所有的BAM信息;要么直接保存variant。

avatar
c*o
23
pacbio 最喜欢阁下了

【在 n******7 的大作中提到】
: 这块做的比较少,主要跑pipeline
: 不过Q30和Q40有区别吗?

avatar
s*r
24
pipeline不统一省不了,每个做bioinfo的人都觉得自己做出来的是个宝,其他人都是
瞎做,换个人接手都是raw data开始从头来过

【在 c******o 的大作中提到】
: 连bam都要省掉?
: variant calling 选项那么多,光package就好几个,而且还要根据平台和coverage微
: 调,这样没法重复阿,过几年你人一走或者package一更新,后面的人就傻眼了

avatar
c*o
25
双手同意, 70%都是这种情况
不过也有算法更新或着换角度mining

【在 s******r 的大作中提到】
: pipeline不统一省不了,每个做bioinfo的人都觉得自己做出来的是个宝,其他人都是
: 瞎做,换个人接手都是raw data开始从头来过

avatar
n*7
26
是差10倍
一个是1e-3,一个是1e-4
但是这对结果有多大影响?
比如目标是call出AF>=0.01的variant site
这个就是1e-2,跟1e-3的错误率都差了10倍了
况且Q30算比较保守的了,实际大部分base的质量要高很多
另外,quality score也不过是infer出来的,又不是ground truth
没必要太当回事
我自己也搞过计算quality score的模型
很多时候不过给人一些安慰罢了
即使对WGS,我觉得把quality score离散化,分成几个类
比如不靠谱,有点靠谱,靠谱,非常靠谱
就够了,即减少数据体积,也不会过度解读这个score
要不你给我个简单的例子
说说Q30和Q40怎么区别大了
我给你发包子?

【在 s******s 的大作中提到】
: 区别大了,是error的概率差10倍了。比较好的caller这个error rate应该是算在概率
: 里面的。

avatar
n*7
27
有CIGAR字符串就能重建sequence
quality score另说

【在 c******o 的大作中提到】
: 连bam都要省掉?
: variant calling 选项那么多,光package就好几个,而且还要根据平台和coverage微
: 调,这样没法重复阿,过几年你人一走或者package一更新,后面的人就傻眼了

avatar
n*7
28
你说反了
我很喜欢pacbio
之前用pacbio做de novo
结果PERFECT
我从来没有预期能做出那么好的结果

【在 c******o 的大作中提到】
: pacbio 最喜欢阁下了
avatar
n*7
29
我从来不这样觉得
我只要求自己在瞎做的时候,能尽量reasonable一些
整个过程中太多不靠谱的地方太多了
包括最上游的fastq file,这个也有不少变数的
还有各种annotation,太多瞎搞的

【在 s******r 的大作中提到】
: pipeline不统一省不了,每个做bioinfo的人都觉得自己做出来的是个宝,其他人都是
: 瞎做,换个人接手都是raw data开始从头来过

avatar
n*7
30
主要原因是省事
接手别人的东西比自己从头来麻烦多了

【在 c******o 的大作中提到】
: 双手同意, 70%都是这种情况
: 不过也有算法更新或着换角度mining

avatar
c*o
31
问题是拿到CIGAR时已经 maped 过了,用的是那个package那个set
ting可能都不可知了,你除了M可以重建,其他的够呛吧

【在 n******7 的大作中提到】
: 有CIGAR字符串就能重建sequence
: quality score另说

avatar
n*7
32
哦,这个疏忽了,应该加上具体variant的信息
多年前写个一个这样的东西
这只是为了用reference sequence最小化原始序列的信息存储
只记录difference
不是为了reproduce分析的结果

【在 c******o 的大作中提到】
: 问题是拿到CIGAR时已经 maped 过了,用的是那个package那个set
: ting可能都不可知了,你除了M可以重建,其他的够呛吧

avatar
s*s
33
你操心太多了,要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
如果sequence降到$100以下,过三四年有pipeline更新(想想mutect 2013年的paper,
mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
那个时候说不定都降到$20了。至于library和biosample都用完了?随随便便就多测
100倍的样品,以前的数据没有这么valuable啦。

【在 c******o 的大作中提到】
: 连bam都要省掉?
: variant calling 选项那么多,光package就好几个,而且还要根据平台和coverage微
: 调,这样没法重复阿,过几年你人一走或者package一更新,后面的人就傻眼了

avatar
s*s
34
你这个是无数年前的pipeline啦,靠AF来做cutoff。
你去看看mutect的paper,m&m底下的算法,就知道怎么用quality score,
这个都还是四年前的pipeline了
至于quality score,你可以用BQSR做adjust. 其实把AF 在hetero附近的
variant挑出来统计一下,基本上也能把这个调的准一些。正紧点的分析
中心,BQSR是必须的吧

【在 n******7 的大作中提到】
: 是差10倍
: 一个是1e-3,一个是1e-4
: 但是这对结果有多大影响?
: 比如目标是call出AF>=0.01的variant site
: 这个就是1e-2,跟1e-3的错误率都差了10倍了
: 况且Q30算比较保守的了,实际大部分base的质量要高很多
: 另外,quality score也不过是infer出来的,又不是ground truth
: 没必要太当回事
: 我自己也搞过计算quality score的模型
: 很多时候不过给人一些安慰罢了

avatar
s*s
35
CIGAR其实就是最不容易压缩的部分,我看70%都是为了存CIGAR.
SRA或者CRAM要压缩的给力,最后都落到有损压缩CIGAR上

【在 n******7 的大作中提到】
: 有CIGAR字符串就能重建sequence
: quality score另说

avatar
n*7
36
我看了一下metect的paper,更加确定了我的想法
几点评论:
1. 我不是用AF来做cutoff call snv,而是个设定的目标
一般develop相关的方法,不管计算的还是实验的
都会设定这样一个有实际意义的specification
我最近帮人做一个方法,在决定测序通量的时候就这么算的
其实mutect paper里面也是这样,你看method section里面
Variant detection这个部分,那个f就是AF
2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
也就是说,脱离AF谈error rate是没有意义的
还是我之前的列子,如果AF是1%,而error rate是0.1%
也就是Q30
那么很大可能这就是个true SNP,因为差太远了
但是你想call 0.1%的SNV的话,Q30就不够用了
反过来,如果是AF 50%的 SNV,read depth足够的话,Q5就可以了
这个mutect的第二步就是基本的bayesian分析
我最早看到类似的用法应该还是在samtools里面
后来我照葫芦画瓢用到一个特别的project里面了
不过我是用来做QC
最终我还是根据具体的quality score来算的
但是只是因为有了这个数,算起来也直接
Q30还是40,如果跟你的设定目标(e.g. AF=0.01)差的很远的话
其实区别不大
3. 不过我并不是说mutect没啥东西
我自己那个QC的项目,也跟mutect一样
还考虑了一些non-random的效应,比如reads的direction
我最后的感受就是,方法说起来不复杂,但是要真在real data上work
要下很多看不见的功夫调试,非常花时间的
4. BQSR我就先不看了,起码我现在追到13年的工作了
感觉心里踏实一些了:)
一种新data出来,开始几年分析方法算是进步比较快的
后来的提高就是marginal的了,大部分文章和方法都是故弄玄虚
所以我也懒得去看
最终的提高还是数据本身的。
比如这几年流行的molecular barcode方法,才是本质上的提高
还有如果single cell sequencing成熟了,也极大简化了这个问题
一个例外是RNA quantification这块,这两年在处理速度上突破了
真tm快

【在 s******s 的大作中提到】
: 你这个是无数年前的pipeline啦,靠AF来做cutoff。
: 你去看看mutect的paper,m&m底下的算法,就知道怎么用quality score,
: 这个都还是四年前的pipeline了
: 至于quality score,你可以用BQSR做adjust. 其实把AF 在hetero附近的
: variant挑出来统计一下,基本上也能把这个调的准一些。正紧点的分析
: 中心,BQSR是必须的吧

avatar
n*7
37
有损压缩CIGAR??
这个怎么损?
这个一损就没意义了
quality score还差不多

【在 s******s 的大作中提到】
: CIGAR其实就是最不容易压缩的部分,我看70%都是为了存CIGAR.
: SRA或者CRAM要压缩的给力,最后都落到有损压缩CIGAR上

avatar
s*s
38
hmmm
现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
你看了error rate,就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了,所
以error rate才重要。到了mutect2里面,虽然文章还没发,但是用的haplotypecaller
engine, 很多variant貌似只要很少的haplotype support就能call出来,这样每个
reads以及quality score应该更重要了。
你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章,
这种bias在call出来以后是应该filter掉的。

【在 n******7 的大作中提到】
: 我看了一下metect的paper,更加确定了我的想法
: 几点评论:
: 1. 我不是用AF来做cutoff call snv,而是个设定的目标
: 一般develop相关的方法,不管计算的还是实验的
: 都会设定这样一个有实际意义的specification
: 我最近帮人做一个方法,在决定测序通量的时候就这么算的
: 其实mutect paper里面也是这样,你看method section里面
: Variant detection这个部分,那个f就是AF
: 2. 接第一点,你可以看到这个likelihood的计算是基于AF和error rate的
: 也就是说,脱离AF谈error rate是没有意义的

avatar
s*s
39
说错了,是quality score

【在 n******7 的大作中提到】
: 有损压缩CIGAR??
: 这个怎么损?
: 这个一损就没意义了
: quality score还差不多

avatar
n*7
40
最初提起quality score,不是说Q30一下就不要了
而是说quality score占很大地方,但是很多信息是没用的
要么trim之后就不用了
要么Q30 Q40之类区别不大
如果AF 1%都做不到,Q30以上真的就差不多了
AF 0.1%我是举个例子,我知道一般数据上做不到,也没必要
ctDNA这块结合软硬各种手段,可以做到0.02%左右,这是两年前的水平
reads direction的问题我知道的,我之前的quality score model就把这个考虑进去了
所以说quality score也是算出来的,跟真实的差别多大很难说

haplotypecaller

【在 s******s 的大作中提到】
: hmmm
: 现在的caller用普通WGS/WXS还做不到AF 0.1%, 连1%都做不到。
: 你看了error rate,就知道搞个Q30其实就等于把Q30以下所有的evidence都扔掉了,所
: 以error rate才重要。到了mutect2里面,虽然文章还没发,但是用的haplotypecaller
: engine, 很多variant貌似只要很少的haplotype support就能call出来,这样每个
: reads以及quality score应该更重要了。
: 你说的reads direction, 其实很可能是bias. 建议去看Broad dToxoG, OxoQ的文章,
: 这种bias在call出来以后是应该filter掉的。

avatar
n*7
41
哦 那就对了
有损压缩quality score的路是对的
因为这玩意损不损区别不大
刚查了下illumina的官方文档
它也建议离散化quality score
这样可以省好多空间
再用reference sequence信息省省
存储空间可以继续下降不少
不过坏处是高压缩比的数据处理起来远没有 fastq.gz方便
我前段时间研究过一下
还是决定用fastq.gz了

【在 s******s 的大作中提到】
: 说错了,是quality score
avatar
c*o
42
make sense
看到2010年以前的2x50的序列,就在想把时间放这上面不如重新用2x100 或者更高的测
一遍

来。
了,

【在 s******s 的大作中提到】
: 你操心太多了,要把眼光放长远。SNP calling其实几个pipeline合一下,95%都能出来。
: 如果sequence降到$100以下,过三四年有pipeline更新(想想mutect 2013年的paper,
: mutect2 2017年还是beta, 更不用说发表了), 把冻得library挖出来重新测一遍就行了,
: 那个时候说不定都降到$20了。至于library和biosample都用完了?随随便便就多测
: 100倍的样品,以前的数据没有这么valuable啦。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。