Redian新闻
>
大家对NGS的发展如何看?
avatar
大家对NGS的发展如何看?# Biology - 生物学
y*y
1
版上有NGS内行吗?
我是外行,只能看看热闹,感觉现在挺红火的。有没有内行来具体说说?
avatar
d*e
2
尚未成功,还需努力。

【在 y***y 的大作中提到】
: 版上有NGS内行吗?
: 我是外行,只能看看热闹,感觉现在挺红火的。有没有内行来具体说说?

avatar
b*r
3
遗传因素比较大的病几年内致病突变都会被搞定
avatar
b*r
4
也许是你有点悲观呢,呵呵
avatar
u*1
5
我觉得要考虑几个方面:
1.如何定义“遗传因素比较大”? 想确定到底是familial还是sporadic,肯定要收集
足够的sample吧。。有时候对于有的疾病sample都很难收集。这不仅是人力,精力,
funding的问题,有的疾病病人死的很快,或者sample本身很少,总是很难碰到一个好
的大的pedigree的
2.NGS技术本身我当然是很看好的了,肯定越来越精确成熟,而且越来越便宜。但到底
能有多便宜?什么时候可以很轻松的给每个人做全基因组测序?read length可以达到
长?(肯定是越长越好)计算机的硬件能跟上NGS数据发展的趋势吗?
3.生物信息分析。我只能说现在的bioinformatic pipeline,除了read alignment和
SNP calling变的非常成熟(不仅sensitivity/specificity很高,而且可以做
population-level的分析),在其他方面,要么很艰难,要么很混乱。就是说无法达成
一个统一大家公认的最好的pipeline,我开发一个方法,你开发一个软件,最后把使用
者都搞的糊里糊涂的。比如indel calling,其实到现在包括1000genome在indel
calling方面都很乱,结果几乎是完全不敢拿来直接用的。之所以混乱就说明哪怕是
indel calling在computationally来说都没那么简单的,不像SNP那么容易鉴定出来。
“艰难”和“混乱”是相关的。
另外,生物信息的分析都是随着生物学问题本身的。目前的生物学的复杂程度也很低级
,所以我们面临的不过是最简单的分析。如果以后对生物复杂度要求高了,会有更多的
问题要面临解决。
4.对基因组,genome biology本身的认识。其实纵然是whole-genome sequencing,我
看大部分的paper也就是先找找coding region/splicing的SNP/indel;或者说大家还是
gene-centric的。现在我们对基因组的认识还很不完善,且不说loci interaction,就
连最基本的每个loci是什么作用都不清楚。很多基因的功能都不知道,而且gene本身的
概念也在被扩充,不断有新的gene被发现,以及各种新型的什么miRNA gene啊,
linkRNAgene被发现。还有很多regulatory region比如被ENCODE给annotate出来。除了
非常明显的罕见的large deletion/duplication,或者一些repeat expansion,我们的
精力还是停留在missense mutation上,因为这个最好解释。而splicing site,或者
regulatory region有一个哪怕是罕见的A到T的突变,请问你能立刻给我解释下这个
rare SNP effect吗?
当然了我相信很多的罕见遗传病,还是更可能是missense mutation导致的,但其他的
complex disease,可能就是各种regulatory region以及gene共同导致的了,那么在搞
清楚各种调控区域各种noncoding region的功能之前,我们纵然找到了很多rare
mutation也束手无策。
5.最复杂的还是disease genetics/biology本身。比如autism,schizophrenia,测序
了那么多,找到很多de novo mutation,若干可能的治病基因,ok,纵然我相信,但
what's next?你如何解释呢?。。。甚至包括一些典型的familial disease,其实未
必都是single gene导致的了;或者pedigree A是这个基因,pedigree B是另外一个基
因,只不过过去条件有限,we just pick up the easy part. 。。。。Disease is
more genetically heterozygous than we think....
当然了,NGS当然是powerful的工具,我非常看好。测的越多,我们能找到的rare
mutation就越多。比如我先在100个trio里做exome sequencing,找到一些candidate
loci,再去10000个sample里做target resequencing,争取找到更多的mutation,对疾
病有更多的了解。。。。同时当然也对基因组的功能,gene annotation有巨大作用。
。。所以我估计未来肯定就是测了N多序列,把各种疾病的突变尽量找到,发现很多疾
病原来是multiple gene导致的。但,what's next?
BIOLOGY IS ALWAYS THE HARD PART.

【在 b****r 的大作中提到】
: 遗传因素比较大的病几年内致病突变都会被搞定
avatar
m*c
6
Well said.Polish it and fill up with some examples and you could publish
this as a review.

【在 u*********1 的大作中提到】
: 我觉得要考虑几个方面:
: 1.如何定义“遗传因素比较大”? 想确定到底是familial还是sporadic,肯定要收集
: 足够的sample吧。。有时候对于有的疾病sample都很难收集。这不仅是人力,精力,
: funding的问题,有的疾病病人死的很快,或者sample本身很少,总是很难碰到一个好
: 的大的pedigree的
: 2.NGS技术本身我当然是很看好的了,肯定越来越精确成熟,而且越来越便宜。但到底
: 能有多便宜?什么时候可以很轻松的给每个人做全基因组测序?read length可以达到
: 长?(肯定是越长越好)计算机的硬件能跟上NGS数据发展的趋势吗?
: 3.生物信息分析。我只能说现在的bioinformatic pipeline,除了read alignment和
: SNP calling变的非常成熟(不仅sensitivity/specificity很高,而且可以做

avatar
l*1
7
俺嚼得可能 中东的 阿布扎比 迪拜 或多哈 会是 NGS 的一个新的研究三角区
熟语云 有膀子(GBP) 能使鬼推磨 哈
web link:
HTTP : //www.qcri.com/our-research/scientific-computing
HTTP : //systems-biology.org/jobs/2012/000921.html
HTTP : //en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)_per_capita
avatar
t*a
8
做不到应用,不能让普通人从中受益,个人看来就没用;
当然,从历史的角度来看,未来的科学家可能说这是了不起的工作,就好像牛顿定律发
现以前数个世纪的科学家在改进望远镜收集无数的星星的运动轨迹数据一样。
在重大发现之前,有数据这个大坑是必须的。问题是谁愿意把自己的人生拿去填大坑,
谁有信心说再填个几年就有重大突破?
我没看到短期内成功的希望。

【在 y***y 的大作中提到】
: 版上有NGS内行吗?
: 我是外行,只能看看热闹,感觉现在挺红火的。有没有内行来具体说说?

avatar
t*a
9
生物信息这块,再好的方法都不能根本性解决数据质量差的问题。garbage in garbage
out。NGS的实验结果不稳定,重复性差,错误率高,又没有足够的重复,那么结果必
然是
1. 降低coverage增加precision,给出一小组可信的call
2. 提高coverage,那么结果可信度必然差
在有限的资金和技术水平,要想改进,得针对具体问题改进实验设计-我想。
--------------------
目前NGS的数据产生速度正在不断提高。当其成本降低到一定程度,数据产生效率提高
到一定程度,实验样本也不愁的时候,计算这一块要解决的最主要的问题之一是并行化
。我不觉得传统生信实验室的cluster能够解决这个问题。未来的NGS生物信息应该是在
云,比如aws之类的地方做,可以几乎无限的扩展计算能力。
光靠政府的funding还是很难做大规模的NGS的事情的。如果NGS能够做到应用,分析的
结果对每个人都有价值,那么前途会一片光明。

【在 u*********1 的大作中提到】
: 我觉得要考虑几个方面:
: 1.如何定义“遗传因素比较大”? 想确定到底是familial还是sporadic,肯定要收集
: 足够的sample吧。。有时候对于有的疾病sample都很难收集。这不仅是人力,精力,
: funding的问题,有的疾病病人死的很快,或者sample本身很少,总是很难碰到一个好
: 的大的pedigree的
: 2.NGS技术本身我当然是很看好的了,肯定越来越精确成熟,而且越来越便宜。但到底
: 能有多便宜?什么时候可以很轻松的给每个人做全基因组测序?read length可以达到
: 长?(肯定是越长越好)计算机的硬件能跟上NGS数据发展的趋势吗?
: 3.生物信息分析。我只能说现在的bioinformatic pipeline,除了read alignment和
: SNP calling变的非常成熟(不仅sensitivity/specificity很高,而且可以做

avatar
j*x
10
能展开说说“不稳定,重复性差,错误率高”,这是从哪里或者根据什么论据得出的结
论呢?
另外,你对coverage的理解好像和这个词在NGS里的意义恰好相反

garbage

【在 t****a 的大作中提到】
: 生物信息这块,再好的方法都不能根本性解决数据质量差的问题。garbage in garbage
: out。NGS的实验结果不稳定,重复性差,错误率高,又没有足够的重复,那么结果必
: 然是
: 1. 降低coverage增加precision,给出一小组可信的call
: 2. 提高coverage,那么结果可信度必然差
: 在有限的资金和技术水平,要想改进,得针对具体问题改进实验设计-我想。
: --------------------
: 目前NGS的数据产生速度正在不断提高。当其成本降低到一定程度,数据产生效率提高
: 到一定程度,实验样本也不愁的时候,计算这一块要解决的最主要的问题之一是并行化
: 。我不觉得传统生信实验室的cluster能够解决这个问题。未来的NGS生物信息应该是在

avatar
t*a
11
首先要申明所谓“不稳定,重复性差,错误率高”是相对更加成熟的技术而言的。我相
信任何技术在不够成熟前都会有这个问题。
我是做microarray和NGS下游生物信息的,这个结论一部分根据是我看到和分析的数据
;另一部分根据我所知道的有限的实验知识:至少2-3年前NGS实验中还存在大量的人工
干预,不同实验员做出来的结果可能相差很远,从这个角度上说我不能说它稳定。
相对而言,下游的生物信息计算要可靠的多,计算的逻辑非常清楚,重复起来很容易。
我的帖子有点吐糟的意思:”你们这帮鸟人拿给我们的数据本身都不靠谱,应该自我检
讨,而不是指责我们分析人员,数据本身不好或者实验设计不靠谱,神仙都救不了。“
那个coverage指的是一个general的stat概念。比方claim发现了多少mutation。在现有
的情况下,claim越多假阳性越高precision就越差。

【在 j****x 的大作中提到】
: 能展开说说“不稳定,重复性差,错误率高”,这是从哪里或者根据什么论据得出的结
: 论呢?
: 另外,你对coverage的理解好像和这个词在NGS里的意义恰好相反
:
: garbage

avatar
a*n
12
我也觉着重复性很差
很多以前做实验不会考虑到的因素最后都有可能严重影响整个表达谱

【在 t****a 的大作中提到】
: 首先要申明所谓“不稳定,重复性差,错误率高”是相对更加成熟的技术而言的。我相
: 信任何技术在不够成熟前都会有这个问题。
: 我是做microarray和NGS下游生物信息的,这个结论一部分根据是我看到和分析的数据
: ;另一部分根据我所知道的有限的实验知识:至少2-3年前NGS实验中还存在大量的人工
: 干预,不同实验员做出来的结果可能相差很远,从这个角度上说我不能说它稳定。
: 相对而言,下游的生物信息计算要可靠的多,计算的逻辑非常清楚,重复起来很容易。
: 我的帖子有点吐糟的意思:”你们这帮鸟人拿给我们的数据本身都不靠谱,应该自我检
: 讨,而不是指责我们分析人员,数据本身不好或者实验设计不靠谱,神仙都救不了。“
: 那个coverage指的是一个general的stat概念。比方claim发现了多少mutation。在现有
: 的情况下,claim越多假阳性越高precision就越差。

avatar
G*y
13
同学说的很好啊

【在 u*********1 的大作中提到】
: 我觉得要考虑几个方面:
: 1.如何定义“遗传因素比较大”? 想确定到底是familial还是sporadic,肯定要收集
: 足够的sample吧。。有时候对于有的疾病sample都很难收集。这不仅是人力,精力,
: funding的问题,有的疾病病人死的很快,或者sample本身很少,总是很难碰到一个好
: 的大的pedigree的
: 2.NGS技术本身我当然是很看好的了,肯定越来越精确成熟,而且越来越便宜。但到底
: 能有多便宜?什么时候可以很轻松的给每个人做全基因组测序?read length可以达到
: 长?(肯定是越长越好)计算机的硬件能跟上NGS数据发展的趋势吗?
: 3.生物信息分析。我只能说现在的bioinformatic pipeline,除了read alignment和
: SNP calling变的非常成熟(不仅sensitivity/specificity很高,而且可以做

avatar
a*g
14
你所谓的“不稳定,重复性差,错误率高”实际上是实验人员技术不好造成的。其实一
旦一个assay setup以后,稳定性重复性比其它的经典技术好。你诗作下游的,没有做
个整个assay,另外你也没有横向比较过其它的技术,你的抱怨也就很正常了

【在 t****a 的大作中提到】
: 首先要申明所谓“不稳定,重复性差,错误率高”是相对更加成熟的技术而言的。我相
: 信任何技术在不够成熟前都会有这个问题。
: 我是做microarray和NGS下游生物信息的,这个结论一部分根据是我看到和分析的数据
: ;另一部分根据我所知道的有限的实验知识:至少2-3年前NGS实验中还存在大量的人工
: 干预,不同实验员做出来的结果可能相差很远,从这个角度上说我不能说它稳定。
: 相对而言,下游的生物信息计算要可靠的多,计算的逻辑非常清楚,重复起来很容易。
: 我的帖子有点吐糟的意思:”你们这帮鸟人拿给我们的数据本身都不靠谱,应该自我检
: 讨,而不是指责我们分析人员,数据本身不好或者实验设计不靠谱,神仙都救不了。“
: 那个coverage指的是一个general的stat概念。比方claim发现了多少mutation。在现有
: 的情况下,claim越多假阳性越高precision就越差。

avatar
t*a
15
呵呵,我见到的好实验员不普遍... 如果NGS设计的哪天可以不再高度依赖于实验人员
的水平,象计算机程序一样照着protocol就reproducible出可重复的结果,我们就放心
了。
而且这也是做到可以大规模应用的基本条件之一。

【在 a******g 的大作中提到】
: 你所谓的“不稳定,重复性差,错误率高”实际上是实验人员技术不好造成的。其实一
: 旦一个assay setup以后,稳定性重复性比其它的经典技术好。你诗作下游的,没有做
: 个整个assay,另外你也没有横向比较过其它的技术,你的抱怨也就很正常了

avatar
n*7
16

garbage
我跟你的感觉正好相反
我觉得NGS是目前为止,生物高通量技术里面结果最稳定,重复性最好的了
而且在飞速进化,预见的未来应用会越来越多
我准备下半辈子就搞这个了

【在 t****a 的大作中提到】
: 生物信息这块,再好的方法都不能根本性解决数据质量差的问题。garbage in garbage
: out。NGS的实验结果不稳定,重复性差,错误率高,又没有足够的重复,那么结果必
: 然是
: 1. 降低coverage增加precision,给出一小组可信的call
: 2. 提高coverage,那么结果可信度必然差
: 在有限的资金和技术水平,要想改进,得针对具体问题改进实验设计-我想。
: --------------------
: 目前NGS的数据产生速度正在不断提高。当其成本降低到一定程度,数据产生效率提高
: 到一定程度,实验样本也不愁的时候,计算这一块要解决的最主要的问题之一是并行化
: 。我不觉得传统生信实验室的cluster能够解决这个问题。未来的NGS生物信息应该是在

avatar
n*7
17
他说的coverage大致是throughput的意思
我刚做NGS分析的时候也是用coverage来表达,搞得别人很困惑

【在 j****x 的大作中提到】
: 能展开说说“不稳定,重复性差,错误率高”,这是从哪里或者根据什么论据得出的结
: 论呢?
: 另外,你对coverage的理解好像和这个词在NGS里的意义恰好相反
:
: garbage

avatar
n*7
18
你要做做interactome什么的,那会吐血的,都是什么狗屎质量

【在 t****a 的大作中提到】
: 首先要申明所谓“不稳定,重复性差,错误率高”是相对更加成熟的技术而言的。我相
: 信任何技术在不够成熟前都会有这个问题。
: 我是做microarray和NGS下游生物信息的,这个结论一部分根据是我看到和分析的数据
: ;另一部分根据我所知道的有限的实验知识:至少2-3年前NGS实验中还存在大量的人工
: 干预,不同实验员做出来的结果可能相差很远,从这个角度上说我不能说它稳定。
: 相对而言,下游的生物信息计算要可靠的多,计算的逻辑非常清楚,重复起来很容易。
: 我的帖子有点吐糟的意思:”你们这帮鸟人拿给我们的数据本身都不靠谱,应该自我检
: 讨,而不是指责我们分析人员,数据本身不好或者实验设计不靠谱,神仙都救不了。“
: 那个coverage指的是一个general的stat概念。比方claim发现了多少mutation。在现有
: 的情况下,claim越多假阳性越高precision就越差。

avatar
n*7
19
我觉得你说到点上了,应该M起来
“4.对基因组,genome biology本身的认识。其实纵然是whole-genome sequencing,我
看大部分的paper也就是先找找coding region/splicing的SNP/indel;或者说大家还是
gene-centric的。现在我们对基因组的认识还很不完善,且不说loci interaction,就
连最基本的每个loci是什么作用都不清楚。很多基因的功能都不知道,而且gene本身的
概念也在被扩充,不断有新的gene被发现,以及各种新型的什么miRNA gene啊,
linkRNAgene被发现。还有很多regulatory region比如被ENCODE给annotate出来。除了
非常明显的罕见的large deletion/duplication,或者一些repeat expansion,我们的
精力还是停留在missense mutation上,因为这个最好解释。而splicing site,或者
regulatory region有一个哪怕是罕见的A到T的突变,请问你能立刻给我解释下这个
rare SNP effect吗?
当然了我相信很多的罕见遗传病,还是更可能是missense mutation导致的,但其他的
complex disease,可能就是各种regulatory region以及gene共同导致的了,那么在搞
清楚各种调控区域各种noncoding region的功能之前,我们纵然找到了很多rare
mutation也束手无策。”
这个我感受太深了,目前比较靠谱的可以用来解释突变的output的生物学规则也就是遗
传密码表了。测了一大堆各种variants,最后还是focus在coding region的missense/
nonsense mutation了,别的都不好扯清楚,只能把结果list出来,给个统计数字完事
。密码表可是半个世纪前的发现啊。。。
我做过点分析,我们组的人也做过点简单实验,试图找出能解释其他一些variant
sites的规律。本来老板觉得这个规律应该很直观和保险的,结果就是得不到我们要的
结果。 我其实觉得,细胞作为一个复杂系统,很多规律可能很难用简单的文字表达出
来 -- 或者说不是我们从日常生活经验中总结出来的逻辑直觉可以理解的
”5.最复杂的还是disease genetics/biology本身。比如autism,schizophrenia,测序
了那么多,找到很多de novo mutation,若干可能的治病基因,ok,纵然我相信,但
what's next?你如何解释呢?。。。甚至包括一些典型的familial disease,其实未
必都是single gene导致的了;或者pedigree A是这个基因,pedigree B是另外一个基
因,只不过过去条件有限,we just pick up the easy part. 。。。。Disease is
more genetically heterozygous than we think....
当然了,NGS当然是powerful的工具,我非常看好。测的越多,我们能找到的rare
mutation就越多。比如我先在100个trio里做exome sequencing,找到一些candidate
loci,再去10000个sample里做target resequencing,争取找到更多的mutation,对疾
病有更多的了解。。。。同时当然也对基因组的功能,gene annotation有巨大作用。
。。所以我估计未来肯定就是测了N多序列,把各种疾病的突变尽量找到,发现很多疾
病原来是multiple gene导致的。但,what's next?“
我最近两年就是做的一个疾病。老是有exome sequencing的文章发表在top journal上
,我们还要做些target sequencing,但是我一直没有太大的兴趣,原因就是你说的,
然后干啥呢?我觉得做bioinfo的应该站在这个高度上考虑,而不是简单的处理raw
data,然后按照行业惯例做些分析,发个文章
avatar
u*1
20
恩,当然是如此。
我能想到的一个最简单的应用,就是遗传检测
每个人都拿到自己的genome图谱,对照一个强大的highly comprehensive的disease
SNP pool,看自己有没有可能的致病突变,就可以一定程度上预测疾病,至少是疾病的
genetics part
光是上面这一项,要知道这世界上有多少疾病啊。。。
Am I too naive?

【在 t****a 的大作中提到】
: 做不到应用,不能让普通人从中受益,个人看来就没用;
: 当然,从历史的角度来看,未来的科学家可能说这是了不起的工作,就好像牛顿定律发
: 现以前数个世纪的科学家在改进望远镜收集无数的星星的运动轨迹数据一样。
: 在重大发现之前,有数据这个大坑是必须的。问题是谁愿意把自己的人生拿去填大坑,
: 谁有信心说再填个几年就有重大突破?
: 我没看到短期内成功的希望。

avatar
m*2
21
不是牛顿,人生就没有意义了吗?
在这个添砖加瓦的年代,老老实实的砌好自己的那块砖,同时 get paid。足矣。

【在 t****a 的大作中提到】
: 做不到应用,不能让普通人从中受益,个人看来就没用;
: 当然,从历史的角度来看,未来的科学家可能说这是了不起的工作,就好像牛顿定律发
: 现以前数个世纪的科学家在改进望远镜收集无数的星星的运动轨迹数据一样。
: 在重大发现之前,有数据这个大坑是必须的。问题是谁愿意把自己的人生拿去填大坑,
: 谁有信心说再填个几年就有重大突破?
: 我没看到短期内成功的希望。

avatar
u*1
22
貌似你说的coverage是,比如你SNP calling一共找到了多少SNP
call出来的SNP越多,那么false positive的几率就越高
然后我们附加一个additional filtering,可能SNP总量就少很多,增加了可信度,但
同时may lose some power(sensitivity)
这个我很赞同。
但很多的project,我们要找的是rare SNP; 对于那些很真的rare SNP,不管你如何调
节这个“coverage”,those rare stuff are always at the top of the list.
另外我很赞同的是,未来computer硬件是个大问题。人类基因组太大,TB级别的
cluster已经不够用了,或者用起来很痛苦

garbage

【在 t****a 的大作中提到】
: 生物信息这块,再好的方法都不能根本性解决数据质量差的问题。garbage in garbage
: out。NGS的实验结果不稳定,重复性差,错误率高,又没有足够的重复,那么结果必
: 然是
: 1. 降低coverage增加precision,给出一小组可信的call
: 2. 提高coverage,那么结果可信度必然差
: 在有限的资金和技术水平,要想改进,得针对具体问题改进实验设计-我想。
: --------------------
: 目前NGS的数据产生速度正在不断提高。当其成本降低到一定程度,数据产生效率提高
: 到一定程度,实验样本也不愁的时候,计算这一块要解决的最主要的问题之一是并行化
: 。我不觉得传统生信实验室的cluster能够解决这个问题。未来的NGS生物信息应该是在

avatar
u*1
23
貌似你说的人工干预还是benchwork层面的。
可能比如ChIP-seq这样的,蛋白抗体pull下来的蛋白上结合的核酸target,很可能会根
据整个实验操作的改变改变。(我没做过,瞎想的)
但我觉得对于sequencing这一步,我觉得还是很高重复性的,唯一的变量是coverage
而后期的computational分析,变量是你使用的什么软件;如果软件五花八门,自然结
果不会统一。但一方面,大家在不断的improve软件,慢慢达成统一。另外,对于
disease genetics,如果导致疾病的真是一个true rare variant,我相信不同的计算
方法肯定都会找到的。
我选择NGS最重要的原因是,这是生物学里几乎是最“数学化”最standard的东西了,A
就是A,G就是G,你看到100个read里某个为点都是A变成G,那就一定是A变成G,而不像
其他的蛋白水平很多很难定量。这样自己得到的data是真实的,而不用担心结果是
artifact。如果做出来的东西都是模棱两可或者虚假的,我会很崩溃很心虚,晚上睡觉
都怕鬼敲门的。

【在 t****a 的大作中提到】
: 首先要申明所谓“不稳定,重复性差,错误率高”是相对更加成熟的技术而言的。我相
: 信任何技术在不够成熟前都会有这个问题。
: 我是做microarray和NGS下游生物信息的,这个结论一部分根据是我看到和分析的数据
: ;另一部分根据我所知道的有限的实验知识:至少2-3年前NGS实验中还存在大量的人工
: 干预,不同实验员做出来的结果可能相差很远,从这个角度上说我不能说它稳定。
: 相对而言,下游的生物信息计算要可靠的多,计算的逻辑非常清楚,重复起来很容易。
: 我的帖子有点吐糟的意思:”你们这帮鸟人拿给我们的数据本身都不靠谱,应该自我检
: 讨,而不是指责我们分析人员,数据本身不好或者实验设计不靠谱,神仙都救不了。“
: 那个coverage指的是一个general的stat概念。比方claim发现了多少mutation。在现有
: 的情况下,claim越多假阳性越高precision就越差。

avatar
u*1
24
Again,至少whole-genome sequencing,我觉得制作library的过程对后续影响不大,
因为全是DNA level的操作,没那么复杂

【在 t****a 的大作中提到】
: 呵呵,我见到的好实验员不普遍... 如果NGS设计的哪天可以不再高度依赖于实验人员
: 的水平,象计算机程序一样照着protocol就reproducible出可重复的结果,我们就放心
: 了。
: 而且这也是做到可以大规模应用的基本条件之一。

avatar
u*1
25
我觉得NGS是目前为止,生物高通量技术里面结果最稳定,重复性最好的了
GREAT MINDS THINK ALIKE.
avatar
u*1
26
Then what's coverage?
coverage就是throughput/read depth的意思吧。。比如测序X30。。。

【在 n******7 的大作中提到】
: 他说的coverage大致是throughput的意思
: 我刚做NGS分析的时候也是用coverage来表达,搞得别人很困惑

avatar
u*1
27
但是从另外一个方面来说,
比如我们拿到一个disease pedigree,虽然NGS测序测出一堆variants搞不清楚干啥的
。。。但通过这个pedigree(linkage analysis)加上NGS,我们确定了某一个基因A,
然后发现其他病人(不管familial还是sporadic)里都有这个基因缺陷,那我还是很相
信,这个基因A在这个疾病里有重要作用的。
那么未来给所有人做基因检测,如果发现某某的基因A也有这个相同相似的缺陷,我们
就说:可能这个某某is more likely to develop disease
但其实,哪怕是疾病遗传学的层面,或许这个疾病是基因A和基因B,C,D一起协同导致
的,只不过我们过去just take the easy part.。。。。更不要说,还有epigenetics
,chromosome structure,environment的各种因素。。。我们无法给一个conclusive
的结论,只能给一个风险预测。。而随着研究的深入,这个风险预测就越来越可靠。
我们不需要知道the whole picture,或者我们永远无法知道,我们只能依照自己的能
力不断的eat piece by piece。
有点废话了,我的意思是,虽然很多variants我们不知道怎么回事,但我们总是在不断
进步的,总是可以慢慢找到有用的东西

,我

【在 n******7 的大作中提到】
: 我觉得你说到点上了,应该M起来
: “4.对基因组,genome biology本身的认识。其实纵然是whole-genome sequencing,我
: 看大部分的paper也就是先找找coding region/splicing的SNP/indel;或者说大家还是
: gene-centric的。现在我们对基因组的认识还很不完善,且不说loci interaction,就
: 连最基本的每个loci是什么作用都不清楚。很多基因的功能都不知道,而且gene本身的
: 概念也在被扩充,不断有新的gene被发现,以及各种新型的什么miRNA gene啊,
: linkRNAgene被发现。还有很多regulatory region比如被ENCODE给annotate出来。除了
: 非常明显的罕见的large deletion/duplication,或者一些repeat expansion,我们的
: 精力还是停留在missense mutation上,因为这个最好解释。而splicing site,或者
: regulatory region有一个哪怕是罕见的A到T的突变,请问你能立刻给我解释下这个

avatar
t*a
28
谢谢你的指教。很可能问题出在sequencing之前的某个样品准备过程。
另外一个困惑我很久的问题,就是这些高通量手段诸如microarray, sequencing,蛋白
质普之类的手段到底在生物研究中处于一个什么样地位的问题。
我做PhD的那些年,计算领域出现各种在这些数据上进行非常fancy的建模,推理的算法
,能够得到一些很高层次诸如regulator network的结果(比如eran segal的一堆论文)
读了一些哲学相关的书以后,我对这些东西逐渐从相信变得怀疑,最终变得否定。因为
他们混淆了相关和因果。
既然这些高通量方法并不能帮助进行深层次的推理,它是否就仅仅实现了高通量筛选的
过程?做为计算科学家在这个领域是否最大的用处就仅仅是开发些类blast tool,做点
R/python package,搞点database,做点网站?
希望有朋友来回答。

,A

【在 u*********1 的大作中提到】
: 貌似你说的人工干预还是benchwork层面的。
: 可能比如ChIP-seq这样的,蛋白抗体pull下来的蛋白上结合的核酸target,很可能会根
: 据整个实验操作的改变改变。(我没做过,瞎想的)
: 但我觉得对于sequencing这一步,我觉得还是很高重复性的,唯一的变量是coverage
: 而后期的computational分析,变量是你使用的什么软件;如果软件五花八门,自然结
: 果不会统一。但一方面,大家在不断的improve软件,慢慢达成统一。另外,对于
: disease genetics,如果导致疾病的真是一个true rare variant,我相信不同的计算
: 方法肯定都会找到的。
: 我选择NGS最重要的原因是,这是生物学里几乎是最“数学化”最standard的东西了,A
: 就是A,G就是G,你看到100个read里某个为点都是A变成G,那就一定是A变成G,而不像

avatar
t*a
29
谢谢你的指点,每个人都不该期望过高,那只会挫伤自己的信心。

【在 m**********2 的大作中提到】
: 不是牛顿,人生就没有意义了吗?
: 在这个添砖加瓦的年代,老老实实的砌好自己的那块砖,同时 get paid。足矣。

avatar
m*2
30
反过来想想,如果我们连相关性都不掌握,何谈因果?
一是we always do what we CAN, not what we want
二是,请默念三遍: 我们还是原始人,我们还是原始人,我们还是原始人.
You are an idealist, and want to dream big. That's good for a young person.

文)

【在 t****a 的大作中提到】
: 谢谢你的指教。很可能问题出在sequencing之前的某个样品准备过程。
: 另外一个困惑我很久的问题,就是这些高通量手段诸如microarray, sequencing,蛋白
: 质普之类的手段到底在生物研究中处于一个什么样地位的问题。
: 我做PhD的那些年,计算领域出现各种在这些数据上进行非常fancy的建模,推理的算法
: ,能够得到一些很高层次诸如regulator network的结果(比如eran segal的一堆论文)
: 读了一些哲学相关的书以后,我对这些东西逐渐从相信变得怀疑,最终变得否定。因为
: 他们混淆了相关和因果。
: 既然这些高通量方法并不能帮助进行深层次的推理,它是否就仅仅实现了高通量筛选的
: 过程?做为计算科学家在这个领域是否最大的用处就仅仅是开发些类blast tool,做点
: R/python package,搞点database,做点网站?

avatar
n*7
31
我理解你的想法
就是我们只要知其然,不用知其所以然,照样可以预测疾病风险。就我所知,现在有个
已经在使用的软件基本就是这样,依靠背后巨大的病人数据库。现在的de novo CNV数
据也基本有很高的预测效果了,谁要不幸有了,基本也是个病人。
问题在于:
1. 何时我们可以穷尽所有,或者大部分的致病variants? 特别是复杂疾病,gene之间
的协同会很复杂,我觉得只关注一个variant site的话,会有很多site跟多种疾病关联
。而考虑site之间的combination的话,可能的情况太多太多。。疾病的定义本身,也
是个问题
2. 更重要的,理解疾病的机制还是最终的目的,才有可能去治疗或者缓解疾病。这点
太难了,不知道近几十年可以搞明白不,也许是我要求太多吧

epigenetics
conclusive

【在 u*********1 的大作中提到】
: 但是从另外一个方面来说,
: 比如我们拿到一个disease pedigree,虽然NGS测序测出一堆variants搞不清楚干啥的
: 。。。但通过这个pedigree(linkage analysis)加上NGS,我们确定了某一个基因A,
: 然后发现其他病人(不管familial还是sporadic)里都有这个基因缺陷,那我还是很相
: 信,这个基因A在这个疾病里有重要作用的。
: 那么未来给所有人做基因检测,如果发现某某的基因A也有这个相同相似的缺陷,我们
: 就说:可能这个某某is more likely to develop disease
: 但其实,哪怕是疾病遗传学的层面,或许这个疾病是基因A和基因B,C,D一起协同导致
: 的,只不过我们过去just take the easy part.。。。。更不要说,还有epigenetics
: ,chromosome structure,environment的各种因素。。。我们无法给一个conclusive

avatar
n*7
32
这就是personal genome的典型应用阿
还可以每天测transcriptome,metagenome,做健康监控
我一直想有机会做这样的东西,就是个人力量还太有限,需要机遇

【在 u*********1 的大作中提到】
: 恩,当然是如此。
: 我能想到的一个最简单的应用,就是遗传检测
: 每个人都拿到自己的genome图谱,对照一个强大的highly comprehensive的disease
: SNP pool,看自己有没有可能的致病突变,就可以一定程度上预测疾病,至少是疾病的
: genetics part
: 光是上面这一项,要知道这世界上有多少疾病啊。。。
: Am I too naive?

avatar
n*7
33
恩,coverage就是depth
他说的类似于 target sequencing里面的总的target region的大小

【在 u*********1 的大作中提到】
: Then what's coverage?
: coverage就是throughput/read depth的意思吧。。比如测序X30。。。

avatar
l*1
34
Here you go, by bottom to up way: 以下括号内是按地区规模的比喻
Bibliography:
1, Deep Sequence Analysis of Non-Small Cell Lung Cancer: Integrated
Analysis of Gene Expression, Alternative Splicing, and Single Nucleotide
Variations in Lung Adenocarcinomas with and without Oncogenic KRAS Mutations
. (2012) (Newport beach, CA)
by
Kalari KR et al. and Thompson EA.
Front Oncol. 2:12. doi: 10.3389/fonc.2012.00012. Epub 2012 Feb 10.
Abstracts:
Our study is the first to integrate genomic features from RNA-Seq data from
NSCLC and to define a first draft genomic landscape model that is unique to
tumors with oncogenic KRAS mutations.
http://www.ncbi.nlm.nih.gov/pubmed/22655260
2,
Cancer Prev Res (Phila). (2011) 4:803-17. (Orange country, CA)
http://www.ncbi.nlm.nih.gov/pubmed/21636547
3,
Curr Pharm Biotechnol. (2011) 12: 293-305. (加州)
http://www.ncbi.nlm.nih.gov/pubmed/21050163
4,
Nat Rev Genet. (2010) 11: 476-86. (美国)
http://www.ncbi.nlm.nih.gov/pubmed/20531367
5,
Philos Transact A Math Phys Eng Sci. (2010) 368: 2595-614.
http://www.ncbi.nlm.nih.gov/pubmed/20439264
http://www.cardioscience.ox.ac.uk/bhf-centre-of-research-excell
6, EC FP7 VPH project: NGS combined with Math/Systems/Synthetic Biology,
(世界)
http://www.vph-noe.eu/vph-repository/doc_download/209-vph-noe-v
original hint was from
同主题阅读:Math/Systems/Synthetic Biology 人物榜
[版面:生物学][首篇作者:zesta] , 2007年01月27日
HTTP: //www.mitbbs.com/article_t/Biology/15852903.html

另外一个困惑我很久的问题,就是这些高通量手段诸如microarray, sequencing,蛋白
质普之类的手段到底在生物研究中处于一个什么样地位的问题。
我做PhD的那些年,计算领域出现各种在这些数据上进行非常fancy的建模,推理的算法
,能够得到一些很高层次诸如regulator network的结果(比如eran segal的一堆论文)
读了一些哲学相关的书以后,我对这些东西逐渐从相信变得怀疑,最终变得否定。因为
他们混淆了相关和因果。
既然这些高通量方法并不能帮助进行深层次的推理,它是否就仅仅实现了高通量筛选的
过程?做为计算科学家在这个领域是否最大的用处就仅仅是开发些类blast tool,做点
R/python package,搞点database,做点网站?
希望有朋友来回答

【在 t****a 的大作中提到】
: 谢谢你的指教。很可能问题出在sequencing之前的某个样品准备过程。
: 另外一个困惑我很久的问题,就是这些高通量手段诸如microarray, sequencing,蛋白
: 质普之类的手段到底在生物研究中处于一个什么样地位的问题。
: 我做PhD的那些年,计算领域出现各种在这些数据上进行非常fancy的建模,推理的算法
: ,能够得到一些很高层次诸如regulator network的结果(比如eran segal的一堆论文)
: 读了一些哲学相关的书以后,我对这些东西逐渐从相信变得怀疑,最终变得否定。因为
: 他们混淆了相关和因果。
: 既然这些高通量方法并不能帮助进行深层次的推理,它是否就仅仅实现了高通量筛选的
: 过程?做为计算科学家在这个领域是否最大的用处就仅仅是开发些类blast tool,做点
: R/python package,搞点database,做点网站?

avatar
d*n
35
rare SNPs 至少要有测续数据才能分析,不怕有false positive,就怕wet lab 的人根
本没办法弄出来。然后就在旁边指责bioinformatics,说,你看,我给你样品,你也搞
不出来吧。
rare SNP 要结合测续平台error 特点,mapping sofeware 特点。
SNPs 分布模型,是可以找出来的。
我们现在可以找到1 in 1,000. to 1 in 10,000.
1 in 1,1000 还可以,1 in 10k 就有点扯淡了。
如果一个 fungus , 5 Million 的genome, 就需要5million x 1000+ coverage.
这个就需要Genome Analyzer or GAII 整个flow cell的量。
理想情况下是要 HiSeq的来测许。

【在 u*********1 的大作中提到】
: 貌似你说的coverage是,比如你SNP calling一共找到了多少SNP
: call出来的SNP越多,那么false positive的几率就越高
: 然后我们附加一个additional filtering,可能SNP总量就少很多,增加了可信度,但
: 同时may lose some power(sensitivity)
: 这个我很赞同。
: 但很多的project,我们要找的是rare SNP; 对于那些很真的rare SNP,不管你如何调
: 节这个“coverage”,those rare stuff are always at the top of the list.
: 另外我很赞同的是,未来computer硬件是个大问题。人类基因组太大,TB级别的
: cluster已经不够用了,或者用起来很痛苦
:

avatar
t*a
36
呵呵,我对这个也很有热情,如果有机会我会测自己的全基因组来分析。

【在 n******7 的大作中提到】
: 这就是personal genome的典型应用阿
: 还可以每天测transcriptome,metagenome,做健康监控
: 我一直想有机会做这样的东西,就是个人力量还太有限,需要机遇

avatar
t*a
37
正在读,非常感谢

Mutations

【在 l**********1 的大作中提到】
: Here you go, by bottom to up way: 以下括号内是按地区规模的比喻
: Bibliography:
: 1, Deep Sequence Analysis of Non-Small Cell Lung Cancer: Integrated
: Analysis of Gene Expression, Alternative Splicing, and Single Nucleotide
: Variations in Lung Adenocarcinomas with and without Oncogenic KRAS Mutations
: . (2012) (Newport beach, CA)
: by
: Kalari KR et al. and Thompson EA.
: Front Oncol. 2:12. doi: 10.3389/fonc.2012.00012. Epub 2012 Feb 10.
: Abstracts:

avatar
m*n
38
这个是不是太乐观了啊
比如linkage analysis,我看到一个实验室对一个疾病进行家谱deep-seq
搞了好多的family
前面讲的很fancy,感觉跟你的乐观程度一样
linkage analysis,非常sharp的一个峰
几个找到的SNP或者说是mutation,是个很奇怪的点
跟基因和ncRNA多搭不上
一个大牛就问了,你愿不愿做knockin mouse看看有没有表型。。。
问题是下游根本没法做功能性实验,先验证多没法子
请教这个问题在哪里呢?

epigenetics
conclusive

【在 u*********1 的大作中提到】
: 但是从另外一个方面来说,
: 比如我们拿到一个disease pedigree,虽然NGS测序测出一堆variants搞不清楚干啥的
: 。。。但通过这个pedigree(linkage analysis)加上NGS,我们确定了某一个基因A,
: 然后发现其他病人(不管familial还是sporadic)里都有这个基因缺陷,那我还是很相
: 信,这个基因A在这个疾病里有重要作用的。
: 那么未来给所有人做基因检测,如果发现某某的基因A也有这个相同相似的缺陷,我们
: 就说:可能这个某某is more likely to develop disease
: 但其实,哪怕是疾病遗传学的层面,或许这个疾病是基因A和基因B,C,D一起协同导致
: 的,只不过我们过去just take the easy part.。。。。更不要说,还有epigenetics
: ,chromosome structure,environment的各种因素。。。我们无法给一个conclusive

avatar
l*1
39
不客气
plus
one 2011 Book "Stochastic Chemical Kinetics"
by Peter Schuster
web link:
HTTP : //www.tbi.univie.ac.at/~pks/Preprints/stochast.pdf

【在 t****a 的大作中提到】
: 正在读,非常感谢
:
: Mutations

avatar
s*s
40
其实你去看看encode的文章,做DNase supersensitivity的。
他们好像做上百X,基本上coverage多的,很多locus都能看出
是有未知蛋白bind的,只是不知道是什么。据说,大多数GWAS
出来的SNP都和这个有关

【在 m*******n 的大作中提到】
: 这个是不是太乐观了啊
: 比如linkage analysis,我看到一个实验室对一个疾病进行家谱deep-seq
: 搞了好多的family
: 前面讲的很fancy,感觉跟你的乐观程度一样
: linkage analysis,非常sharp的一个峰
: 几个找到的SNP或者说是mutation,是个很奇怪的点
: 跟基因和ncRNA多搭不上
: 一个大牛就问了,你愿不愿做knockin mouse看看有没有表型。。。
: 问题是下游根本没法做功能性实验,先验证多没法子
: 请教这个问题在哪里呢?

avatar
n*k
41
每次在这看你香菱嫂时,我都特想对你说,啥时候你能从了我做个二奶,我给你搞个小
家你好好经营一下,吼吼吼,俺是真心爱慕你的说:))

【在 n******7 的大作中提到】
: 我理解你的想法
: 就是我们只要知其然,不用知其所以然,照样可以预测疾病风险。就我所知,现在有个
: 已经在使用的软件基本就是这样,依靠背后巨大的病人数据库。现在的de novo CNV数
: 据也基本有很高的预测效果了,谁要不幸有了,基本也是个病人。
: 问题在于:
: 1. 何时我们可以穷尽所有,或者大部分的致病variants? 特别是复杂疾病,gene之间
: 的协同会很复杂,我觉得只关注一个variant site的话,会有很多site跟多种疾病关联
: 。而考虑site之间的combination的话,可能的情况太多太多。。疾病的定义本身,也
: 是个问题
: 2. 更重要的,理解疾病的机制还是最终的目的,才有可能去治疗或者缓解疾病。这点

avatar
i*g
42
测是肯定可以测的,技术巨大进步
不过,我依旧认为对改善就业没有帮助
现在已经有不少疾病锁定了基因,但治疗呢? 你知道某transcripts少了1个exon,导
致疾病了,可你怎么治疗这个疾病呢?
从生物基础角度看,医学临床是我们的工程,
如果不能用上临床,就赚不到钱,
赚不到钱,千老还是千老
唉,不容易啊
avatar
l*u
43
NGS为先锋的omics提供的是可挖掘性的知识,而不是一个完全下结论的下定义的知识,
这点是很多做function的人没有意识到的。当做function的人过多的垢病omics的研究
的时候,其实应该更多的反思。
avatar
b*r
44
产前诊断啊,早期干预啊,每克隆一个疾病基因平均就能在几十年里大大提高平均几百
个家庭的生活质量,更不要说对人类知识库的贡献,这难道还不够吗

【在 i*****g 的大作中提到】
: 测是肯定可以测的,技术巨大进步
: 不过,我依旧认为对改善就业没有帮助
: 现在已经有不少疾病锁定了基因,但治疗呢? 你知道某transcripts少了1个exon,导
: 致疾病了,可你怎么治疗这个疾病呢?
: 从生物基础角度看,医学临床是我们的工程,
: 如果不能用上临床,就赚不到钱,
: 赚不到钱,千老还是千老
: 唉,不容易啊

avatar
s*l
45
就是啊,这还不够啊,我正准备回,往下看到你的回帖了。

【在 b****r 的大作中提到】
: 产前诊断啊,早期干预啊,每克隆一个疾病基因平均就能在几十年里大大提高平均几百
: 个家庭的生活质量,更不要说对人类知识库的贡献,这难道还不够吗

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。