问一下Next generation sequence analysis主要做点什么内容?# Biology - 生物学M*72011-08-23 07:081 楼比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。以前做过一阵GENOMICS,不知道现在是什么趋势?Thanks.
e*s2011-08-23 07:084 楼I have the same questions for bioinformatics people.存储用什么系统,是否开源,等等。【在 M***7 的大作中提到】: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。: 以前做过一阵GENOMICS,不知道现在是什么趋势?: Thanks.
h*02011-08-23 07:085 楼存储用什么系统,是否开源,等等。如果说sequence analysis, 主要是用PERL,data mining主要用JAVAdata mining 你指什么?结合功能数据?现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种comparative -omics的研究还有各种分析软件的开发测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了分析方法要跟上,工具/软件开发肯定有好多活可以做【在 M***7 的大作中提到】: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。: 以前做过一阵GENOMICS,不知道现在是什么趋势?: Thanks.
S*l2011-08-23 07:086 楼data mining 用java???【在 h***0 的大作中提到】: : 存储用什么系统,是否开源,等等。: 如果说sequence analysis, 主要是用PERL,: data mining主要用JAVA: data mining 你指什么?结合功能数据?: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种: comparative -omics的研究: 还有各种分析软件的开发: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了: 分析方法要跟上,工具/软件开发肯定有好多活可以做
S*l2011-08-23 07:087 楼现在存储是个什么情况?【在 h***0 的大作中提到】: : 存储用什么系统,是否开源,等等。: 如果说sequence analysis, 主要是用PERL,: data mining主要用JAVA: data mining 你指什么?结合功能数据?: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种: comparative -omics的研究: 还有各种分析软件的开发: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了: 分析方法要跟上,工具/软件开发肯定有好多活可以做
e*t2011-08-23 07:088 楼linux clusters with storage on level of TB.【在 S**********l 的大作中提到】: 现在存储是个什么情况?
S*l2011-08-23 07:089 楼那就是distributed的storage了?我们学校用的还是那种一个head node,file system的。看来真得改改了。【在 e*****t 的大作中提到】: linux clusters with storage on level of TB.
d*e2011-08-23 07:0810 楼我的理解:测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation,在这种情况下script language更加方便易用。所以现阶段做NGS analysis主要有这几个要求:1 linux的基本操作2 会至少一种script language,比如perl/python3 会submit job to cluster,因为绝大多数情况下程序是在服务器而不是单机上运行上面的介绍可以基本回答你的问题。到目前为止,所有常用的软件都是free的,我认为如果你一定要开源也没有问题。我以前没有做过genomics所以不知道趋势的问题。但是现在所有这些analysis都是和测序的技术紧密相关的,有极大的时效性。目前的测序技术决定了有很多问题是难以解决的,比如由于两次PCR带来的误差,coverage depth非常不均衡,mapping中repetitiveregion的处理,insertion/deletion call的准确性等。如果第三代测序有了breakthrough,那么所有分析的手段将又有根本的变化。存储用什么系统,是否开源,等等。【在 M***7 的大作中提到】: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。: 以前做过一阵GENOMICS,不知道现在是什么趋势?: Thanks.
n*t2011-08-23 07:0811 楼一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONASsystem【在 S**********l 的大作中提到】: 那就是distributed的storage了?我们学校用的还是那种一个head node,file system: 的。看来真得改改了。
h*02011-08-23 07:0812 楼cpumanipulation测序数据的误差也老雷人了你总结的挺好【在 d*******e 的大作中提到】: 我的理解:: 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。: 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段: 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算: 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu: 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找: SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文: 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation: ,在这种情况下script language更加方便易用。: 所以现阶段做NGS analysis主要有这几个要求:
S*l2011-08-23 07:0813 楼不是吧。。。。这个俺们买不起,准备手工搭一个了。。。【在 n********t 的大作中提到】: 一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS: : system
n*t2011-08-23 07:0817 楼不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结果就是一个BAM200G+。。。【在 S**********l 的大作中提到】: 不是吧。。。。这个俺们买不起,准备手工搭一个了。。。
h*02011-08-23 07:0818 楼比以前物美价廉,但是误差还是有而且拼接(assembly)还有很大提升空间当然这也跟你测什么有关系大基因组的还是没法做重测序,一些功能的还可以吧【在 S**********l 的大作中提到】: 听报告都说误差很小?
S*l2011-08-23 07:0819 楼存储是便宜的。关键不能备份。备份只能自己搭了【在 n********t 的大作中提到】: 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结: 果就是一个BAM200G+。。。
h*02011-08-23 07:0820 楼你覆盖率太低了,不能服众啊花点钱吧,然后NG就跟你招手了【在 n********t 的大作中提到】: 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结: 果就是一个BAM200G+。。。
n*t2011-08-23 07:0821 楼关键是IO速度,以前俺们用NFS的时候,经常把整个cluster搞得象蚂蚁爬,还会出一堆stale file handler的问题,现在用SONAS之后情况干改善很多【在 S**********l 的大作中提到】: 存储是便宜的。关键不能备份。备份只能自己搭了
n*t2011-08-23 07:0822 楼没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?【在 h***0 的大作中提到】: : 你覆盖率太低了,不能服众啊: 花点钱吧,然后NG就跟你招手了
h*02011-08-23 07:0823 楼编故事啊生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧华大反正是这样的【在 n********t 的大作中提到】: 没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?
n*t2011-08-23 07:0824 楼不是Li Ding这种级别的大概并列一作都很难【在 h***0 的大作中提到】: : 编故事啊: 生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧: 华大反正是这样的
h*02011-08-23 07:0825 楼哈哈,她是我偶像!这种好几百人的文章,木有成就感啊实际是因为排不上...哈哈【在 n********t 的大作中提到】: 不是Li Ding这种级别的大概并列一作都很难
n*72011-08-23 07:0830 楼什么叫精度?Phred score?用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍【在 m*****i 的大作中提到】: 精度比sanger sequencing 高不少。
c*d2011-08-23 07:0831 楼可以submit到genbank,,没有问题。。【在 n******7 的大作中提到】: 什么叫精度?Phred score?: 用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍
a*r2011-08-23 07:0832 楼说得很好啊最近打算了解一下处理NGS数据的工具,搜了一下找到了一堆。哪位大侠能建议一些最常用/效果不错的工具或者软件吗?谢谢!cpumanipulation【在 d*******e 的大作中提到】: 我的理解:: 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。: 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段: 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算: 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu: 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找: SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文: 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation: ,在这种情况下script language更加方便易用。: 所以现阶段做NGS analysis主要有这几个要求: