Redian新闻
>
问一下Next generation sequence analysis主要做点什么内容?
avatar
问一下Next generation sequence analysis主要做点什么内容?# Biology - 生物学
M*7
1
比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
以前做过一阵GENOMICS,不知道现在是什么趋势?
Thanks.
avatar
d*y
2
你找个太general了。好几种技术呢
avatar
e*s
4
I have the same questions for bioinformatics people.

存储用什么系统,是否开源,等等。

【在 M***7 的大作中提到】
: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
: 以前做过一阵GENOMICS,不知道现在是什么趋势?
: Thanks.

avatar
h*0
5

存储用什么系统,是否开源,等等。
如果说sequence analysis, 主要是用PERL,
data mining主要用JAVA
data mining 你指什么?结合功能数据?
现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
comparative -omics的研究
还有各种分析软件的开发
测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
分析方法要跟上,工具/软件开发肯定有好多活可以做

【在 M***7 的大作中提到】
: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
: 以前做过一阵GENOMICS,不知道现在是什么趋势?
: Thanks.

avatar
S*l
6
data mining 用java???

【在 h***0 的大作中提到】
:
: 存储用什么系统,是否开源,等等。
: 如果说sequence analysis, 主要是用PERL,
: data mining主要用JAVA
: data mining 你指什么?结合功能数据?
: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
: comparative -omics的研究
: 还有各种分析软件的开发
: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
: 分析方法要跟上,工具/软件开发肯定有好多活可以做

avatar
S*l
7
现在存储是个什么情况?

【在 h***0 的大作中提到】
:
: 存储用什么系统,是否开源,等等。
: 如果说sequence analysis, 主要是用PERL,
: data mining主要用JAVA
: data mining 你指什么?结合功能数据?
: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
: comparative -omics的研究
: 还有各种分析软件的开发
: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
: 分析方法要跟上,工具/软件开发肯定有好多活可以做

avatar
e*t
8
linux clusters with storage on level of TB.

【在 S**********l 的大作中提到】
: 现在存储是个什么情况?
avatar
S*l
9
那就是distributed的storage了?我们学校用的还是那种一个head node,file system
的。看来真得改改了。

【在 e*****t 的大作中提到】
: linux clusters with storage on level of TB.
avatar
d*e
10
我的理解:
测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
,在这种情况下script language更加方便易用。
所以现阶段做NGS analysis主要有这几个要求:
1 linux的基本操作
2 会至少一种script language,比如perl/python
3 会submit job to cluster,因为绝大多数情况下程序是在服务器而不是单机上运行
上面的介绍可以基本回答你的问题。到目前为止,所有常用的软件都是free的,我认为
如果你一定要开源也没有问题。
我以前没有做过genomics所以不知道趋势的问题。但是现在所有这些analysis都是和测
序的技术紧密相关的,有极大的时效性。目前的测序技术决定了有很多问题是难以解决
的,比如由于两次PCR带来的误差,coverage depth非常不均衡,mapping中repetitive
region的处理,insertion/deletion call的准确性等。如果第三代测序有了
breakthrough,那么所有分析的手段将又有根本的变化。

存储用什么系统,是否开源,等等。

【在 M***7 的大作中提到】
: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
: 以前做过一阵GENOMICS,不知道现在是什么趋势?
: Thanks.

avatar
n*t
11
一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS

system

【在 S**********l 的大作中提到】
: 那就是distributed的storage了?我们学校用的还是那种一个head node,file system
: 的。看来真得改改了。

avatar
h*0
12

cpu
manipulation
测序数据的误差也老雷人了
你总结的挺好

【在 d*******e 的大作中提到】
: 我的理解:
: 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
: 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
: 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
: 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
: 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
: SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
: 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
: ,在这种情况下script language更加方便易用。
: 所以现阶段做NGS analysis主要有这几个要求:

avatar
S*l
13
不是吧。。。。这个俺们买不起,准备手工搭一个了。。。

【在 n********t 的大作中提到】
: 一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS
:
: system

avatar
S*l
14
听报告都说误差很小?

【在 h***0 的大作中提到】
:
: cpu
: manipulation
: 测序数据的误差也老雷人了
: 你总结的挺好

avatar
m*i
15
精度比sanger sequencing 高不少。

【在 S**********l 的大作中提到】
: 听报告都说误差很小?
avatar
j*3
16
如果测出来的和传统手段相差较远,信谁的

【在 S**********l 的大作中提到】
: 听报告都说误差很小?
avatar
n*t
17
不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
果就是一个BAM200G+。。。

【在 S**********l 的大作中提到】
: 不是吧。。。。这个俺们买不起,准备手工搭一个了。。。
avatar
h*0
18

比以前物美价廉,但是误差还是有
而且拼接(assembly)还有很大提升空间
当然这也跟你测什么有关系
大基因组的还是没法做
重测序,一些功能的还可以吧

【在 S**********l 的大作中提到】
: 听报告都说误差很小?
avatar
S*l
19
存储是便宜的。关键不能备份。备份只能自己搭了

【在 n********t 的大作中提到】
: 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
: 果就是一个BAM200G+。。。

avatar
h*0
20

你覆盖率太低了,不能服众啊
花点钱吧,然后NG就跟你招手了

【在 n********t 的大作中提到】
: 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
: 果就是一个BAM200G+。。。

avatar
n*t
21
关键是IO速度,以前俺们用NFS的时候,经常把整个cluster搞得象蚂蚁爬,还会出一堆
stale file handler的问题,现在用SONAS之后情况干改善很多

【在 S**********l 的大作中提到】
: 存储是便宜的。关键不能备份。备份只能自己搭了
avatar
n*t
22
没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?

【在 h***0 的大作中提到】
:
: 你覆盖率太低了,不能服众啊
: 花点钱吧,然后NG就跟你招手了

avatar
h*0
23

编故事啊
生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
华大反正是这样的

【在 n********t 的大作中提到】
: 没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?
avatar
n*t
24
不是Li Ding这种级别的大概并列一作都很难

【在 h***0 的大作中提到】
:
: 编故事啊
: 生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
: 华大反正是这样的

avatar
h*0
25

哈哈,她是我偶像!
这种好几百人的文章,木有成就感啊
实际是因为排不上...哈哈

【在 n********t 的大作中提到】
: 不是Li Ding这种级别的大概并列一作都很难
avatar
n*t
26
对了,听说华大算体制外,是不?

【在 h***0 的大作中提到】
:
: 哈哈,她是我偶像!
: 这种好几百人的文章,木有成就感啊
: 实际是因为排不上...哈哈

avatar
m*i
27
是的。
它是个民办企业。

【在 n********t 的大作中提到】
: 对了,听说华大算体制外,是不?
avatar
h*0
28

是的,我觉得其实还挺好
做了一些实事,比许多科研机构强

【在 m*****i 的大作中提到】
: 是的。
: 它是个民办企业。

avatar
M*7
29
这个,俺多年前在华大做过。

【在 m*****i 的大作中提到】
: 是的。
: 它是个民办企业。

avatar
n*7
30
什么叫精度?Phred score?
用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍

【在 m*****i 的大作中提到】
: 精度比sanger sequencing 高不少。
avatar
c*d
31
可以submit到genbank,,没有问题。。

【在 n******7 的大作中提到】
: 什么叫精度?Phred score?
: 用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍

avatar
a*r
32
说得很好啊
最近打算了解一下处理NGS数据的工具,搜了一下找到了一堆。哪位大侠能建议一些最
常用/效果不错的工具或者软件吗?谢谢!

cpu
manipulation

【在 d*******e 的大作中提到】
: 我的理解:
: 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
: 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
: 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
: 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
: 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
: SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
: 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
: ,在这种情况下script language更加方便易用。
: 所以现阶段做NGS analysis主要有这几个要求:

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。