下一代技术测序分析结果需要会什么软件技术？ - 未名空间MITBBS历史存档

下一代技术测序分析结果需要会什么软件技术？# Biology - 生物学

s*l2017-04-14 07:04

1 楼

现在很多00后甚至更小的孩子，可能很小就去了海外，对中国博大精深的美食还没有形
成依赖，对中国的美食，可能也就止于《舌尖上的中国》，仅是看过，未曾尝过，更别
说吃着长大了。所以可能很难理解70后、80后、哪怕很多90后，身在海外，对家乡饭的
深深思念。在这里再推荐近期国内的一款美食神番《人生一串》！
生活在北美、澳洲等国际大都市也还好吧，毕竟中国移民多，中餐馆多，虽然没有地道
的，你要想吃真正的家乡饭，说实话，还要自己做！而且很多偏门冷门的美食，比如说
，酱猪舌？想吃是吧！自己做是吧，原料都找得千辛万苦！
我现在还记得跑遍整个珀斯的华人生肉店寻找猪舌，而且还不是老有，要碰的！自己清
洗、料理完之后，自己爬网站寻攻略，自己酱制，意外的味道不错，于是，我带去给了
一个同乡尝尝，她已经家给了当地的白人，她吃了之后，夸我做得好，后来老公好奇，
问她是什么，她由于的说了，结果她犹豫了半天才说是猪舌，她老公当时就说：“你一
定要好好刷牙漱口之后才能吻我！”笑！也真难为他们俩了！

r*f2017-04-14 07:04

2 楼

我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
学什么软件呢？
听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

J*Y2017-04-14 07:04

3 楼

想吃扒猪脸什么根本不可能

M*P2017-04-14 07:04

4 楼

接触有什么用？公司已经做好了。

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

x*u2017-04-14 07:04

5 楼

如果是想省钱的话就不用想了。基本上是培养出来一个，走一个。如果是想提升对数据
分析结果的理解，可以从broad institute 的 "best practice" 看起。

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

f*n2017-04-14 07:04

6 楼

做一回雷锋
如果你想从raw fastq data到结果，大概两个步骤：
1. raw fastq--bwa--mutation/gene expression
主要是read mapping，把GB level的原始数据BWA mapping得到bam file，然后如果你
的目标是找variants那就用GATK这样的主流软件
1a. 对于你来说，这个步骤里你主要需要学会linux environment，bash，学会用HPCC
来submit job，学会tune BWA/GATK的参数，是很容易的。
1b. 同时你要学会面对big data，都是比如300 million行的数据，处理一个全基因组
需要1TB空间，这个是很可怕的。大数据的storage，transfer都要注意。
1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
你可以理解这一步就是从海量海量的数据里初步filter出你要的东西，但是粗糙的东西
，不是完整产品
2. gene expression---统计分析/美丽的图图
这个主要是RNA-seq，你tophat之类的得到一堆基因的expression pattern，这时候你
需要画heatmap吧？correlation map吧？就是看看哪些基因表达降低了之类的
2a. 这时候就到了你所说的python了，这里对编程的要求就比前面高了，你需要学基础
的python或者R来画图
2b. 但这时候你面对的数据量（也就是提取出来的feature）要小很多，比如就
5000X5000行这种，不像前面的三亿行
2c. 因为要自己coding，所以python的基础什么syntax，pandas还是要稍微理解一点
其实都不难，只要用心
但需要不少积累，给你一下子灌输这么多脑子会大，如果过去没有计算机数学基础
不过当你喜欢做这个之后，鬼才做实验呢，都转data analyst了

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

f*n2017-04-14 07:04

7 楼

基本上是培养出来一个，走一个
您是说培养出一个做计算的，就都跳槽转行去做data的了？
lol

【在 x***u 的大作中提到】

: 如果是想省钱的话就不用想了。基本上是培养出来一个，走一个。如果是想提升对数据
: 分析结果的理解，可以从broad institute 的 "best practice" 看起。

s*s2017-04-14 07:04

8 楼

如果是RNA的话，现在有很多很方便的软件可以用。
可以拿这些上手啊，有些连mapping步骤都不用了。
不过一般linux得比较熟练，会点bash／perl／python。
再傻瓜的也可以用用galaxy嘛

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

r*f2017-04-14 07:04

9 楼

太感激了，真不愧是大侠啊，多谢指点，我慢慢学起来。

HPCC

【在 f*****n 的大作中提到】

: 做一回雷锋
: 如果你想从raw fastq data到结果，大概两个步骤：
: 1. raw fastq--bwa--mutation/gene expression
: 主要是read mapping，把GB level的原始数据BWA mapping得到bam file，然后如果你
: 的目标是找variants那就用GATK这样的主流软件
: 1a. 对于你来说，这个步骤里你主要需要学会linux environment，bash，学会用HPCC
: 来submit job，学会tune BWA/GATK的参数，是很容易的。
: 1b. 同时你要学会面对big data，都是比如300 million行的数据，处理一个全基因组
: 需要1TB空间，这个是很可怕的。大数据的storage，transfer都要注意。
: 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care

r*f2017-04-14 07:04

10 楼

我去看看best practice，也多谢指点啊。

【在 x***u 的大作中提到】

: 如果是想省钱的话就不用想了。基本上是培养出来一个，走一个。如果是想提升对数据
: 分析结果的理解，可以从broad institute 的 "best practice" 看起。

a*r2017-04-14 07:04

11 楼

用galaxy 吧，
上手比较块

r*f2017-04-14 07:04

12 楼

谢谢啦，我加紧学！

【在 a******r 的大作中提到】

: 用galaxy 吧，
: 上手比较块

s*s2017-04-14 07:04

13 楼

全不懂的，还是从有UI的东西学起吧。比如Galaxy, DNA Nexus, 7-bridges,
Firecloud,
后面三个记得以前都有free credit，先跑几个练练手。

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

E*e2017-04-14 07:04

14 楼

既然都找公司了，分析的工作交给公司好了。作为客户，我觉得有两点，一是理解数据
格式，比如BAM、BED；二是学会用IGV，可以用来读取并可视化BAM、BED、TDF、
Bedgraph等多种数据，也可以加载一些公共数据（如ENCODE），这样你就可以结合公司
的报告对这些报告产生的数据基础有个直观的认识。

【在 r******f 的大作中提到】

: 我们现在测很多序列，但是都是准备好样品，送出去测，然后公司直接给报告，我们就
: 看报告。但是很想接触点测序结果的数据分析。路过的大侠给指点下做这个数据分析要
: 学什么软件呢？
: 听说要python，这个可以做测序结果的数据分析吗？但是貌似python并不是一种软件，
: 更像是一种语言，难道要自己编程？比较晕，求指点，多谢了。

s*y2017-04-14 07:04

15 楼

thank you

I*i2017-04-14 07:04

16 楼

从哪里可以下载一个sample raw data？我想学习一下这些软件

w*a2017-04-14 07:04

17 楼

感谢活雷锋。

HPCC

【在 f*****n 的大作中提到】

: 做一回雷锋
: 如果你想从raw fastq data到结果，大概两个步骤：
: 1. raw fastq--bwa--mutation/gene expression
: 主要是read mapping，把GB level的原始数据BWA mapping得到bam file，然后如果你
: 的目标是找variants那就用GATK这样的主流软件
: 1a. 对于你来说，这个步骤里你主要需要学会linux environment，bash，学会用HPCC
: 来submit job，学会tune BWA/GATK的参数，是很容易的。
: 1b. 同时你要学会面对big data，都是比如300 million行的数据，处理一个全基因组
: 需要1TB空间，这个是很可怕的。大数据的storage，transfer都要注意。
: 1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care