现在测序facility的主流计算还是CPU吗 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Biology - 生物学

现在测序facility的主流计算还是CPU吗

现在测序facility的主流计算还是CPU吗# Biology - 生物学

e*s2017-04-24 07:04

1 楼

我是吃米饭长大的，因此现在家里每天都吃米饭。一天没米饭，心里闷得慌。像面条和
面包这样的面食，我吃得再多也吃不饱。上大学的时候，看到有的北方同学啃几口面包
或者吃一碗面条，然后摸摸肚子，说自己吃饱了。我很佩服他们。我是没有这个本事的。
我喜欢吃米饭，所以对大米也特别挑剔。肉，我可以少吃一块。酒，我可以少喝一口。
衣服，我可以不穿。但是，大米我一定要买最好吃的。
刚到美国的时候，一位台湾朋友带我去当地的中国店买大米。我发现中国店的大米品种
还不少，有泰国大米、印度大米和美国大米。台湾朋友向我推荐黄国宝大米，说黄国宝
的味道不错，价格还比另一种国宝（红国宝）便宜。就这样，我就吃了几年的黄国宝。
有一次去中国店，发现黄国宝卖完了，只剩红国宝和其他品种的大米，我就买了一包红
国宝。回家一吃，发现用红国宝大米煮的米饭比黄国宝还要好吃！红国宝大米煮的米饭
和稀饭真是软、糯、粘、嫩、爽，还略带甜味，可真香啊！自从买了那一包红国宝之后
，我们一直都买红国宝。偶尔也会试一试其他品种的大米，心想说不定还有比红国宝更
好吃的大米呢！只是一直到现在，还没有发现比红国宝更好的大米。那些买回家的不是
红国宝的大米，也基本上用来喂后院的母鸡了。
美国的红国宝大米，是一个叫做国府田敬三郎（Keisaburo Koda）日裔美国人培育的。
国府田于1908年从日本移民美国，定居加州，然后开办了国府田农场（Koda Farms），
主要种植水稻。红国宝大米在20世纪50年代培育成功，1962年推向美国市场。国府田农
场已经传了三代了，现在的农场主是国府田敬三郎的孙子。
让红国宝大米披上一层神秘色彩的是关于它的传说。据称，只有国府田农场30英里半径
范围内种植的红国宝，才是真宗的红国宝，其他地方种植的红国宝就不正宗的了。这也
许只是商人的一种促销手段，也许真的有这么回事。也许只有加州国府田农场附近的土
壤、降水、光照、水质和其他环境条件下种出来的红国宝大米才是最好的大米。
不管什么原因，红国宝大米是我吃过的最好吃的大米，比中国国内的很多有名的大米（
如黑龙江五常大米、河南原阳大米、辽宁盘锦大米和天津小站大米），还要好吃。

w*32017-04-24 07:04

2 楼

还有，延期期间能不能不拿工资？

j*g2017-04-24 07:04

3 楼

有改到GPU平台吗？
主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
，GPU能快多少呢？

l*i2017-04-24 07:04

4 楼

我觉得都差不多。我吃的全是便宜大米。还有的带洉味。

的。

【在 e******s 的大作中提到】

: 我是吃米饭长大的，因此现在家里每天都吃米饭。一天没米饭，心里闷得慌。像面条和
: 面包这样的面食，我吃得再多也吃不饱。上大学的时候，看到有的北方同学啃几口面包
: 或者吃一碗面条，然后摸摸肚子，说自己吃饱了。我很佩服他们。我是没有这个本事的。
: 我喜欢吃米饭，所以对大米也特别挑剔。肉，我可以少吃一块。酒，我可以少喝一口。
: 衣服，我可以不穿。但是，大米我一定要买最好吃的。
: 刚到美国的时候，一位台湾朋友带我去当地的中国店买大米。我发现中国店的大米品种
: 还不少，有泰国大米、印度大米和美国大米。台湾朋友向我推荐黄国宝大米，说黄国宝
: 的味道不错，价格还比另一种国宝（红国宝）便宜。就这样，我就吃了几年的黄国宝。
: 有一次去中国店，发现黄国宝卖完了，只剩红国宝和其他品种的大米，我就买了一包红
: 国宝。回家一吃，发现用红国宝大米煮的米饭比黄国宝还要好吃！红国宝大米煮的米饭

m*p2017-04-24 07:04

5 楼

那就回国旅游3个月， 10月份再回来工作。羡慕啊。。。。

【在 w****3 的大作中提到】

: 还有，延期期间能不能不拿工资？

t*z2017-04-24 07:04

6 楼

在我接触到的工作中，依然是CPU。
主要原因我想，是很多工作依赖参考数据库，而且往往很大，显卡内存装不下这东西。
如果这个能够克服（例如使用Xeon Phi），大量序列的比对是很适合显卡的。

【在 j*********g 的大作中提到】

: 有改到GPU平台吗？
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ，GPU能快多少呢？

a*g2017-04-24 07:04

7 楼

鸡ｒｏｕ

条和
面包
口。
品种
国宝
宝。
包红
米饭

【在 l*****i 的大作中提到】

: 我觉得都差不多。我吃的全是便宜大米。还有的带洉味。
:
: 的。

s*s2017-04-24 07:04

8 楼

有啊，不过用的比较少。
不过现在有一些FPGA的，直接做成硬件来卖，国内好像也有做的，AWS也有FPGA的
flavor
了。
兼容性有CPU系统，专业性有FPA的傻瓜硬件系统，GPU可能需要的技术性太强了

【在 j*********g 的大作中提到】

: 有改到GPU平台吗？
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ，GPU能快多少呢？

C*X2017-04-24 07:04

9 楼

我现在喜欢吃面包。。。
我中午吃面条。。

K*n2017-04-24 07:04

10 楼

看有没有真的需求。内存和 IO在其它大数据训练问题里也是一样的，用一个CPU线程管
理 I/O，GPU猛算，在不少算法里还是可能的。

flavor

【在 s******s 的大作中提到】

: 有啊，不过用的比较少。
: 不过现在有一些FPGA的，直接做成硬件来卖，国内好像也有做的，AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统，专业性有FPA的傻瓜硬件系统，GPU可能需要的技术性太强了

a*e2017-04-24 07:04

11 楼

20%茉莉 80%国宝
加点机油.

K*n2017-04-24 07:04

12 楼

哦，要是 FPGA 成熟就不太用 GPU 了

flavor

【在 s******s 的大作中提到】

h*22017-04-24 07:04

13 楼

看你口味怎么样。喜欢粘一些的米饭，就买贵一点的米，例如常春藤米，泰国米。如果
喜欢不粘的米，就上廉价米，例如黄国宝。美国LONG GRAIN米一点都不粘，适合做蛋炒
饭。

j*g2017-04-24 07:04

14 楼

GPU适合高并发。看算法设计，高并发的话GPU就快，并发越高用GPU就越快。如果只是
计算量大，而且计算内容有很强的逻辑关联的话就没法提升多少。
例如：如果内容是同时计算f(x),g(x),h(x),i(x).......这种就适合用显卡计算，如果
是f(g(h(i(x))))这种，用GPU也没用。
那么问题来了，目前生物信息和计算生物学的算法设计，适合GPU吗？
最耗时间和资源的部分，就是比对。BWA是为了GPU设计的吗？
据我所知，SOAP3倒是为GPU优化了吧！

【在 t*****z 的大作中提到】

: 在我接触到的工作中，依然是CPU。
: 主要原因我想，是很多工作依赖参考数据库，而且往往很大，显卡内存装不下这东西。
: 如果这个能够克服（例如使用Xeon Phi），大量序列的比对是很适合显卡的。

j*g2017-04-24 07:04

15 楼

如图，还是快了不少的。

【在 s******s 的大作中提到】

s*s2017-04-24 07:04

16 楼

实际使用上，其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard才
是正理。

【在 j*********g 的大作中提到】

: GPU适合高并发。看算法设计，高并发的话GPU就快，并发越高用GPU就越快。如果只是
: 计算量大，而且计算内容有很强的逻辑关联的话就没法提升多少。
: 例如：如果内容是同时计算f(x),g(x),h(x),i(x).......这种就适合用显卡计算，如果
: 是f(g(h(i(x))))这种，用GPU也没用。
: 那么问题来了，目前生物信息和计算生物学的算法设计，适合GPU吗？
: 最耗时间和资源的部分，就是比对。BWA是为了GPU设计的吗？
: 据我所知，SOAP3倒是为GPU优化了吧！

j*g2017-04-24 07:04

17 楼

刚入门，请教Picard有哪些用处？

：实际使用上，其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard
才是正理。

【在 s******s 的大作中提到】

: 实际使用上，其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard才
: 是正理。

s*s2017-04-24 07:04

18 楼

大工具步骤之间的无数小步骤

Picard

【在 j*********g 的大作中提到】

: 刚入门，请教Picard有哪些用处？
:
: ：实际使用上，其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard
: 才是正理。

t*z2017-04-24 07:04

19 楼

Pichard不就是那套小工具集合吗？是Java做的，运行效率和兼容性值得怀疑。
SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
如何？

【在 s******s 的大作中提到】

: 大工具步骤之间的无数小步骤
:
: Picard

j*g2017-04-24 07:04

20 楼

同疑问。还是比对耗费时间。

：Pichard不就是那套小工具集合吗？是Java做的，运行效率和兼容性值得怀疑。
：SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
：如何？

【在 t*****z 的大作中提到】

: Pichard不就是那套小工具集合吗？是Java做的，运行效率和兼容性值得怀疑。
: SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
: 如何？

n*72017-04-24 07:04

21 楼

我个人不喜欢这种大集成工具包
让简单透明的事情复杂化
上次面试HM问我用过picard没有
说多年以前试过，不熟，他居然有些不爽
一个工具而已，我觉得他水平不行，哈哈
java的运行效率应该不如native的C/C++ code，但是也就慢一倍的样子
可能很多操作瓶颈在disk I／O
兼容性不知道你说的什么，这个应该是java的强项
不过我最近准备研究一下picard的source code
我想自己做点java的通用小工具，照葫芦画瓢最省事

【在 t*****z 的大作中提到】

n*72017-04-24 07:04

22 楼

有个公司做很多mapping
他们就是用Xeon Phi,AVX 512很有用
不过为此他们还雇了个专门搞HPC的人
一般都core facility还是run CPU code了

【在 t*****z 的大作中提到】

t*z2017-04-24 07:04

23 楼

JAVA程序的命令行都太冗长了，简直反人类，而且时不时还要考虑内存问题。比如给
BAM文件排序，Picard是：
java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
SORT_ORDER=coordinate
而SAMtools仅仅是：
samtools sort input.bam
我常用SAMtools配合Bash的pipe整出高效且干净的one-liner，例如去除某些序列：
bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
F 256 | samtools sort [email protected] 16 -n | samtools view -bS | bedtools bamtofastq -i
- -fq out_R1.fq -fq2 out_R2.fq &> output.log
不知道Picard能不能？

【在 n******7 的大作中提到】

: 我个人不喜欢这种大集成工具包
: 让简单透明的事情复杂化
: 上次面试HM问我用过picard没有
: 说多年以前试过，不熟，他居然有些不爽
: 一个工具而已，我觉得他水平不行，哈哈
: java的运行效率应该不如native的C/C++ code，但是也就慢一倍的样子
: 可能很多操作瓶颈在disk I／O
: 兼容性不知道你说的什么，这个应该是java的强项
: 不过我最近准备研究一下picard的source code
: 我想自己做点java的通用小工具，照葫芦画瓢最省事

n*72017-04-24 07:04

24 楼

run jar文件是比较啰嗦
这种大工具集为了风格统一，也会造成一些啰嗦的用法
其实java的文化就是啰嗦但不复杂
因为缺省一些东西意味着你大脑要记住一些默认规则
这就为出问题创造了机会，滥用这点也会增加复杂度
比如就这个samtools，我记得好像就是这个sort命令，在某个版本之前和之后是不一样的
一个版本默认到stdout，需要用－O指定输出文件前缀；一个是直接跟输出文件前缀，
－o是到stdout
具体可能有出入，但是这种问题挺烦人，各个工具也不一样，不如统一规范省心
另一个问题就是pipe的时候，各个工具接收stdin的方式会有不同，有时也是挺烦的
java的控制pipe library我没用过，应该不是问题

-
i

【在 t*****z 的大作中提到】

: JAVA程序的命令行都太冗长了，简直反人类，而且时不时还要考虑内存问题。比如给
: BAM文件排序，Picard是：
: java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
: SORT_ORDER=coordinate
: 而SAMtools仅仅是：
: samtools sort input.bam
: 我常用SAMtools配合Bash的pipe整出高效且干净的one-liner，例如去除某些序列：
: bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
: F 256 | samtools sort [email protected] 16 -n | samtools view -bS | bedtools bamtofastq -i
: - -fq out_R1.fq -fq2 out_R2.fq &> output.log