Redian新闻
>
现在测序facility的主流计算还是CPU吗
avatar
现在测序facility的主流计算还是CPU吗# Biology - 生物学
e*s
1
我是吃米饭长大的,因此现在家里每天都吃米饭。一天没米饭,心里闷得慌。像面条和
面包这样的面食,我吃得再多也吃不饱。上大学的时候,看到有的北方同学啃几口面包
或者吃一碗面条,然后摸摸肚子,说自己吃饱了。我很佩服他们。我是没有这个本事的。
我喜欢吃米饭,所以对大米也特别挑剔。肉,我可以少吃一块。酒,我可以少喝一口。
衣服,我可以不穿。但是,大米我一定要买最好吃的。
刚到美国的时候,一位台湾朋友带我去当地的中国店买大米。我发现中国店的大米品种
还不少,有泰国大米、印度大米和美国大米。台湾朋友向我推荐黄国宝大米,说黄国宝
的味道不错,价格还比另一种国宝(红国宝)便宜。就这样,我就吃了几年的黄国宝。
有一次去中国店,发现黄国宝卖完了,只剩红国宝和其他品种的大米,我就买了一包红
国宝。回家一吃,发现用红国宝大米煮的米饭比黄国宝还要好吃!红国宝大米煮的米饭
和稀饭真是软、糯、粘、嫩、爽,还略带甜味,可真香啊!自从买了那一包红国宝之后
,我们一直都买红国宝。偶尔也会试一试其他品种的大米,心想说不定还有比红国宝更
好吃的大米呢!只是一直到现在,还没有发现比红国宝更好的大米。那些买回家的不是
红国宝的大米,也基本上用来喂后院的母鸡了。
美国的红国宝大米,是一个叫做国府田敬三郎(Keisaburo Koda)日裔美国人培育的。
国府田于1908年从日本移民美国,定居加州,然后开办了国府田农场(Koda Farms),
主要种植水稻。红国宝大米在20世纪50年代培育成功,1962年推向美国市场。国府田农
场已经传了三代了,现在的农场主是国府田敬三郎的孙子。
让红国宝大米披上一层神秘色彩的是关于它的传说。据称,只有国府田农场30英里半径
范围内种植的红国宝,才是真宗的红国宝,其他地方种植的红国宝就不正宗的了。这也
许只是商人的一种促销手段,也许真的有这么回事。也许只有加州国府田农场附近的土
壤、降水、光照、水质和其他环境条件下种出来的红国宝大米才是最好的大米。
不管什么原因,红国宝大米是我吃过的最好吃的大米,比中国国内的很多有名的大米(
如黑龙江五常大米、河南原阳大米、辽宁盘锦大米和天津小站大米),还要好吃。
avatar
w*3
2
还有,延期期间能不能不拿工资?
avatar
j*g
3
有改到GPU平台吗?
主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
,GPU能快多少呢?
avatar
l*i
4
我觉得都差不多。我吃的全是便宜大米。还有的带洉味。

的。

【在 e******s 的大作中提到】
: 我是吃米饭长大的,因此现在家里每天都吃米饭。一天没米饭,心里闷得慌。像面条和
: 面包这样的面食,我吃得再多也吃不饱。上大学的时候,看到有的北方同学啃几口面包
: 或者吃一碗面条,然后摸摸肚子,说自己吃饱了。我很佩服他们。我是没有这个本事的。
: 我喜欢吃米饭,所以对大米也特别挑剔。肉,我可以少吃一块。酒,我可以少喝一口。
: 衣服,我可以不穿。但是,大米我一定要买最好吃的。
: 刚到美国的时候,一位台湾朋友带我去当地的中国店买大米。我发现中国店的大米品种
: 还不少,有泰国大米、印度大米和美国大米。台湾朋友向我推荐黄国宝大米,说黄国宝
: 的味道不错,价格还比另一种国宝(红国宝)便宜。就这样,我就吃了几年的黄国宝。
: 有一次去中国店,发现黄国宝卖完了,只剩红国宝和其他品种的大米,我就买了一包红
: 国宝。回家一吃,发现用红国宝大米煮的米饭比黄国宝还要好吃!红国宝大米煮的米饭

avatar
m*p
5
那就回国旅游3个月, 10月份再回来工作。 羡慕啊。。。。

【在 w****3 的大作中提到】
: 还有,延期期间能不能不拿工资?
avatar
t*z
6
在我接触到的工作中,依然是CPU。
主要原因我想,是很多工作依赖参考数据库,而且往往很大,显卡内存装不下这东西。
如果这个能够克服(例如使用Xeon Phi),大量序列的比对是很适合显卡的。

【在 j*********g 的大作中提到】
: 有改到GPU平台吗?
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ,GPU能快多少呢?

avatar
a*g
7
鸡rou

条和
面包
口。
品种
国宝
宝。
包红
米饭

【在 l*****i 的大作中提到】
: 我觉得都差不多。我吃的全是便宜大米。还有的带洉味。
:
: 的。

avatar
s*s
8
有啊,不过用的比较少。
不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
flavor
了。
兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

【在 j*********g 的大作中提到】
: 有改到GPU平台吗?
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ,GPU能快多少呢?

avatar
C*X
9
我现在喜欢吃面包。。。
我中午吃面条。。
avatar
K*n
10
看有没有真的需求。内存和 IO在其它大数据训练问题里也是一样的,用一个CPU线程管
理 I/O,GPU猛算,在不少算法里还是可能的。

flavor

【在 s******s 的大作中提到】
: 有啊,不过用的比较少。
: 不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

avatar
a*e
11
20%茉莉 80%国宝
加点机油.
avatar
K*n
12
哦,要是 FPGA 成熟就不太用 GPU 了

flavor

【在 s******s 的大作中提到】
: 有啊,不过用的比较少。
: 不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

avatar
h*2
13
看你口味怎么样。喜欢粘一些的米饭,就买贵一点的米,例如常春藤米,泰国米。如果
喜欢不粘的米,就上廉价米,例如黄国宝。美国LONG GRAIN米一点都不粘,适合做蛋炒
饭。
avatar
j*g
14
GPU适合高并发。看算法设计,高并发的话GPU就快,并发越高用GPU就越快。如果只是
计算量大,而且计算内容有很强的逻辑关联的话就没法提升多少。
例如:如果内容是同时计算f(x),g(x),h(x),i(x).......这种就适合用显卡计算,如果
是f(g(h(i(x))))这种,用GPU也没用。
那么问题来了,目前生物信息和计算生物学的算法设计,适合GPU吗?
最耗时间和资源的部分,就是比对。BWA是为了GPU设计的吗?
据我所知,SOAP3倒是为GPU优化了吧!

【在 t*****z 的大作中提到】
: 在我接触到的工作中,依然是CPU。
: 主要原因我想,是很多工作依赖参考数据库,而且往往很大,显卡内存装不下这东西。
: 如果这个能够克服(例如使用Xeon Phi),大量序列的比对是很适合显卡的。

avatar
j*g
15
如图,还是快了不少的。

【在 s******s 的大作中提到】
: 有啊,不过用的比较少。
: 不过现在有一些FPGA的,直接做成硬件来卖,国内好像也有做的,AWS也有FPGA的
: flavor
: 了。
: 兼容性有CPU系统,专业性有FPA的傻瓜硬件系统,GPU可能需要的技术性太强了

avatar
s*s
16
实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard才
是正理。

【在 j*********g 的大作中提到】
: GPU适合高并发。看算法设计,高并发的话GPU就快,并发越高用GPU就越快。如果只是
: 计算量大,而且计算内容有很强的逻辑关联的话就没法提升多少。
: 例如:如果内容是同时计算f(x),g(x),h(x),i(x).......这种就适合用显卡计算,如果
: 是f(g(h(i(x))))这种,用GPU也没用。
: 那么问题来了,目前生物信息和计算生物学的算法设计,适合GPU吗?
: 最耗时间和资源的部分,就是比对。BWA是为了GPU设计的吗?
: 据我所知,SOAP3倒是为GPU优化了吧!

avatar
j*g
17
刚入门,请教Picard有哪些用处?

:实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard
才是正理。

【在 s******s 的大作中提到】
: 实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard才
: 是正理。

avatar
s*s
18
大工具步骤之间的无数小步骤

Picard

【在 j*********g 的大作中提到】
: 刚入门,请教Picard有哪些用处?
:
: :实际使用上,其实BWA再怎么压榨对总效率意义也不大。啥时候Broad好好优化Picard
: 才是正理。

avatar
t*z
19
Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
如何?

【在 s******s 的大作中提到】
: 大工具步骤之间的无数小步骤
:
: Picard

avatar
j*g
20
同疑问。还是比对耗费时间。

:Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
:SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
:如何?

【在 t*****z 的大作中提到】
: Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
: SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
: 如何?

avatar
n*7
21
我个人不喜欢这种大集成工具包
让简单透明的事情复杂化
上次面试HM问我用过picard没有
说多年以前试过,不熟,他居然有些不爽
一个工具而已,我觉得他水平不行,哈哈
java的运行效率应该不如native的C/C++ code,但是也就慢一倍的样子
可能很多操作瓶颈在disk I/O
兼容性不知道你说的什么,这个应该是java的强项
不过我最近准备研究一下picard的source code
我想自己做点java的通用小工具,照葫芦画瓢最省事

【在 t*****z 的大作中提到】
: Pichard不就是那套小工具集合吗?是Java做的,运行效率和兼容性值得怀疑。
: SAMtools加纯Bash命令可以搞定其大部分功能了。不知现在Pichard在世界上接受程度
: 如何?

avatar
n*7
22
有个公司做很多mapping
他们就是用Xeon Phi,AVX 512很有用
不过为此他们还雇了个专门搞HPC的人
一般都core facility还是run CPU code了

【在 t*****z 的大作中提到】
: 在我接触到的工作中,依然是CPU。
: 主要原因我想,是很多工作依赖参考数据库,而且往往很大,显卡内存装不下这东西。
: 如果这个能够克服(例如使用Xeon Phi),大量序列的比对是很适合显卡的。

avatar
t*z
23
JAVA程序的命令行都太冗长了,简直反人类,而且时不时还要考虑内存问题。比如给
BAM文件排序,Picard是:
java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
SORT_ORDER=coordinate
而SAMtools仅仅是:
samtools sort input.bam
我常用SAMtools配合Bash的pipe整出高效且干净的one-liner,例如去除某些序列:
bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
F 256 | samtools sort [email protected] 16 -n | samtools view -bS | bedtools bamtofastq -i
- -fq out_R1.fq -fq2 out_R2.fq &> output.log
不知道Picard能不能?

【在 n******7 的大作中提到】
: 我个人不喜欢这种大集成工具包
: 让简单透明的事情复杂化
: 上次面试HM问我用过picard没有
: 说多年以前试过,不熟,他居然有些不爽
: 一个工具而已,我觉得他水平不行,哈哈
: java的运行效率应该不如native的C/C++ code,但是也就慢一倍的样子
: 可能很多操作瓶颈在disk I/O
: 兼容性不知道你说的什么,这个应该是java的强项
: 不过我最近准备研究一下picard的source code
: 我想自己做点java的通用小工具,照葫芦画瓢最省事

avatar
n*7
24
run jar文件是比较啰嗦
这种大工具集为了风格统一,也会造成一些啰嗦的用法
其实java的文化就是啰嗦但不复杂
因为缺省一些东西意味着你大脑要记住一些默认规则
这就为出问题创造了机会,滥用这点也会增加复杂度
比如就这个samtools,我记得好像就是这个sort命令,在某个版本之前和之后是不一样的
一个版本默认到stdout,需要用-O指定输出文件前缀;一个是直接跟输出文件前缀,
-o是到stdout
具体可能有出入,但是这种问题挺烦人,各个工具也不一样,不如统一规范省心
另一个问题就是pipe的时候,各个工具接收stdin的方式会有不同,有时也是挺烦的
java的控制pipe library我没用过,应该不是问题

-
i

【在 t*****z 的大作中提到】
: JAVA程序的命令行都太冗长了,简直反人类,而且时不时还要考虑内存问题。比如给
: BAM文件排序,Picard是:
: java -Xmx???g -jar picard.jar SortSam INPUT=unsorted.bam OUTPUT=sorted.bam
: SORT_ORDER=coordinate
: 而SAMtools仅仅是:
: samtools sort input.bam
: 我常用SAMtools配合Bash的pipe整出高效且干净的one-liner,例如去除某些序列:
: bowtie2 -p 16 -x /path/to/db -1 in_R1.fq -2 in_R2.fq | samtools view -f 12 -
: F 256 | samtools sort [email protected] 16 -n | samtools view -bS | bedtools bamtofastq -i
: - -fq out_R1.fq -fq2 out_R2.fq &> output.log

avatar
f*r
25
有啊,我们做的系统就是基于GPU的。 30x WGS fastq -> vcf 20 分钟。 GPU用得好的
话加速效果还是比较明显的。

【在 j*********g 的大作中提到】
: 有改到GPU平台吗?
: 主要做RNAseq Exome-seq这种target sequencing的序列比对而已。差不多的硬件投入
: ,GPU能快多少呢?

avatar
n*7
26
你们的系统是公开的吗?
可否给个链接?

【在 f********r 的大作中提到】
: 有啊,我们做的系统就是基于GPU的。 30x WGS fastq -> vcf 20 分钟。 GPU用得好的
: 话加速效果还是比较明显的。

avatar
f*r
27
不是公开的。 原型刚做好。刚开始给用户试用。

【在 n******7 的大作中提到】
: 你们的系统是公开的吗?
: 可否给个链接?

avatar
n*7
28
30x的数据只用20分钟搞定很牛的
那能否透漏一些在什么上的硬件上面实现的?
alignment是把现有的工具(比如BWA)改到gpu上,
还是你们自己develop的方法?
想起我们有些gpu的node,也许可以玩玩

【在 f********r 的大作中提到】
: 不是公开的。 原型刚做好。刚开始给用户试用。
avatar
j*g
29
SOAP3是针对GPU的

:30x的数据只用20分钟搞定很牛的
:那能否透漏一些在什么上的硬件上面实现的?
:alignment是把现有的工具(比如BWA)改到gpu上,
:还是你们自己develop的方法?
:想起我们有些gpu的node,也许可以玩玩

【在 n******7 的大作中提到】
: 30x的数据只用20分钟搞定很牛的
: 那能否透漏一些在什么上的硬件上面实现的?
: alignment是把现有的工具(比如BWA)改到gpu上,
: 还是你们自己develop的方法?
: 想起我们有些gpu的node,也许可以玩玩

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。