Redian新闻
>
为什么我这个笔记本比台式机快,算矩阵乘法
avatar
为什么我这个笔记本比台式机快,算矩阵乘法# Hardware - 计算机硬件
t*y
1
报绿 NSC EB2
PD: 04/17/2008
RD: 02/02/2012
ND:
AP:
EAD:
FP:
RFE:
AD:
GC: 05/25/2013
DEP:
报绿 Center NSC Type EB2
avatar
P*H
2
macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary)
server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary)
我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从
tdp,主频,turbo,这个i7全线不如xeon。
难道是mac优化得好?或者ubuntu上那个openblas有问题?
还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些
,veclib都快一些。这也是mac优化得好?
avatar
A*7
3
恭喜!
avatar
l*m
4
你可以看numpy到底用了什么blas

binary)

【在 P**H 的大作中提到】
: macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary)
: server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary)
: 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从
: tdp,主频,turbo,这个i7全线不如xeon。
: 难道是mac优化得好?或者ubuntu上那个openblas有问题?
: 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些
: ,veclib都快一些。这也是mac优化得好?

avatar
p*e
5
cong

【在 t***y 的大作中提到】
: 报绿 NSC EB2
: PD: 04/17/2008
: RD: 02/02/2012
: ND:
: AP:
: EAD:
: FP:
: RFE:
: AD:
: GC: 05/25/2013

avatar
P*H
6
的确都是用的openblas。我查过了。再说,如果是用的非优化的blas,2s之内肯定算不
完的。

【在 l*******m 的大作中提到】
: 你可以看numpy到底用了什么blas
:
: binary)

avatar
y*0
7
cong,pai
avatar
n*d
8
用了gpu?

binary)

【在 P**H 的大作中提到】
: macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary)
: server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary)
: 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从
: tdp,主频,turbo,这个i7全线不如xeon。
: 难道是mac优化得好?或者ubuntu上那个openblas有问题?
: 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些
: ,veclib都快一些。这也是mac优化得好?

avatar
m*s
9


【在 t***y 的大作中提到】
: 报绿 NSC EB2
: PD: 04/17/2008
: RD: 02/02/2012
: ND:
: AP:
: EAD:
: FP:
: RFE:
: AD:
: GC: 05/25/2013

avatar
d*a
10
E5-1650支持AVX,i7-4750支持AVX2。AVX/AVX2是向量指令集扩展。AVX2把寄存器宽度
从AVX的128位扩充到了256位,并且增加了新的指令,特别是FMA。对能用上向量处理的
程序来说,这些差别是挺大的。
Intel这个blog提了一些数据,见图。
https://embedded.communities.intel.com/community/en/software/blog/2013/08/01
/avx-20-enables-faster-image-and-signal-processing

binary)

【在 P**H 的大作中提到】
: macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary)
: server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary)
: 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从
: tdp,主频,turbo,这个i7全线不如xeon。
: 难道是mac优化得好?或者ubuntu上那个openblas有问题?
: 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些
: ,veclib都快一些。这也是mac优化得好?

avatar
n*r
11
Cong!

【在 t***y 的大作中提到】
: 报绿 NSC EB2
: PD: 04/17/2008
: RD: 02/02/2012
: ND:
: AP:
: EAD:
: FP:
: RFE:
: AD:
: GC: 05/25/2013

avatar
h*n
12
我正准备从E5-1620v2升级到E5-1650v2,请楼主不要打击我。
很想直接升级到E5-1660v2,但是,E5-1660v2价格实在是太贵了~~
avatar
z*o
13
gxgx
pai baozi
avatar
h*n
14
即使是单线程工作,似乎E5-1650v2也不会比i7-4750HQ慢~
何况E5-1650v2是12线程,而i7-4750HQ是8线程~~
一种例外是:楼主使用的openBLAs在MACBook PRO(或编译中已经辨识了4750HQ CPU)
上编译过,且是多线程运行。而这个库在E5-1650v2上未编译(或预编译的库并没有包
括1650v2 CPU),使用的是单线程工作模式。
avatar
r*0
15
gxgx
avatar
l*m
16
我的cpu是 1650V3,同样的测试是0.21s. 我的 openblas和numpy 都是从src编译安装的

【在 P**H 的大作中提到】
: 的确都是用的openblas。我查过了。再说,如果是用的非优化的blas,2s之内肯定算不
: 完的。

avatar
o*n
17
cong
avatar
l*m
18
不是os的差别,是compilers的差别,clang比gcc是优化的好些。
http://www.phoronix.com/scan.php?page=article&item=clang-37-gcc

binary)

【在 P**H 的大作中提到】
: macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary)
: server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary)
: 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从
: tdp,主频,turbo,这个i7全线不如xeon。
: 难道是mac优化得好?或者ubuntu上那个openblas有问题?
: 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些
: ,veclib都快一些。这也是mac优化得好?

avatar
b*y
19
cong!
avatar
d*a
20
E5-1650和E5-1650v2支持AVX,E5-1650v3支持AVX 2.0.
编译优化对性能来说很重要,但gcc和clang不会有这样大的差别。
avatar
M*1
21
恭喜
avatar
r*i
22
1660v2的hp z420,ebay上刚有$850卖掉的
1660v3的DELL T5810,ebay上刚有$1146卖掉的
不要盯着cpu,直接关注整机
E5 V4也很快就来了

【在 h******n 的大作中提到】
: 我正准备从E5-1620v2升级到E5-1650v2,请楼主不要打击我。
: 很想直接升级到E5-1660v2,但是,E5-1660v2价格实在是太贵了~~

avatar
g*1
23
cong

【在 t***y 的大作中提到】
: 报绿 NSC EB2
: PD: 04/17/2008
: RD: 02/02/2012
: ND:
: AP:
: EAD:
: FP:
: RFE:
: AD:
: GC: 05/25/2013

avatar
h*n
24
eBay上单单E5-1660v2就要800刀~
1660v3的DELL T5810,$1146,如果我看到,就直接拿下了。但是,1660v3好像不如
1660v2. 相对1660v3来说,我更喜欢1650v3.
实在等不了v4,眼下有繁重simulations,急需升级CPU。

【在 r***i 的大作中提到】
: 1660v2的hp z420,ebay上刚有$850卖掉的
: 1660v3的DELL T5810,ebay上刚有$1146卖掉的
: 不要盯着cpu,直接关注整机
: E5 V4也很快就来了

avatar
h*u
25
cong
avatar
P*H
26
我觉得可能是Ubuntu上那个openblas没有优化好。我自己编译一下试试。

【在 d***a 的大作中提到】
: E5-1650和E5-1650v2支持AVX,E5-1650v3支持AVX 2.0.
: 编译优化对性能来说很重要,但gcc和clang不会有这样大的差别。

avatar
w*p
27
Cong
Baozi
avatar
r*i
28
很多时候卖品牌机的,1660v2这种关键字写在了内容里,所以低价成交的事情常有
不过刚找出来关注过的那个z420,还真不是以上情况
http://www.ebay.com/itm/191777757628
DELL T5810那个
http://www.ebay.com/itm/Dell-Precision-Tower-5810-PC-E5-1660-v3-3-0GHz-16GB-256GB-SSD-Win-8-1-USED-/231820158506?
留心关注下品牌机,总有意外收获的,不过就是得每天看着点。上面这两个属于1-2个
月一遇得deal

【在 h******n 的大作中提到】
: eBay上单单E5-1660v2就要800刀~
: 1660v3的DELL T5810,$1146,如果我看到,就直接拿下了。但是,1660v3好像不如
: 1660v2. 相对1660v3来说,我更喜欢1650v3.
: 实在等不了v4,眼下有繁重simulations,急需升级CPU。

avatar
n*1
29
CONG!
avatar
r*i
30
还有$2000出头的双E5 2663 V3 (DELL T7910),这个是OEM CPU,Intel Ark里没有。
10核10线程,没有超线程,所以主频可以稍微高点。按搜2x 2663 v3就出来了

【在 h******n 的大作中提到】
: eBay上单单E5-1660v2就要800刀~
: 1660v3的DELL T5810,$1146,如果我看到,就直接拿下了。但是,1660v3好像不如
: 1660v2. 相对1660v3来说,我更喜欢1650v3.
: 实在等不了v4,眼下有繁重simulations,急需升级CPU。

avatar
t*r
31
恭喜
avatar
h*n
32
那台HP真是不错的deal。仅E5-1660v2 CPU就要750-800刀~~

【在 r***i 的大作中提到】
: 还有$2000出头的双E5 2663 V3 (DELL T7910),这个是OEM CPU,Intel Ark里没有。
: 10核10线程,没有超线程,所以主频可以稍微高点。按搜2x 2663 v3就出来了

avatar
t*e
33
gx
avatar
h*n
34
费了老大的力气,今天花1200大洋(通过私下交易,节省340刀(1540-340)),搞定一
台 T5810, E5-1650v3, AMD FirePro™ W7100。其实,显卡对我来说,一点不重
要。我主要用来做numerical simulations。

【在 r***i 的大作中提到】
: 还有$2000出头的双E5 2663 V3 (DELL T7910),这个是OEM CPU,Intel Ark里没有。
: 10核10线程,没有超线程,所以主频可以稍微高点。按搜2x 2663 v3就出来了

avatar
O*e
35
cong
avatar
x*r
36
连续算100次3000x3000乘3000x3000,把总计算量加长再比较比较准。
avatar
m*e
37
gxgx
avatar
o*o
38
用intel自己的blas库了吗?好像叫MKL。我老从前搞研究的时候用过,比自己编译的做
SVD轻松快好几倍。
avatar
s*e
39
cong
avatar
P*H
40
目前mac的veclib,mkl,和openblas差不多快的。

【在 o**o 的大作中提到】
: 用intel自己的blas库了吗?好像叫MKL。我老从前搞研究的时候用过,比自己编译的做
: SVD轻松快好几倍。

avatar
S*s
41
cong
avatar
P*H
42
GPU能用上也不错的。

【在 h******n 的大作中提到】
: 费了老大的力气,今天花1200大洋(通过私下交易,节省340刀(1540-340)),搞定一
: 台 T5810, E5-1650v3, AMD FirePro™ W7100。其实,显卡对我来说,一点不重
: 要。我主要用来做numerical simulations。

avatar
c*o
43
congrats
avatar
y*b
44
很多numerical simulations需要非常强大的后处理能力
此时专业显卡比cpu贵多了

【在 h******n 的大作中提到】
: 费了老大的力气,今天花1200大洋(通过私下交易,节省340刀(1540-340)),搞定一
: 台 T5810, E5-1650v3, AMD FirePro™ W7100。其实,显卡对我来说,一点不重
: 要。我主要用来做numerical simulations。

avatar
A*n
45
GXGX
avatar
f*i
46
Gpu应该更快些

【在 n***d 的大作中提到】
: 用了gpu?
:
: binary)

avatar
b7
47
gxgx, chi baozi
avatar
fs
48
baozi
avatar
vh
49
baozi
avatar
J*u
50
排包子
avatar
w*2
51
Cong
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。