Redian新闻
>
现在大规模ML的训练网络还是瓶颈了吗
avatar
现在大规模ML的训练网络还是瓶颈了吗# Programming - 葵花宝典
b*o
1
不怎么做蛋糕,每次做完就吃完,绝对不留一点,所以没有研究过如何保存蛋糕。我想
今晚做好muffin,但是不知道晚上怎么保存到明天,是放冰箱冷冻还是冷藏?
avatar
a*6
2
我有个朋友啊,我这是也是真心的醉了,因为他真的是浑身的负能量啊。搞的我现在都
不想跟他在一起玩了。他这心情一不好,总是各种抱怨什么的。我这说他吧我还生了一
肚子气,所以我觉得根本没有必要嘛。如果要是跟他时间在一起长了,我这都要少活多
少年啊。
但是我要是不跟他玩了,那么基本上就没有人愿意跟他在一起玩了,因为大家都觉得他
身上的负能量太多了。跟他在一起玩也会让自己满身的负能量,所以我现在就考虑还要
不要跟他在一起玩。
avatar
s*k
3
是不是很多cloud商都上了100G Ethernet?那么之前10G,1G时期GPU太快网络太慢的情
况大有好转?还有N加那些GPU直连的NCCL之类实际中用的多吗?主流系统中是不是还是
paramter severer为主?
avatar
F*t
4
我放冷藏,吃1周,吃之前进微波炉打20s
avatar
f*2
5
我觉得应该是。类似MPI里面的大部分问题(除了embarrassingly parallel那类),但
我觉得问题不是带宽,而是延时。
parameter server这种可能把问题alleviate了,但是根本问题应该是没有解决。
avatar
f*e
6
冷藏就可以啦
如果你打算放一个月,可以冷冻~
avatar
s*k
7
比如用FPGA,可以解决部分延时因为可以并行生成很多模块,但是网络的delay还是没
法解决啊

【在 f******2 的大作中提到】
: 我觉得应该是。类似MPI里面的大部分问题(除了embarrassingly parallel那类),但
: 我觉得问题不是带宽,而是延时。
: parameter server这种可能把问题alleviate了,但是根本问题应该是没有解决。

avatar
k*u
8
我喜欢吃冷蛋糕,就放在保鲜盒里盖好盖子放在冰箱,随吃随取,哈哈哈
avatar
l*m
9
多机网络瓶颈很大。其实大部分单机4或8个GPU就够了。因为要调参,并行跑几个
INSTANCE也挺好。

【在 s********k 的大作中提到】
: 是不是很多cloud商都上了100G Ethernet?那么之前10G,1G时期GPU太快网络太慢的情
: 况大有好转?还有N加那些GPU直连的NCCL之类实际中用的多吗?主流系统中是不是还是
: paramter severer为主?

avatar
b*o
10
谢谢大家了,我也喜欢吃冷蛋糕,感觉结构好紧实。

【在 b*****o 的大作中提到】
: 不怎么做蛋糕,每次做完就吃完,绝对不留一点,所以没有研究过如何保存蛋糕。我想
: 今晚做好muffin,但是不知道晚上怎么保存到明天,是放冰箱冷冻还是冷藏?

avatar
s*k
11
多个GPU在单机上现在主流interface是PCIE还是N家那个NCCL?

【在 l*******m 的大作中提到】
: 多机网络瓶颈很大。其实大部分单机4或8个GPU就够了。因为要调参,并行跑几个
: INSTANCE也挺好。

avatar
l*m
12
NCCL是软件,应该PCIE VS NVLINK
小作坊基本还靠PCI-E3. AWS V100都有NVLINK。明年PCI-E 4就会出货。后年PCI-E 5也
会有货。PCI-E 5是V3的4倍。

【在 s********k 的大作中提到】
: 多个GPU在单机上现在主流interface是PCIE还是N家那个NCCL?
avatar
w*g
13
我都还是pcie2,最近才有一台e3。比了下,确实慢一点,但也慢不太多。
nvlink这种根本用不起,想都不用想。

【在 l*******m 的大作中提到】
: NCCL是软件,应该PCIE VS NVLINK
: 小作坊基本还靠PCI-E3. AWS V100都有NVLINK。明年PCI-E 4就会出货。后年PCI-E 5也
: 会有货。PCI-E 5是V3的4倍。

avatar
w*r
14
哥们真励志啊啊啊啊!


: 我都还是pcie2,最近才有一台e3。比了下,确实慢一点,但也慢不太多。

: nvlink这种根本用不起,想都不用想。



【在 w***g 的大作中提到】
: 我都还是pcie2,最近才有一台e3。比了下,确实慢一点,但也慢不太多。
: nvlink这种根本用不起,想都不用想。

avatar
s*k
15
所以说这种NVLINK之类的优势就会逐渐减小?

【在 l*******m 的大作中提到】
: NCCL是软件,应该PCIE VS NVLINK
: 小作坊基本还靠PCI-E3. AWS V100都有NVLINK。明年PCI-E 4就会出货。后年PCI-E 5也
: 会有货。PCI-E 5是V3的4倍。

avatar
s*k
16
你说的问题是延时不是带宽主要就是serving时候的?FPGA是目前延时解决最理想的除
了大规模投入的ASIC之外?

【在 f******2 的大作中提到】
: 我觉得应该是。类似MPI里面的大部分问题(除了embarrassingly parallel那类),但
: 我觉得问题不是带宽,而是延时。
: parameter server这种可能把问题alleviate了,但是根本问题应该是没有解决。

avatar
l*m
17
没呀。女大每两年2x一下nvlink. 还有牙膏厂不推出支持新的pcie的cpu, 也没用呀。

:所以说这种NVLINK之类的优势就会逐渐减小?
:【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
avatar
s*k
18
GPU多卡之间有RDMA之类的支持吗

【在 l*******m 的大作中提到】
: 没呀。女大每两年2x一下nvlink. 还有牙膏厂不推出支持新的pcie的cpu, 也没用呀。
:
: :所以说这种NVLINK之类的优势就会逐渐减小?
: :【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】

avatar
l*m
19
几年前就有

【在 s********k 的大作中提到】
: GPU多卡之间有RDMA之类的支持吗
avatar
s*k
20
如果是CPU的RAM和GPU的memory之间,是不是就只能用memcpy了?

【在 l*******m 的大作中提到】
: 几年前就有
avatar
g*t
21
别着急。竞争会导致牛顿法,共轭梯度什么的进来。以前tensorflow海塞阵都没有的。
慢慢算法会改进的。
avatar
l*m
22
要用cudaMemcpy。 memcpy只能看到host上的内存,看不到device的内存

【在 s********k 的大作中提到】
: 如果是CPU的RAM和GPU的memory之间,是不是就只能用memcpy了?
avatar
s*k
23
cudaMemcpy是从GPU到CPU还是双向都可以。这个Host指的是OS管理的?

【在 l*******m 的大作中提到】
: 要用cudaMemcpy。 memcpy只能看到host上的内存,看不到device的内存
avatar
l*m
24
cuda allocates host and device memory and transfers data bi-directionally.

【在 s********k 的大作中提到】
: cudaMemcpy是从GPU到CPU还是双向都可以。这个Host指的是OS管理的?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。