现在大规模ML的训练网络还是瓶颈了吗# Programming - 葵花宝典b*o2018-08-02 07:081 楼不怎么做蛋糕,每次做完就吃完,绝对不留一点,所以没有研究过如何保存蛋糕。我想今晚做好muffin,但是不知道晚上怎么保存到明天,是放冰箱冷冻还是冷藏?
a*62018-08-02 07:082 楼我有个朋友啊,我这是也是真心的醉了,因为他真的是浑身的负能量啊。搞的我现在都不想跟他在一起玩了。他这心情一不好,总是各种抱怨什么的。我这说他吧我还生了一肚子气,所以我觉得根本没有必要嘛。如果要是跟他时间在一起长了,我这都要少活多少年啊。但是我要是不跟他玩了,那么基本上就没有人愿意跟他在一起玩了,因为大家都觉得他身上的负能量太多了。跟他在一起玩也会让自己满身的负能量,所以我现在就考虑还要不要跟他在一起玩。
s*k2018-08-02 07:083 楼是不是很多cloud商都上了100G Ethernet?那么之前10G,1G时期GPU太快网络太慢的情况大有好转?还有N加那些GPU直连的NCCL之类实际中用的多吗?主流系统中是不是还是paramter severer为主?
f*22018-08-02 07:085 楼我觉得应该是。类似MPI里面的大部分问题(除了embarrassingly parallel那类),但我觉得问题不是带宽,而是延时。parameter server这种可能把问题alleviate了,但是根本问题应该是没有解决。
s*k2018-08-02 07:087 楼比如用FPGA,可以解决部分延时因为可以并行生成很多模块,但是网络的delay还是没法解决啊【在 f******2 的大作中提到】: 我觉得应该是。类似MPI里面的大部分问题(除了embarrassingly parallel那类),但: 我觉得问题不是带宽,而是延时。: parameter server这种可能把问题alleviate了,但是根本问题应该是没有解决。
l*m2018-08-02 07:089 楼多机网络瓶颈很大。其实大部分单机4或8个GPU就够了。因为要调参,并行跑几个INSTANCE也挺好。【在 s********k 的大作中提到】: 是不是很多cloud商都上了100G Ethernet?那么之前10G,1G时期GPU太快网络太慢的情: 况大有好转?还有N加那些GPU直连的NCCL之类实际中用的多吗?主流系统中是不是还是: paramter severer为主?
b*o2018-08-02 07:0810 楼谢谢大家了,我也喜欢吃冷蛋糕,感觉结构好紧实。【在 b*****o 的大作中提到】: 不怎么做蛋糕,每次做完就吃完,绝对不留一点,所以没有研究过如何保存蛋糕。我想: 今晚做好muffin,但是不知道晚上怎么保存到明天,是放冰箱冷冻还是冷藏?
s*k2018-08-02 07:0811 楼多个GPU在单机上现在主流interface是PCIE还是N家那个NCCL?【在 l*******m 的大作中提到】: 多机网络瓶颈很大。其实大部分单机4或8个GPU就够了。因为要调参,并行跑几个: INSTANCE也挺好。
l*m2018-08-02 07:0812 楼NCCL是软件,应该PCIE VS NVLINK小作坊基本还靠PCI-E3. AWS V100都有NVLINK。明年PCI-E 4就会出货。后年PCI-E 5也会有货。PCI-E 5是V3的4倍。【在 s********k 的大作中提到】: 多个GPU在单机上现在主流interface是PCIE还是N家那个NCCL?
w*g2018-08-02 07:0813 楼我都还是pcie2,最近才有一台e3。比了下,确实慢一点,但也慢不太多。nvlink这种根本用不起,想都不用想。【在 l*******m 的大作中提到】: NCCL是软件,应该PCIE VS NVLINK: 小作坊基本还靠PCI-E3. AWS V100都有NVLINK。明年PCI-E 4就会出货。后年PCI-E 5也: 会有货。PCI-E 5是V3的4倍。
w*r2018-08-02 07:0814 楼哥们真励志啊啊啊啊!: 我都还是pcie2,最近才有一台e3。比了下,确实慢一点,但也慢不太多。: nvlink这种根本用不起,想都不用想。【在 w***g 的大作中提到】: 我都还是pcie2,最近才有一台e3。比了下,确实慢一点,但也慢不太多。: nvlink这种根本用不起,想都不用想。
s*k2018-08-02 07:0815 楼所以说这种NVLINK之类的优势就会逐渐减小?【在 l*******m 的大作中提到】: NCCL是软件,应该PCIE VS NVLINK: 小作坊基本还靠PCI-E3. AWS V100都有NVLINK。明年PCI-E 4就会出货。后年PCI-E 5也: 会有货。PCI-E 5是V3的4倍。
s*k2018-08-02 07:0816 楼你说的问题是延时不是带宽主要就是serving时候的?FPGA是目前延时解决最理想的除了大规模投入的ASIC之外?【在 f******2 的大作中提到】: 我觉得应该是。类似MPI里面的大部分问题(除了embarrassingly parallel那类),但: 我觉得问题不是带宽,而是延时。: parameter server这种可能把问题alleviate了,但是根本问题应该是没有解决。
l*m2018-08-02 07:0817 楼没呀。女大每两年2x一下nvlink. 还有牙膏厂不推出支持新的pcie的cpu, 也没用呀。:所以说这种NVLINK之类的优势就会逐渐减小?:【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
s*k2018-08-02 07:0818 楼GPU多卡之间有RDMA之类的支持吗【在 l*******m 的大作中提到】: 没呀。女大每两年2x一下nvlink. 还有牙膏厂不推出支持新的pcie的cpu, 也没用呀。: : :所以说这种NVLINK之类的优势就会逐渐减小?: :【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
l*m2018-08-02 07:0822 楼要用cudaMemcpy。 memcpy只能看到host上的内存,看不到device的内存【在 s********k 的大作中提到】: 如果是CPU的RAM和GPU的memory之间,是不是就只能用memcpy了?
s*k2018-08-02 07:0823 楼cudaMemcpy是从GPU到CPU还是双向都可以。这个Host指的是OS管理的?【在 l*******m 的大作中提到】: 要用cudaMemcpy。 memcpy只能看到host上的内存,看不到device的内存
l*m2018-08-02 07:0824 楼cuda allocates host and device memory and transfers data bi-directionally.【在 s********k 的大作中提到】: cudaMemcpy是从GPU到CPU还是双向都可以。这个Host指的是OS管理的?