一道大数据题# JobHunting - 待字闺中
q*w
1 楼
在glassdoor上facebook版上看的的。
Given 10,000 servers containing a Billion integers each how would you find
how to find the median?
1. 用2 heap? 全部数走这个two heap内存消耗太大吧。
2. 用类似 find median of two sorted array 方法?那每台机都要把全部数放到内存
去。每台机都是2^32*4, 也就是4GB内存(假设int32)。感觉消耗太大。
3. bucket sort将所有server的所有数都放到master的bucket中去,这样只要master开
一个4G的内存就好了。而且可以并行。锁的粒度可以到bucket。
大家怎么认为?
Given 10,000 servers containing a Billion integers each how would you find
how to find the median?
1. 用2 heap? 全部数走这个two heap内存消耗太大吧。
2. 用类似 find median of two sorted array 方法?那每台机都要把全部数放到内存
去。每台机都是2^32*4, 也就是4GB内存(假设int32)。感觉消耗太大。
3. bucket sort将所有server的所有数都放到master的bucket中去,这样只要master开
一个4G的内存就好了。而且可以并行。锁的粒度可以到bucket。
大家怎么认为?