w*w
4 楼
"教你如何迅速秒杀掉 99%海量数据处理面试题"
c*e
7 楼
假设有100个机器,假设数据基本随机分布在各个机器里,那么每个机器中,把前20个
拿出来排序,就很可能找到前1000个
如果发现有某机器提供的20个数据中,最小的那个数据在总排名中是前1000的,说明此
机器中20名之后的数据,有可能是总排名中前1000的,但是第一次没拿出来。那么根据
首次20个数据中最小的数据在总排名中的位置,适当再次从此机器取数据,当然是排名
越靠前,那么再次取的数据更多一点比较好。
整个算法的前提是,数据基本随机平均分布在各个机器中。如果数据是明显有序分布的
,那么算法就不合适了
【在 u***n 的大作中提到】
: 假设每个分布式里面都是排序的,每个分布式的前1000个拿出来做排序,肯定。找到前
: 1000个
相关阅读
finally know that BB is bloombergH1b transfer需要多长时间能收到收据?Yodle puzzle,作出可申请工作关于OPT期间做VOLUNTEER****求建议--如何negotiate offer****Company will be closed, H1B layoff.关于英语口语一个人的小公司可以支持 OPT 吗 ?急问! 小公司(<5人),会计本科毕业,申请PART TIME H-1B,能过吗?HM的这个回信有戏吗?周五onsite, 求路过的大虾们blessc++ primer的习题找学校lab manager职位一些问题是在这儿发帖吗?【招】所有的爸爸妈妈都看这里!! (转载)H1B 申请问题报一个H1B现在OPT多久能批下来?求人辅导PIVOT-TABLEcs的master找非大公司职位,什么网站最好?请教: onsite要带什么了?