w*w
4 楼
"教你如何迅速秒杀掉 99%海量数据处理面试题"
c*e
7 楼
假设有100个机器,假设数据基本随机分布在各个机器里,那么每个机器中,把前20个
拿出来排序,就很可能找到前1000个
如果发现有某机器提供的20个数据中,最小的那个数据在总排名中是前1000的,说明此
机器中20名之后的数据,有可能是总排名中前1000的,但是第一次没拿出来。那么根据
首次20个数据中最小的数据在总排名中的位置,适当再次从此机器取数据,当然是排名
越靠前,那么再次取的数据更多一点比较好。
整个算法的前提是,数据基本随机平均分布在各个机器中。如果数据是明显有序分布的
,那么算法就不合适了
【在 u***n 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 假设每个分布式里面都是排序的,每个分布式的前1000个拿出来做排序,肯定。找到前
: 1000个
相关阅读
面试发现,中国人并不技术更强请教一个有关离职时间和rsu的问题fb onsite 5天后没有消息是不是就算挂了?Google cloud platformHortonworks Presumed to be Talking to Buyersright or wrong, 如何写好第一封networking message聊聊乐视美国G Kirkland Match不到SDE, recruiter问我要不要先去SRE的SWE请教华为bonus01背包问题OPT Intern-CS|Biz|Design遭遇“石油诅咒” 多州濒临破产边缘 (转载)求问两题思路问一个常见简历问题,绝大部分人遇到的问题华人被火成为新常态合理利用 种族歧视 得到 PromotionH1B 换雇主期间想回国争小伙伴团购九章算法班,下周六开课最近形势很好,有很多高级职位空了出来,兄弟们TripAdvisor iOS on site闈㈣瘯閮借