Data被drained 求分析# PDA - 掌中宝
c*r
1 楼
一百万个amazon product id,问过去一小时销售量top 10的(map- reduce)
这题我的想法是用一个size10的MinHeap。 但是这100万个Product id分布在不同的
machine上,可能需要用map reduce去count每个product id的frequency,之后再
insert到heap里。但是这个Map-reduce具体是怎么实现的大牛能不能来讲下?
这题我的想法是用一个size10的MinHeap。 但是这100万个Product id分布在不同的
machine上,可能需要用map reduce去count每个product id的frequency,之后再
insert到heap里。但是这个Map-reduce具体是怎么实现的大牛能不能来讲下?