全新 S6 edge plus 32G gold verizon unlock能卖多少钱?# PDA - 掌中宝
m*n
1 楼
N个clusters,每个memory 10M, 现在有1000 billion的string,要统计每个词出现
的次数。问题是,在极端条件下,分成若干个小job,分别处理,然后合并,(其实就是
map reduce),这种方法不work。比如,1000 billion的词可能完全不同,处理完一个
小job,输出的大小不会比输入小。 要求精确计算所有词的count。
已经说了,hash,rehash之类方法,可能产生collision,不够精确,面试官说不行。
已经说了,按字母排序或者分组,面试官说了太慢,不行。
已经说了,trie tree,随便几个长的string就把内存暴掉了,被面试官鄙视了。
请问,还有什么方法?
的次数。问题是,在极端条件下,分成若干个小job,分别处理,然后合并,(其实就是
map reduce),这种方法不work。比如,1000 billion的词可能完全不同,处理完一个
小job,输出的大小不会比输入小。 要求精确计算所有词的count。
已经说了,hash,rehash之类方法,可能产生collision,不够精确,面试官说不行。
已经说了,按字母排序或者分组,面试官说了太慢,不行。
已经说了,trie tree,随便几个长的string就把内存暴掉了,被面试官鄙视了。
请问,还有什么方法?