avatar
p*o
1
某家on-site的一道题。
Find the most frequent character in a string.
Data: strings are composed of Unicode charaters, stored in 10 sets of 5GB
files on 10 different servers each with 2GB of memory.
Constraints: network communication is expensive.
Question: find the best algorithm.
avatar
m*g
2
hadoop word count?
avatar
Z*Z
3
MapReduce的思路吧,10台机器,每个负责数一个区间内的数。
基本算法就是每个机器读自己的文件,然后发送每个字符到相应的机器上。
要是想save network communication cost,可以每台机器把要发送的字符cache起来,
这样每个机器生成10个文件,然后把其中的9个发送到相应的主机上去。

【在 p*****o 的大作中提到】
: 某家on-site的一道题。
: Find the most frequent character in a string.
: Data: strings are composed of Unicode charaters, stored in 10 sets of 5GB
: files on 10 different servers each with 2GB of memory.
: Constraints: network communication is expensive.
: Question: find the best algorithm.

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。