贴道题目 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>JobHunting - 待字闺中

贴道题目

贴道题目# JobHunting - 待字闺中

k*e2009-12-25 08:12

1 楼

google interview question from glassdoor
Design and describe a system/application that will most efficiently produce
a report of the top 1 million Google search requests. You are given:
You are given 12 servers to work with. They are all dual-processor machines
with 4Gb of RAM, 4x400GB hard drives and networked together.(Basically,
nothing more than high-end PC's)
The log data has already been cleaned for you. It consists of 100 Billion
log lines, broken down into 12 320 GB files of 40-byte sear

g*y2009-12-25 08:12

2 楼

这个题目挺好的，顶上来大家讨论下。
我觉得用hash来count occurence应该是需要做的吧，有了hash file(may be
distributed across servers)之后就很简单了。
不过对于多servers的大系统如何高效的实现hash？单独的server算自己的hash，再跟
其他server通讯，merge hash file？
有个问题是，因为hash file太大，肯定是要写到disk上的文件，不可能在mem里面装下
，这样就涉及到一个disk write的问题，read时连续地址的item对应在hash表里的地址
都是不连续，而高效的disk write要求一次写入一个large chunk的data，如果你每次
只能disk write一个10Byte的数据，岂不是效率太低了？怎么解决这个问题？

M*a2009-12-25 08:12

3 楼

这边cs的人很多啊...
怎么没有几个贴ee的题目呢？

p*72009-12-25 08:12

4 楼

disk write一个10Byte的数据，为啥是10Bytes。
对了 merge hash file需要排序再merge么？

【在 g*******y 的大作中提到】

: 这个题目挺好的，顶上来大家讨论下。
: 我觉得用hash来count occurence应该是需要做的吧，有了hash file(may be
: distributed across servers)之后就很简单了。
: 不过对于多servers的大系统如何高效的实现hash？单独的server算自己的hash，再跟
: 其他server通讯，merge hash file？
: 有个问题是，因为hash file太大，肯定是要写到disk上的文件，不可能在mem里面装下
: ，这样就涉及到一个disk write的问题，read时连续地址的item对应在hash表里的地址
: 都是不连续，而高效的disk write要求一次写入一个large chunk的data，如果你每次
: 只能disk write一个10Byte的数据，岂不是效率太低了？怎么解决这个问题？