[网flix]面经 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>JobHunting - 待字闺中

[网flix]面经

[网flix]面经# JobHunting - 待字闺中

H*e2012-03-02 08:03

1 楼

1。很多hadoop相关的问题，mapred整个流程，碰到过的出现的问题，设计有什么flaws
, hadoop和relational db的比较; speculative execution, 我知道这个机制，但是没
有跟名字对上号..就说没听说过。
2。mapreduce怎么实现select count group by; 如何一次mapred实现两个group by
(stduentId, courseId)
select count * from table group by studentId;
select count * from table group by courseId;
3。两个element加起来target的经典题
4。实现一个Boundedqueue,threadsafe,并且最佳化性能。
都答出来了，但是hadoop那些模糊问题的就答得不好。

d*w2012-03-02 08:03

2 楼

赞，关于第二题在hadoop中有个叫secondary sort，
在parittion时候可以使得键值组成的key，同样的键在同一个分区中。这样行么
map:
emit(pair, value>
partition:
super.partition(key.get(1))

flaws

【在 H***e 的大作中提到】

: 1。很多hadoop相关的问题，mapred整个流程，碰到过的出现的问题，设计有什么flaws
: , hadoop和relational db的比较; speculative execution, 我知道这个机制，但是没
: 有跟名字对上号..就说没听说过。
: 2。mapreduce怎么实现select count group by; 如何一次mapred实现两个group by
: (stduentId, courseId)
: select count * from table group by studentId;
: select count * from table group by courseId;
: 3。两个element加起来target的经典题
: 4。实现一个Boundedqueue,threadsafe,并且最佳化性能。
: 都答出来了，但是hadoop那些模糊问题的就答得不好。

H*e2012-03-02 08:03

3 楼

我就说了最简单的，每次map emit两次，一次key studentID value courseId
一次key course, value student, 最后都柔和在一个文件里了，再做些post
processing。他说good,也没说有问题.

【在 d********w 的大作中提到】

: 赞，关于第二题在hadoop中有个叫secondary sort，
: 在parittion时候可以使得键值组成的key，同样的键在同一个分区中。这样行么
: map:
: emit(pair, value>
: partition:
: super.partition(key.get(1))
:
: flaws