发G店面面经（已挂），为即将到来的onsite求bless - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>JobHunting - 待字闺中

发G店面面经（已挂），为即将到来的onsite求bless

发G店面面经（已挂），为即将到来的onsite求bless# JobHunting - 待字闺中

L*Y2013-03-28 07:03

1 楼

申请的Fulltime, G， F都已挂。半年后再来。
F一面了3道题后挂，前2道coding题目应该比较常见，第三道coding题见这：
http://www.mitbbs.com/article_t0/JobHunting/32364859.html
G两次后挂，每次都有设计题。coding题目反而比较简单(一次关于frequency
generation，一次关于BST)，现发设计题：
1） -- 1 million scanned books. One book == 1 directory, each page is a file
in the directory
-- have OCR text for every page
-- no scanning mistakes: no skipped pages, no duplicate pages
OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
word recognized as two...
Find the same books.
2) -- we want to design a scalable web-crawling system
-- what are the major system components?
-- what considerations/tradeoffs would you make?
第二题虽然平时在平时读的paper中出现过，但是这块还没认真思考过。当然，我还是
讲了下方法和我的理解。
总之，这次G，F都挂了。没系统复习coding和design，平时太忙，老板手下一堆活。
6月还有个会议的deadline，还在忙毕业。
将要面G，F的同学们都好好加油！！
好男儿下半年再来！请问6个月以后，可以重新申请对吧？顺便为即将到来的onsite求
bless啦！！

s*s2013-03-28 07:03

2 楼

听说G家是一年。
不是很确定。
加油！

file
one

【在 L****Y 的大作中提到】

: 申请的Fulltime, G， F都已挂。半年后再来。
: F一面了3道题后挂，前2道coding题目应该比较常见，第三道coding题见这：
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂，每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation，一次关于BST)，现发设计题：
: 1） -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

L*Y2013-03-28 07:03

3 楼

这次申请G，F没有找人refer，全是网投fresh graduate的full time的，不过
recruiter效率都很高，第2，3天就联系了。
如果找人refer的话，冷冻期应该不会超过半年吧。

【在 s*******s 的大作中提到】

: 听说G家是一年。
: 不是很确定。
: 加油！
:
: file
: one

N*D2013-03-28 07:03

4 楼

也是一年

【在 L****Y 的大作中提到】

: 这次申请G，F没有找人refer，全是网投fresh graduate的full time的，不过
: recruiter效率都很高，第2，3天就联系了。
: 如果找人refer的话，冷冻期应该不会超过半年吧。

l*j2013-03-28 07:03

5 楼

bless

S*Y2013-03-28 07:03

6 楼

bless

d*x2013-03-28 07:03

7 楼

大体搜了一下，text similarity居然好像没看到一个公认比较好的算法。。？我不是
业内的，不是特懂
不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
所以1)是不是应该先map-reduce做bigram count，视情况整合低频的bigram，然后按照
bigram count建立一个排序，再次用map-reduce排序？1 million本书，就算bigram两
两比较消耗很大，如果算法设计得好应该也不会比terasort慢吧。。。

file
one

【在 L****Y 的大作中提到】

K*y2013-03-28 07:03

8 楼

这个例子里每本书的页数是准确的，每页的词数可能有一点偏差。或许可以先给每本书
整理一个每页词数的数组，10^6本书按页数分bucket，然后同一个bucket里两两比较算
内积或者root mean square error？相似的书可以进一步逐词对照比较。

【在 d**********x 的大作中提到】

: 大体搜了一下，text similarity居然好像没看到一个公认比较好的算法。。？我不是
: 业内的，不是特懂
: 不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
: 所以1)是不是应该先map-reduce做bigram count，视情况整合低频的bigram，然后按照
: bigram count建立一个排序，再次用map-reduce排序？1 million本书，就算bigram两
: 两比较消耗很大，如果算法设计得好应该也不会比terasort慢吧。。。
:
: file
: one

f*m2013-03-28 07:03

9 楼

每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书？
file
one

T*32013-03-28 07:03

10 楼

edit distance 那得多大计算量啊

【在 f*********m 的大作中提到】

: 每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书？
: file
: one

c*s2013-03-28 07:03

11 楼

Bless!

y*o2013-03-28 07:03

12 楼

我脚的先比directory size排除不同的
然后是file count排除不同的
file count 一样的，比file size，one by one
95% file size一样的，随机抽几个file 比内容，如果内容大概一样就是一本书了

【在 K********y 的大作中提到】

: 这个例子里每本书的页数是准确的，每页的词数可能有一点偏差。或许可以先给每本书
: 整理一个每页词数的数组，10^6本书按页数分bucket，然后同一个bucket里两两比较算
: 内积或者root mean square error？相似的书可以进一步逐词对照比较。

p*m2013-03-28 07:03

13 楼

一般的书不是都有关于多少页的信息么？
那么OCR TEXT的结果中间应该也有这个信息了，那么首先可以根据这个大概的找到那些
folder里面的书的页数在这个范围呢。
在这个小范围内按页面顺序抽取一些页面做OCR，与OCR TEXT结果算WER，取top应该就
差不多了吧。

【在 y*******o 的大作中提到】

: 我脚的先比directory size排除不同的
: 然后是file count排除不同的
: file count 一样的，比file size，one by one
: 95% file size一样的，随机抽几个file 比内容，如果内容大概一样就是一本书了

w*82013-03-28 07:03

14 楼

bless

M*r2013-03-28 07:03

15 楼

Bless!

file
one

【在 L****Y 的大作中提到】