Redian新闻
>
发G店面面经(已挂),为即将到来的onsite求bless
avatar
发G店面面经(已挂),为即将到来的onsite求bless# JobHunting - 待字闺中
L*Y
1
申请的Fulltime, G, F都已挂。半年后再来。
F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
http://www.mitbbs.com/article_t0/JobHunting/32364859.html
G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
generation,一次关于BST),现发设计题:
1) -- 1 million scanned books. One book == 1 directory, each page is a file
in the directory
-- have OCR text for every page
-- no scanning mistakes: no skipped pages, no duplicate pages
OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
word recognized as two...
Find the same books.
2) -- we want to design a scalable web-crawling system
-- what are the major system components?
-- what considerations/tradeoffs would you make?
第二题虽然平时在平时读的paper中出现过, 但是这块还没认真思考过。当然,我还是
讲了下方法和我的理解。
总之,这次G,F都挂了。 没系统复习coding和design,平时太忙, 老板手下一堆活。
6月还有个会议的deadline,还在忙毕业。
将要面G,F的同学们都好好加油!!
好男儿下半年再来!请问6个月以后,可以重新申请对吧? 顺便为即将到来的onsite求
bless啦!!
avatar
s*s
2
听说G家是一年。
不是很确定。
加油!

file
one

【在 L****Y 的大作中提到】
: 申请的Fulltime, G, F都已挂。半年后再来。
: F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation,一次关于BST),现发设计题:
: 1) -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

avatar
L*Y
3
这次申请G,F没有找人refer,全是网投fresh graduate的full time的, 不过
recruiter效率都很高,第2,3天就联系了。
如果找人refer的话,冷冻期应该不会超过半年吧。

【在 s*******s 的大作中提到】
: 听说G家是一年。
: 不是很确定。
: 加油!
:
: file
: one

avatar
N*D
4
也是一年

【在 L****Y 的大作中提到】
: 这次申请G,F没有找人refer,全是网投fresh graduate的full time的, 不过
: recruiter效率都很高,第2,3天就联系了。
: 如果找人refer的话,冷冻期应该不会超过半年吧。

avatar
l*j
5
bless
avatar
S*Y
6
bless
avatar
d*x
7
大体搜了一下,text similarity居然好像没看到一个公认比较好的算法。。?我不是
业内的,不是特懂
不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
所以1)是不是应该先map-reduce做bigram count,视情况整合低频的bigram,然后按照
bigram count建立一个排序,再次用map-reduce排序?1 million本书,就算bigram两
两比较消耗很大,如果算法设计得好应该也不会比terasort慢吧。。。

file
one

【在 L****Y 的大作中提到】
: 申请的Fulltime, G, F都已挂。半年后再来。
: F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation,一次关于BST),现发设计题:
: 1) -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

avatar
K*y
8
这个例子里每本书的页数是准确的,每页的词数可能有一点偏差。或许可以先给每本书
整理一个每页词数的数组,10^6本书按页数分bucket,然后同一个bucket里两两比较算
内积或者root mean square error?相似的书可以进一步逐词对照比较。

【在 d**********x 的大作中提到】
: 大体搜了一下,text similarity居然好像没看到一个公认比较好的算法。。?我不是
: 业内的,不是特懂
: 不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
: 所以1)是不是应该先map-reduce做bigram count,视情况整合低频的bigram,然后按照
: bigram count建立一个排序,再次用map-reduce排序?1 million本书,就算bigram两
: 两比较消耗很大,如果算法设计得好应该也不会比terasort慢吧。。。
:
: file
: one

avatar
f*m
9
每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书?
file
one
avatar
T*3
10
edit distance 那得多大计算量啊

【在 f*********m 的大作中提到】
: 每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书?
: file
: one

avatar
c*s
11
Bless!
avatar
y*o
12
我脚的先比directory size排除不同的
然后是file count排除不同的
file count 一样的,比file size,one by one
95% file size一样的,随机抽几个file 比内容, 如果内容大概一样就是一本书了

【在 K********y 的大作中提到】
: 这个例子里每本书的页数是准确的,每页的词数可能有一点偏差。或许可以先给每本书
: 整理一个每页词数的数组,10^6本书按页数分bucket,然后同一个bucket里两两比较算
: 内积或者root mean square error?相似的书可以进一步逐词对照比较。

avatar
p*m
13
一般的书不是都有关于多少页的信息么?
那么OCR TEXT的结果中间应该也有这个信息了,那么首先可以根据这个大概的找到那些
folder里面的书的页数在这个范围呢。
在这个小范围内按页面顺序抽取一些页面做OCR,与OCR TEXT结果算WER,取top应该就
差不多了吧。

【在 y*******o 的大作中提到】
: 我脚的先比directory size排除不同的
: 然后是file count排除不同的
: file count 一样的,比file size,one by one
: 95% file size一样的,随机抽几个file 比内容, 如果内容大概一样就是一本书了

avatar
w*8
14
bless
avatar
M*r
15
Bless!

file
one

【在 L****Y 的大作中提到】
: 申请的Fulltime, G, F都已挂。半年后再来。
: F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation,一次关于BST),现发设计题:
: 1) -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。