Redian新闻
>
请教中信银行 代签 的邀请信
avatar
请教中信银行 代签 的邀请信# Reunion - 探亲与陪读
l*r
1
google 的phone screen
1. fib sequence, coding.
2. how to find duplicate documents from a large corpus of files
3. how to tell if a query word/phrase have multiple semantic meaning from
the query log.
当时答的时候感觉还可以,最后还是失败了。
第一次发言,回馈大家了。
avatar
p*u
2
父母第二次来,我看到以前的大牛所需要推荐信。
请教最近帮过的同学们,
这个邀请信,是用本人和太太写的邀请信呢?还是我们学校出的邀请信?
还是两个都要?
谢谢!
avatar
g*y
3
comfort lz!
get more practice and you will get an offer soon!
avatar
j*4
5
失败的话会发据信么,我周二面的,现在还没有消息
avatar
H*M
6
how long does it take to get feedback?

【在 l*********r 的大作中提到】
: google 的phone screen
: 1. fib sequence, coding.
: 2. how to find duplicate documents from a large corpus of files
: 3. how to tell if a query word/phrase have multiple semantic meaning from
: the query log.
: 当时答的时候感觉还可以,最后还是失败了。
: 第一次发言,回馈大家了。

avatar
l*r
7
mine took about 3 days. No news is better than bad news.
avatar
r*o
8
cft,
第2题找重复的文档光查文件名是否重名行吗?
第3题semantic meaning是啥意思啊?

【在 l*********r 的大作中提到】
: google 的phone screen
: 1. fib sequence, coding.
: 2. how to find duplicate documents from a large corpus of files
: 3. how to tell if a query word/phrase have multiple semantic meaning from
: the query log.
: 当时答的时候感觉还可以,最后还是失败了。
: 第一次发言,回馈大家了。

avatar
r*g
9

可能名字不重复,内容重复吧,比如aaa.txt <===> aaa_copy.txt <===> aaa_1.txt...
我觉得:
1. 比较大小
2. 相同的,random index select, mod (large prime number) , programming
pearls上貌似有介绍选择多少个字符后判断出错的概率。这样大部分的不同文件都被排
除了。
3. 如果还是一样,那两个文档可能只是有非常微小的差别,只能顺序较了吧
同不明白....可能是我search一个词,比如“hot spring", 可能对应了“温泉”和“
春天(和天气相关)”两种不同的page index,这种情况可能就得判断到底提供哪个
query的result。这个不太懂,不知道怎么做。。。

【在 r****o 的大作中提到】
: cft,
: 第2题找重复的文档光查文件名是否重名行吗?
: 第3题semantic meaning是啥意思啊?

avatar
a*t
10
请问搂主怎么回答的?

【在 l*********r 的大作中提到】
: google 的phone screen
: 1. fib sequence, coding.
: 2. how to find duplicate documents from a large corpus of files
: 3. how to tell if a query word/phrase have multiple semantic meaning from
: the query log.
: 当时答的时候感觉还可以,最后还是失败了。
: 第一次发言,回馈大家了。

avatar
C*n
11
2. 前面有人回答有道理,先比较大小,再检查内容。但是问题是一个很大的文件库要
做到两两比较会很费时间。也许可以用 hash表,
3. query log有用户的click信息, 如果同一个query发现不同用户click的网页有很大
区别,就会提供很好的线索说明query有多种semantic meaning.

【在 l*********r 的大作中提到】
: google 的phone screen
: 1. fib sequence, coding.
: 2. how to find duplicate documents from a large corpus of files
: 3. how to tell if a query word/phrase have multiple semantic meaning from
: the query log.
: 当时答的时候感觉还可以,最后还是失败了。
: 第一次发言,回馈大家了。

avatar
k*s
12
第二题就是给每一个文件checksum一下就好了。最基本的checksum的算法就是把文件的
每个word XOR.但是这样不是很精确,比如word order不一样就检查不出来。 复杂一点
的比如CRC算法,时间长一些,但是更精确。最后把XOR的值相等的文件分组就好了。
avatar
k*n
13

...
size+md5, and consider MR if corpus is too large
This is interesting... I don't think search result will be acommpanied...
my solution:
1. find synset, usually nearby queries tend to be synonyms, so
for each query bigram, count their occurrence, set a threshold
for indicating a pair of synonyms
2. judge multiple meanings via synonyms, that is : a ~ b, and a ~ c
then a is likely to be candidate...
英语太差,所以更得献丑来练练了,bow

【在 r********g 的大作中提到】
:
: 可能名字不重复,内容重复吧,比如aaa.txt <===> aaa_copy.txt <===> aaa_1.txt...
: 我觉得:
: 1. 比较大小
: 2. 相同的,random index select, mod (large prime number) , programming
: pearls上貌似有介绍选择多少个字符后判断出错的概率。这样大部分的不同文件都被排
: 除了。
: 3. 如果还是一样,那两个文档可能只是有非常微小的差别,只能顺序较了吧
: 同不明白....可能是我search一个词,比如“hot spring", 可能对应了“温泉”和“
: 春天(和天气相关)”两种不同的page index,这种情况可能就得判断到底提供哪个

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。