问一道Google面试题# JobHunting - 待字闺中d*82010-11-21 08:111 楼有一个很大的文件,里面有很多文本,文本里会出现很多人名(full name)。设计一个算法,把里面的所有人名找出来存到另一个数据结构里去。谢谢
a*92010-11-21 08:112 楼是要去掉重复的人名的意思么?可以考虑用MapReduce来做, 挺合适的【在 d***8 的大作中提到】: 有一个很大的文件,里面有很多文本,文本里会出现很多人名(full name)。: 设计一个算法,把里面的所有人名找出来存到另一个数据结构里去。: 谢谢
p*n2010-11-21 08:114 楼你总有一个人名的字典吧,每看到一个单词,看看是不是在这个字典里面,如果是的话就标记一下,然后都是人名的邻接单词都放到一个哈希表存起来。如果人名实在太多(比如说上亿),那只能分成几个区,分别处理。【在 d***8 的大作中提到】: 怎么从文本(可能有很多句子在里面)里面把人名找出来?: 用正则表达式吗?
g*s2010-11-21 08:115 楼这什么题啊?描述太模糊了。【在 d***8 的大作中提到】: 有一个很大的文件,里面有很多文本,文本里会出现很多人名(full name)。: 设计一个算法,把里面的所有人名找出来存到另一个数据结构里去。: 谢谢