avatar
m*a
1
如果给你big file, size much greater than memory,
in the file, each line contains
userId, pageIdVistedByUser
How do you generate the list of pageIds for each user?
must do it on one machine. not map reduce.
avatar
l*a
2
这个也能叫算法题?

【在 m********a 的大作中提到】
: 如果给你big file, size much greater than memory,
: in the file, each line contains
: userId, pageIdVistedByUser
: How do you generate the list of pageIds for each user?
: must do it on one machine. not map reduce.

avatar
m*a
3
是啊,面试官是这么说的。。。

【在 l*****a 的大作中提到】
: 这个也能叫算法题?
avatar
m*a
4
如果给你big file, size much greater than memory,
in the file, each line contains
userId, pageIdVistedByUser
it's not sorted, userId can occur multiple times in the file. How do you
generate the list of visitedPageIds for each user?
must do it on one machine. not map reduce.
avatar
l*a
5
这个也能叫算法题?

【在 m********a 的大作中提到】
: 如果给你big file, size much greater than memory,
: in the file, each line contains
: userId, pageIdVistedByUser
: it's not sorted, userId can occur multiple times in the file. How do you
: generate the list of visitedPageIds for each user?
: must do it on one machine. not map reduce.

avatar
m*a
6
是啊,面试官是这么说的。。。

【在 l*****a 的大作中提到】
: 这个也能叫算法题?
avatar
m*7
7
用(userID%n)来把所有的record分别存到n个文件里,这样同样的userID肯定在同一个
文件里,再分别处理每个文件就好了
avatar
s*w
8
这个没涉及算法啊
直接读文件,每个 userId 直接开个同名文件append pageID 进去
while read line
do
userID=$(echo "$line" | cut -d, -f1)
pageIDVistedByUser=$(echo "$line" | cut -d, -f2)
echo $pageIDVistedByUser >> userID
done < BigFile

【在 m********a 的大作中提到】
: 如果给你big file, size much greater than memory,
: in the file, each line contains
: userId, pageIdVistedByUser
: it's not sorted, userId can occur multiple times in the file. How do you
: generate the list of visitedPageIds for each user?
: must do it on one machine. not map reduce.

avatar
y*i
9
请问这种题目是面试哪种职位啊,楼上倒数第二行的userID应该前面加个$
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。