最popular url的算法问题# JobHunting - 待字闺中
e*9
1 楼
一个很大的日志文件
每行有两个field,第一个field是url, 第二个field是userid
最popular url的定义是最多unique user去点的链接。
比如两个链接,第一个只有一个用户点,点了一千次。
第二个链接十个用户点,每人点了一次。
这样第二个链接更popular.
想了想怎么都是一个n * m的复杂度。
有什么更高效的处理算法吗?
每行有两个field,第一个field是url, 第二个field是userid
最popular url的定义是最多unique user去点的链接。
比如两个链接,第一个只有一个用户点,点了一千次。
第二个链接十个用户点,每人点了一次。
这样第二个链接更popular.
想了想怎么都是一个n * m的复杂度。
有什么更高效的处理算法吗?