用求模分组的方法统计IP访问频率最高的那题,不明白,求解惑# JobHunting - 待字闺中
r*n
1 楼
访问的IP的log 文件很大,比如10G,内存1G,所以不能放入内存;
于是用求模的方法比如模1024, 最多会有1024个小文件。
我的问题是是每个文件的大小的上限依然是不确定的,
比如一种情况是所有IP都是一样的,肯定所有的IP会被分到一个文件里,它的大小还是
10G,
这个方法起不到分而治之的作用,是不是我理解错了, 求解惑!
于是用求模的方法比如模1024, 最多会有1024个小文件。
我的问题是是每个文件的大小的上限依然是不确定的,
比如一种情况是所有IP都是一样的,肯定所有的IP会被分到一个文件里,它的大小还是
10G,
这个方法起不到分而治之的作用,是不是我理解错了, 求解惑!