J*i
2 楼
可以往硬盘写数据吗?
c*b
5 楼
http://en.wikipedia.org/wiki/External_sorting
【在 l*********r 的大作中提到】
: 外排序用英文怎么说?
:
: 10k个
【在 l*********r 的大作中提到】
: 外排序用英文怎么说?
:
: 10k个
b*e
6 楼
嗯,肯定是要 Divide and Conquer 了
读文件的时候按照词的长度和前缀甄别一下,写入不同的子文件中,
每个子文件的前100再来比较一下就可以了。
子文件过大的时候还要继续甄别。
这个其实就是 Bucket sort,只不过用文件当Bucket。
10k个
【在 j*****u 的大作中提到】
: 可以外排,map-reduce
: 或者以下优化的近似解法:
: 词+出现次数=20byte
: 1M可以放50k个词了,假设hashtable是ideal的
: 比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
: item就drop频率低的一半,或者简单些用某一阈值
: 假设词在文件中出现相对均匀这个方法就可以work
读文件的时候按照词的长度和前缀甄别一下,写入不同的子文件中,
每个子文件的前100再来比较一下就可以了。
子文件过大的时候还要继续甄别。
这个其实就是 Bucket sort,只不过用文件当Bucket。
10k个
【在 j*****u 的大作中提到】
: 可以外排,map-reduce
: 或者以下优化的近似解法:
: 词+出现次数=20byte
: 1M可以放50k个词了,假设hashtable是ideal的
: 比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
: item就drop频率低的一半,或者简单些用某一阈值
: 假设词在文件中出现相对均匀这个方法就可以work
相关阅读
Facebook的Intern 申请页面一submit就出错2018年海归是不是相当于1948年加入国民党?感想在美国一定要白字黑字职场铁律——要做狠心的婊子ASIC前景看这个HR的主动email,是有戏?还是没戏?刷题游戏搭配,干活不累google could 还有组招人吗?Re: 哪位给介绍unlimited paid time off 是个甚么情况?好几次onsite都差点死掉Independent contractor是怎么样的一种工作在HR面前做自我介绍时,自己都想吐了妈的本来以为米帝在衰败中,没想到中帝更不争气老板说他看上了你女朋友最近面试的小孩一些事Re: 【面经】我刚拿了三个offer——Google、Facebook、UberIntel Graphics team内推跳槽求建议版上现在还有帮忙google内推的前辈吗?知道很难,但必须学会move on after onsite