J*i
2 楼
可以往硬盘写数据吗?
c*b
5 楼
http://en.wikipedia.org/wiki/External_sorting
【在 l*********r 的大作中提到】
: 外排序用英文怎么说?
:
: 10k个
【在 l*********r 的大作中提到】
: 外排序用英文怎么说?
:
: 10k个
b*e
6 楼
嗯,肯定是要 Divide and Conquer 了
读文件的时候按照词的长度和前缀甄别一下,写入不同的子文件中,
每个子文件的前100再来比较一下就可以了。
子文件过大的时候还要继续甄别。
这个其实就是 Bucket sort,只不过用文件当Bucket。
10k个
【在 j*****u 的大作中提到】
: 可以外排,map-reduce
: 或者以下优化的近似解法:
: 词+出现次数=20byte
: 1M可以放50k个词了,假设hashtable是ideal的
: 比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
: item就drop频率低的一半,或者简单些用某一阈值
: 假设词在文件中出现相对均匀这个方法就可以work
读文件的时候按照词的长度和前缀甄别一下,写入不同的子文件中,
每个子文件的前100再来比较一下就可以了。
子文件过大的时候还要继续甄别。
这个其实就是 Bucket sort,只不过用文件当Bucket。
10k个
【在 j*****u 的大作中提到】
: 可以外排,map-reduce
: 或者以下优化的近似解法:
: 词+出现次数=20byte
: 1M可以放50k个词了,假设hashtable是ideal的
: 比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
: item就drop频率低的一半,或者简单些用某一阈值
: 假设词在文件中出现相对均匀这个方法就可以work
相关阅读
再次证明这些傻逼social media 公司是吃屎的会哭的孩子有奶喝, 大家一起来吧!!!!!! 更新媒体 (转载)大家都怎么提涨工资的事?求推荐工作。。。捉急回忆我唯一一次给老中面试漏题的经历。至今还记得hadoop engineer那位大牛上过九章算法强化班请教 FB 的 RSU refresh请教G家要被PIP了怎么应对?有娃妈转行当老师的吗?请问公司H1b审批时间有下限吗?twitter的tellApart组如何Gild 120入的,要不要抛?急招图形处理方面的C++/C软件工程师问一个FB的题【请问】contractor和全职职工有什么区别啊?求内推nvidia面试被各国人黑怎么办H1B生效前被裁员,如何保住名额??急求建议, 如何用一个offer去跟现在的老板 讨价还价?