Redian新闻
>
【包子】去手机计划版抢包子去啊
avatar
【包子】去手机计划版抢包子去啊# PDA - 掌中宝
l*n
1
1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估算
时间
avatar
a*o
2
难道真的试完了回关门整顿修改下,还是说给自己刚开张手忙脚乱找个逃避指责的借口?
不理解
avatar
j*3
4
co ask
avatar
z*n
5
你可以试交费

口?

【在 a******o 的大作中提到】
: 难道真的试完了回关门整顿修改下,还是说给自己刚开张手忙脚乱找个逃避指责的借口?
: 不理解

avatar
w*t
6
分块, 然后归并排序吧.
nlogn.
"1PB数据排序", 后面还有个"10T数据",这个啥意思?
avatar
a*o
7
试吃

【在 z*********n 的大作中提到】
: 你可以试交费
:
: 口?

avatar
b*e
8
just bucket sort.
avatar
s*s
9
营业测试期
avatar
l*n
10
分块,然后归并排序会不会太慢?
10T数据是指硬盘空间是10T
总共1PB也就是需要100台机器

【在 w*****t 的大作中提到】
: 分块, 然后归并排序吧.
: nlogn.
: "1PB数据排序", 后面还有个"10T数据",这个啥意思?

avatar
l*n
11
bucket sort行不通,你看题目中数字范围是2^64
任何一个内存都放不下这个range的数字

【在 b******e 的大作中提到】
: just bucket sort.
avatar
l*n
12
如果用 Hadoop 来 MapReduce 怎么做这题?
avatar
w*t
13
这样的话就是并行处理了, 每台机器先将本机的数据排好序,最后再做多机的两两归
并。
如果预先知道重复元素比较多的话,可以考虑用{int64 value:int64 count}来节省内
存占用。

【在 l*****n 的大作中提到】
: 分块,然后归并排序会不会太慢?
: 10T数据是指硬盘空间是10T
: 总共1PB也就是需要100台机器

avatar
w*d
14
mark
avatar
f*y
15
"如果用 Hadoop 来 MapReduce 怎么做这题?"
这个就太简单了,map生产以这个些数值为key的pair,
到reduce,其实啥都不做,直接输出这个值。当然有没有重复value要注意下。
因为“sort”过程被shuffle过程完成了(hadoop默认内存是quick sort,然后加上多
轮merge sort)。
你只要定义什么做key就行了。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。