avatar
f*m
1
从“秒杀。。。”看来的,不解其意。
题目:非常大的文件,装不进内存。每行一个int类型数据,现在要你随机取100个数。
文章说“可以按照操作系统中的方法,先生成4G的地址表,在把这个表划分为小的4M的
小文件做个索引,二级索引。30位前十位表示第几个4M文件,后20位表示在这个4M文件
的第几个,等等,基于key value来设计存储,用key来建索引。”
是不是说这个4G的地址表每一个地址存放一个int?但int数目大于4G怎么办?另外,随
机数generator的范围是多少,是0~4G吗?还是要用generator好几次,每次对应不同的
位?
谢谢。
avatar
k*e
2
$2000 New D700. Is this one a scam?
avatar
o*d
3
why not use "reservoir sampling"?
p.s. what's the title of that "秒杀" book?
avatar
f*m
4
why not use "reservoir sampling"?
数据海量,loop一边很费时间,还是在表中查找方便。
http://blog.csdn.net/v_july_v/article/details/7382693

【在 o***d 的大作中提到】
: why not use "reservoir sampling"?
: p.s. what's the title of that "秒杀" book?

avatar
f*m
5
顶,请赐教。

【在 f*********m 的大作中提到】
: 从“秒杀。。。”看来的,不解其意。
: 题目:非常大的文件,装不进内存。每行一个int类型数据,现在要你随机取100个数。
: 文章说“可以按照操作系统中的方法,先生成4G的地址表,在把这个表划分为小的4M的
: 小文件做个索引,二级索引。30位前十位表示第几个4M文件,后20位表示在这个4M文件
: 的第几个,等等,基于key value来设计存储,用key来建索引。”
: 是不是说这个4G的地址表每一个地址存放一个int?但int数目大于4G怎么办?另外,随
: 机数generator的范围是多少,是0~4G吗?还是要用generator好几次,每次对应不同的
: 位?
: 谢谢。

avatar
r*g
6
啥叫随机取100个数?random generate 100 个 index?
Build index也要时间啊,还能比reservior快?这题出的糊涂
avatar
f*m
7
我想是说从文件里随机采样100个数。
若是能把文件中的每个数的所在的内存地址估计出来,那么也许能用到答案所说的方法?

【在 r**********g 的大作中提到】
: 啥叫随机取100个数?random generate 100 个 index?
: Build index也要时间啊,还能比reservior快?这题出的糊涂

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。