这个题目该怎么做 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>JobHunting - 待字闺中

这个题目该怎么做

这个题目该怎么做# JobHunting - 待字闺中

L*32015-02-18 08:02

1 楼

c*82015-02-18 08:02

2 楼

大量的streaming message，每个message有两个fields，第一个是company name，第二
个是这个message产生的时间（如12:01 02/18/2015），现在需要做到查询像前1分钟内
，前15 minutes内，1小时内，1天内，或者一个月内产生的messages数量在Top k 的
company. 由于message数量可能非常大，如何设计一个数据结构使得处理数据还有查询
top k的效率尽可能高，而且使用的store memory也尽量小？不属于distributed
computing的范畴，只考虑一天机器就行。多谢！

c*82015-02-18 08:02

3 楼

只需要思路就行，不需要coding，大家有idea么？多谢哈。

w*m2015-02-18 08:02

4 楼

建立一个queue，随时间轴移动，补充新值得时候，pop掉超过一个月的。
建立一个hash table作为counter，随时更新queue的数据。
建立一个priority queue，把hash table的key和value扔进去。从里面读topK的key和
value。

c*82015-02-18 08:02

5 楼

可是要求不能删数据，因为他有可能要知道一年内的，或者所有时间的。

【在 w********m 的大作中提到】

: 建立一个queue，随时间轴移动，补充新值得时候，pop掉超过一个月的。
: 建立一个hash table作为counter，随时更新queue的数据。
: 建立一个priority queue，把hash table的key和value扔进去。从里面读topK的key和
: value。

T*u2015-02-18 08:02

6 楼

数据是time order的吗

c*82015-02-18 08:02

7 楼

数据应该是按时间过来的，因为是streaming的。

【在 T*****u 的大作中提到】

: 数据是time order的吗

w*s2015-02-18 08:02

8 楼

mark

m*n2015-02-18 08:02

9 楼

这个题，设计方法很多阿。
具体要问清楚要求。
比如，要求的精度是多少，精度越高，内存就会越大。
查询频率如何，这个和精度是相关的，如果每秒查询一次，精度要求在毫秒量级，内存
不可能很小。
还有，1分钟的查询和1天的查询，精度可以不同的话，就分层设计可以省下很多内存。

【在 c****8 的大作中提到】

: 大量的streaming message，每个message有两个fields，第一个是company name，第二
: 个是这个message产生的时间（如12:01 02/18/2015），现在需要做到查询像前1分钟内
: ，前15 minutes内，1小时内，1天内，或者一个月内产生的messages数量在Top k 的
: company. 由于message数量可能非常大，如何设计一个数据结构使得处理数据还有查询
: top k的效率尽可能高，而且使用的store memory也尽量小？不属于distributed
: computing的范畴，只考虑一天机器就行。多谢！

c*82015-02-18 08:02

10 楼

我后来也是问了题目，好像精度要求只要分钟就行。

【在 m*****n 的大作中提到】

: 这个题，设计方法很多阿。
: 具体要问清楚要求。
: 比如，要求的精度是多少，精度越高，内存就会越大。
: 查询频率如何，这个和精度是相关的，如果每秒查询一次，精度要求在毫秒量级，内存
: 不可能很小。
: 还有，1分钟的查询和1天的查询，精度可以不同的话，就分层设计可以省下很多内存。

c*82015-02-18 08:02

11 楼

如果精度到分钟，怎么设计更好？