Redian新闻
>
现在哪里找35L的新头?
avatar
现在哪里找35L的新头?# PhotoGear - 摄影器材
c*u
1
假设这个query log分布在很多台机器上
在每个机器上上做词频统计,然后归拢排序起来求出top3, 同时在每个机器上有个线程
每几秒种去踢掉一些expire的词频,同时加入新搜索的词频?大致这么个过程?
请教各位大牛 有什么高招,谢谢
avatar
s*s
2
国内的同学要带。。。。
avatar
c*a
3
在每个机器上上做词频统计,然后归拢排序起来求出top3---这个同意,但基本可以
确定不能在一台机上归拢,得partition。
每几秒踢这个不同意。超过一小时的都得踢,最少每秒就得踢一次。
但如果这样一直踢又不scalable了,明儿要找2小时、24小时内的top3,你得等1、23个
小时build数据才能做。
我也没有好解法,问了问室友,说拿b tree,一边aggreate很多info在每个节点。想不
通。。。
avatar
d*0
4
newegg不时有deal
avatar
c*a
5
换个角度想,如果是个sql数据库,5min 10min 任何时段,一个sql就搞定了。
sql的底层数据结构就是b+树,说不定真可以那么搞。。。
avatar
T*t
6
记得带徕卡,把机票钱赚回来
avatar
c*u
7
每次查询都要load一次数据库。。。。
更不scalable了啊

【在 c******a 的大作中提到】
: 换个角度想,如果是个sql数据库,5min 10min 任何时段,一个sql就搞定了。
: sql的底层数据结构就是b+树,说不定真可以那么搞。。。

avatar
A*o
8
用3个deque, 3个histogram,query来的时候去查histogram,time out 或者 数据来的
时候更新 deque 和 histogram
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。