请教entrepreneurship-based fellowship# Biology - 生物学
b*n
1 楼
you have a billion google searches a day, design a data structure which
lets you pull out the top 100 unique ones at the end of the day.
我的想法是create hashtable
scan billion data 一次,在hashtable纪录每个query的次数
然后再scan billion data一次,通过heap和hashtable找到top 100
不过这样的话,billion data会被scan 2次,disk i/o会很大
不知道有没有什么scan billion data一次就可以找到top 100的办法
大家讨论一下
lets you pull out the top 100 unique ones at the end of the day.
我的想法是create hashtable
scan billion data 一次,在hashtable纪录每个query的次数
然后再scan billion data一次,通过heap和hashtable找到top 100
不过这样的话,billion data会被scan 2次,disk i/o会很大
不知道有没有什么scan billion data一次就可以找到top 100的办法
大家讨论一下