Twitter 电面 - 未名空间MITBBS历史存档

c*n2015-01-28 08:01

1 楼

一位加拿大香港人面的
given a stream of hashtags, find out most frequent hashtag within last W
number of hashtags
应该就是 max sliding window 的变种
挂了 ...

t*i2015-01-28 08:01

2 楼

哪位牛人能不能给讲讲解法?

U*A2015-01-28 08:01

3 楼

题目都没有看懂

c*w2015-01-28 08:01

4 楼

用一个circular array存most recent W hashtags
用一个size不超过W的doubleLinkedList of
DLL_Node{
String hashtag;
int frequency;
DLL_Node prev, next;
}
存circular array里的unique hashtag和对应的frequency。并按frequency排序。
用一个HashMap来通过hashtag找到doubleLinkedList里对应的node。
扫进来一个已有的（或新的）hashtag，找到（或create）对应的node，frequency++，
然后比较prev.frequency。如果 > 就swap。repeat till <=
对被挤走的hashtag，frequency--,然后比较next.frequency。如果 < 就swap。repeat
till >=。为0则remove。

w*o2015-01-28 08:01

5 楼

http://www.geeksforgeeks.org/find-the-maximum-repeating-number-
O(n) time and O(1) extra space.
順便求Twitter內推.

b*52015-01-28 08:01

6 楼

not the same problem

【在 w**********o 的大作中提到】

: http://www.geeksforgeeks.org/find-the-maximum-repeating-number-
: O(n) time and O(1) extra space.
: 順便求Twitter內推.

n*52015-01-28 08:01

7 楼

用heap保持数量，用hashmap找点。

c*m2015-01-28 08:01

8 楼

感觉这样应该是对的，还得加一个queue记录最近的W个hashtag，每次有一个新的
hashtag来时，queue.pop_front()，从hashmap中找到index，再在heap中更新吧？

【在 n*****5 的大作中提到】

: 用heap保持数量，用hashmap找点。

s*d2015-01-28 08:01

9 楼

找frequency的部分用bucket（double linked）更好一些。每个node就是frequency是
某一个值的所有hashtag，这样每次操作只需要移动到相邻的bucket，或者创建新的
bucket（因为frequency只有加减1）。

node。

【在 c******w 的大作中提到】

: 用一个circular array存most recent W hashtags
: 用一个size不超过W的doubleLinkedList of
: DLL_Node{
: String hashtag;
: int frequency;
: DLL_Node prev, next;
: }
: 存circular array里的unique hashtag和对应的frequency。并按frequency排序。
: 用一个HashMap来通过hashtag找到doubleLinkedList里对应的node。
: 扫进来一个已有的（或新的）hashtag，找到（或create）对应的node，frequency++，

n*52015-01-28 08:01

10 楼

谢谢补充，你说的对。

【在 c*****m 的大作中提到】

: 感觉这样应该是对的，还得加一个queue记录最近的W个hashtag，每次有一个新的
: hashtag来时，queue.pop_front()，从hashmap中找到index，再在heap中更新吧？

c*w2015-01-28 08:01

11 楼

这个优化确实好!之前我就在想要是有一堆hashtags的frequency都一样那update就太
expensive了.
用bucket的话doubleLinkedList里面的node应该就是
DLL_Node{
DLL_Node prev, next;
HashSet hashtags;
int frequency;
}
这样一来每次update都只需要O(1)的操作.time complexity肯定比用heap要好了.

【在 s******d 的大作中提到】

: 找frequency的部分用bucket（double linked）更好一些。每个node就是frequency是
: 某一个值的所有hashtag，这样每次操作只需要移动到相邻的bucket，或者创建新的
: bucket（因为frequency只有加减1）。
:
: node。

U*A2015-01-28 08:01

12 楼

是要说以下想法还是要写代码？

g*v2015-01-28 08:01

13 楼

先建一个size为W的circular array，然后建立一个heap。
circular array的元素map to heap中的元素。
这样insert新元素的时候，复杂度是O(lgW)。

c*n2015-01-28 08:01

14 楼

一位加拿大香港人面的
given a stream of hashtags, find out most frequent hashtag within last W
number of hashtags
应该就是 max sliding window 的变种
挂了 ...

t*i2015-01-28 08:01

15 楼

哪位牛人能不能给讲讲解法?

U*A2015-01-28 08:01

16 楼

题目都没有看懂

c*w2015-01-28 08:01

17 楼

用一个circular array存most recent W hashtags
用一个size不超过W的doubleLinkedList of
DLL_Node{
String hashtag;
int frequency;
DLL_Node prev, next;
}
存circular array里的unique hashtag和对应的frequency。并按frequency排序。
用一个HashMap来通过hashtag找到doubleLinkedList里对应的node。
扫进来一个已有的（或新的）hashtag，找到（或create）对应的node，frequency++，
然后比较prev.frequency。如果 > 就swap。repeat till <=
对被挤走的hashtag，frequency--,然后比较next.frequency。如果 < 就swap。repeat
till >=。为0则remove。

w*o2015-01-28 08:01

18 楼

http://www.geeksforgeeks.org/find-the-maximum-repeating-number-
O(n) time and O(1) extra space.
順便求Twitter內推.

b*52015-01-28 08:01

19 楼

not the same problem

【在 w**********o 的大作中提到】

: http://www.geeksforgeeks.org/find-the-maximum-repeating-number-
: O(n) time and O(1) extra space.
: 順便求Twitter內推.

n*52015-01-28 08:01

20 楼

用heap保持数量，用hashmap找点。

c*m2015-01-28 08:01

21 楼

感觉这样应该是对的，还得加一个queue记录最近的W个hashtag，每次有一个新的
hashtag来时，queue.pop_front()，从hashmap中找到index，再在heap中更新吧？

【在 n*****5 的大作中提到】

: 用heap保持数量，用hashmap找点。

s*d2015-01-28 08:01

22 楼

找frequency的部分用bucket（double linked）更好一些。每个node就是frequency是
某一个值的所有hashtag，这样每次操作只需要移动到相邻的bucket，或者创建新的
bucket（因为frequency只有加减1）。

node。

【在 c******w 的大作中提到】

: 用一个circular array存most recent W hashtags
: 用一个size不超过W的doubleLinkedList of
: DLL_Node{
: String hashtag;
: int frequency;
: DLL_Node prev, next;
: }
: 存circular array里的unique hashtag和对应的frequency。并按frequency排序。
: 用一个HashMap来通过hashtag找到doubleLinkedList里对应的node。
: 扫进来一个已有的（或新的）hashtag，找到（或create）对应的node，frequency++，

n*52015-01-28 08:01

23 楼

谢谢补充，你说的对。

【在 c*****m 的大作中提到】

: 感觉这样应该是对的，还得加一个queue记录最近的W个hashtag，每次有一个新的
: hashtag来时，queue.pop_front()，从hashmap中找到index，再在heap中更新吧？

c*w2015-01-28 08:01

24 楼

这个优化确实好!之前我就在想要是有一堆hashtags的frequency都一样那update就太
expensive了.
用bucket的话doubleLinkedList里面的node应该就是
DLL_Node{
DLL_Node prev, next;
HashSet hashtags;
int frequency;
}
这样一来每次update都只需要O(1)的操作.time complexity肯定比用heap要好了.

【在 s******d 的大作中提到】

: 找frequency的部分用bucket（double linked）更好一些。每个node就是frequency是
: 某一个值的所有hashtag，这样每次操作只需要移动到相邻的bucket，或者创建新的
: bucket（因为frequency只有加减1）。
:
: node。

U*A2015-01-28 08:01

25 楼

是要说以下想法还是要写代码？

g*v2015-01-28 08:01

26 楼

先建一个size为W的circular array，然后建立一个heap。
circular array的元素map to heap中的元素。
这样insert新元素的时候，复杂度是O(lgW)。

f*c2015-01-28 08:01

27 楼

这样改了DLL_NODE之后，HashMap也要相应修改是吗？

【在 c******w 的大作中提到】

: 这个优化确实好!之前我就在想要是有一堆hashtags的frequency都一样那update就太
: expensive了.
: 用bucket的话doubleLinkedList里面的node应该就是
: DLL_Node{
: DLL_Node prev, next;
: HashSet hashtags;
: int frequency;
: }
: 这样一来每次update都只需要O(1)的操作.time complexity肯定比用heap要好了.

S*w2015-01-28 08:01

28 楼

太难了题目都看不懂

【在 c********n 的大作中提到】

: 一位加拿大香港人面的
: given a stream of hashtags, find out most frequent hashtag within last W
: number of hashtags
: 应该就是 max sliding window 的变种
: 挂了 ...

i*e2015-01-28 08:01

29 楼

用bucket是不是可以放弃double linked list直接上array就好了，array size = W，
index = frequency - 1. 这样是不是省点事？hashmap works as inverted index,
key = hashtag, value = index of bucket array

【在 c******w 的大作中提到】

: 这个优化确实好!之前我就在想要是有一堆hashtags的frequency都一样那update就太
: expensive了.
: 用bucket的话doubleLinkedList里面的node应该就是
: DLL_Node{
: DLL_Node prev, next;
: HashSet hashtags;
: int frequency;
: }
: 这样一来每次update都只需要O(1)的操作.time complexity肯定比用heap要好了.

c*82015-01-28 08:01

30 楼

想问问如果用heap的话，如何在hashtag在window中消失的时候（也就是frequency为0
的时候）删除head里的这个hashtag节点呢？

【在 c*****m 的大作中提到】

: 感觉这样应该是对的，还得加一个queue记录最近的W个hashtag，每次有一个新的
: hashtag来时，queue.pop_front()，从hashmap中找到index，再在heap中更新吧？

j*32015-01-28 08:01

31 楼

没看懂题，谁能解释一下