请教entrepreneurship-based fellowship - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Biology - 生物学

请教entrepreneurship-based fellowship

请教entrepreneurship-based fellowship# Biology - 生物学

b*n2010-12-21 08:12

1 楼

you have a billion google searches a day, design a data structure which
lets you pull out the top 100 unique ones at the end of the day.
我的想法是create hashtable
scan billion data 一次，在hashtable纪录每个query的次数
然后再scan billion data一次,通过heap和hashtable找到top 100
不过这样的话,billion data会被scan 2次，disk i/o会很大
不知道有没有什么scan billion data一次就可以找到top 100的办法
大家讨论一下

w*i2010-12-21 08:12

2 楼

lz准备去签j1，家属因为还没有找到合适的博后，准备过去接着找。不想j2怕以后万一
需要豁免之类的，两个人绑在一起麻烦。那么lz和家属同时去签证，一个j1一个b会有
问题吗？就说是送lz过去安顿一下，顺便旅游？
还有一种就是lz先去j1, 家属再去b。但如果此时lz还在check，估计vo也会问lz的情况
，会容易有问题吗？
多谢！

s*n2010-12-21 08:12

3 楼

办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

w*e2010-12-21 08:12

4 楼

都有哪些？我就知道一个koffman foudation。以前UC也有个类似的，等我
想申的时候刚好倒闭了：（

b*n2010-12-21 08:12

5 楼

能简单说一下吗？
只用heap,不用hash吗？

m*32010-12-21 08:12

6 楼

baozi

b*n2010-12-21 08:12

7 楼

hash_table可以iterate吗？
我怎么记得c++里面hash_table是不可以iterate的
另外，hash_table可以distribute到多个机器上吗？

m*32010-12-21 08:12

8 楼

you should be fine

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

g*y2010-12-21 08:12

9 楼

你发现我删贴了没，我的方法不对
iterate是没有问题的吧，你可以自己写hash，比如说是数组挂链表那种。
有个问题的是，如果10billion里面，前面7billion都是不同的只出现1次的query，那
就很麻烦了。这样你的hash至少也是这个量级！
当然，如果query的平均出现次数都很多的话，hash就可以解决了。

【在 b*********n 的大作中提到】

: hash_table可以iterate吗？
: 我怎么记得c++里面hash_table是不可以iterate的
: 另外，hash_table可以distribute到多个机器上吗？

a*x2010-12-21 08:12

10 楼

chi

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

J*d2010-12-21 08:12

11 楼

不太理解LZ的做法，能不能给解释一下？
如果top 100个query其实也就query了10次以内。
1 billion search里面的hash value有大量重合的怎么办？
如何确定哪些是top 100呢？
还是我理解错LZ的意思了。

【在 b*********n 的大作中提到】

: you have a billion google searches a day, design a data structure which
: lets you pull out the top 100 unique ones at the end of the day.
: 我的想法是create hashtable
: scan billion data 一次，在hashtable纪录每个query的次数
: 然后再scan billion data一次,通过heap和hashtable找到top 100
: 不过这样的话,billion data会被scan 2次，disk i/o会很大
: 不知道有没有什么scan billion data一次就可以找到top 100的办法
: 大家讨论一下

w*d2010-12-21 08:12

12 楼

不知道，帮顶。

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

n*e2010-12-21 08:12

13 楼

经典老题了
median of medians, 自己google吧。

z*u2010-12-21 08:12

14 楼

should be OK!

g*y2010-12-21 08:12

15 楼

你指的是linear k-th element selection algorithm? 是的话，明显不对啊。

【在 n****e 的大作中提到】

: 经典老题了
: median of medians, 自己google吧。

i*t2010-12-21 08:12

16 楼

gongxi a

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

R*n2010-12-21 08:12

17 楼

第二次直接 iterate hash table 里的 key就可以了。用 a heap keeps the top 100.
真正做的时候直接上map-reduce了

d*02010-12-21 08:12

18 楼

祝福楼主

R*n2010-12-21 08:12

19 楼

第二次直接 iterate hash table 里的 key就可以了。用 a heap keeps the top 100.
真正做的时候直接上map-reduce了

d*y2010-12-21 08:12

20 楼

baozi

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

M*y2010-12-21 08:12

21 楼

bless

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

J*12010-12-21 08:12

22 楼

pai

m*n2010-12-21 08:12

23 楼

排包子！

H*V2010-12-21 08:12

24 楼

probably no, the AP takes months to process

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

p*02010-12-21 08:12

25 楼

thx & bless

t*92010-12-21 08:12

26 楼

绝大多数人都申请ap，没有影响
放心把！

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

M*h2010-12-21 08:12

27 楼

chi

a*o2010-12-21 08:12

28 楼

baozi

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

a*o2010-12-21 08:12

29 楼

baozi

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

H*e2010-12-21 08:12

30 楼

chi

B*y2010-12-21 08:12

31 楼

baozi

a*o2010-12-21 08:12

32 楼

baozi

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

y42010-12-21 08:12

33 楼

gxgx

I12010-12-21 08:12

34 楼

baozi

e*u2010-12-21 08:12

35 楼

baozi

b92010-12-21 08:12

36 楼

congratulations

s*m2010-12-21 08:12

37 楼

pai baozi

b*w2010-12-21 08:12

38 楼

n*s2010-12-21 08:12

39 楼

If you have travel plan then apply one since it costs nothing. Also, getting
GC may take a while after you submit 485 next month.

w*n2010-12-21 08:12

40 楼

pai

c*y2010-12-21 08:12

41 楼

baozi

h*s2010-12-21 08:12

42 楼

不用
吃包子

n*y2010-12-21 08:12

43 楼

congrats

r*o2010-12-21 08:12

44 楼

congs

z*h2010-12-21 08:12

45 楼

congs

b72010-12-21 08:12

46 楼

s*a2010-12-21 08:12

47 楼

baozi

T*r2010-12-21 08:12

48 楼

当然要办。为什么会招来ref?

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

f*32010-12-21 08:12

49 楼

should be OK!

r*02010-12-21 08:12

50 楼

baozi

s*t2010-12-21 08:12

51 楼

bless

d*u2010-12-21 08:12

52 楼

包子还有吗？
我觉得不用办,你年底准绿!！

b*l2010-12-21 08:12

53 楼

我觉得，你很有必要办个AP。你如果排期下个月到的话，那就是在2007年7月之后的。
这批人很有可能在将来的几个月里不会被批。就算被批，也不会是大多数。因为2007年
7月以前的人就足够把上半年名额消耗的差不多了。这个月排期到了2007年7月了，但是
很明显，大多数在2007年4月到7月的人还没有被批。
在今年6，7，8月份排期到了的人大多数都在当月批了，那是因为有足够的名额。现在
的情况可能不一样了。
我很想问你一个问题，希望你能回答。想你这种2007年7月份以后办PERM的人，485当初
是怎么交的？谢谢。
以上纯属个人意见。

【在 s*****n 的大作中提到】

: 办Ap会不会招来rfe?多谢。另发30个包子攒咱人品。

s*n2010-12-21 08:12

54 楼

包子发到这里了。纯手工太累了。有什么方法可以群发吗？
综合一下大家的意见，决定还是办了。
我是大潮前的。所以perm下来后赶在deadline前就一起交了i140和485.

【在 b*******l 的大作中提到】

: 我觉得，你很有必要办个AP。你如果排期下个月到的话，那就是在2007年7月之后的。
: 这批人很有可能在将来的几个月里不会被批。就算被批，也不会是大多数。因为2007年
: 7月以前的人就足够把上半年名额消耗的差不多了。这个月排期到了2007年7月了，但是
: 很明显，大多数在2007年4月到7月的人还没有被批。
: 在今年6，7，8月份排期到了的人大多数都在当月批了，那是因为有足够的名额。现在
: 的情况可能不一样了。
: 我很想问你一个问题，希望你能回答。想你这种2007年7月份以后办PERM的人，485当初
: 是怎么交的？谢谢。
: 以上纯属个人意见。

l*q2010-12-21 08:12

55 楼

not necessary

c*02010-12-21 08:12

56 楼

chi