一加这两个破update搞的鸡飞狗跳暴露了准寨厂的尴尬。 - 未名空间MITBBS历史存档

一加这两个破update搞的鸡飞狗跳暴露了准寨厂的尴尬。# PDA - 掌中宝

x*02015-04-13 07:04

1 楼

统计最近30分钟google的top 10 searched keywords -- getTop10InLast30mins(),需
要经常调用。

I*a2015-04-13 07:04

2 楼

【以下文字转载自 Military 讨论区】
发信人: Tianzi (Sun Scracher), 信区: Military
标题: 几件小事可见当前学术界的堕落 (转载)
发信站: BBS 未名空间站 (Thu Dec 19 19:22:46 2013, 美东)
发信人: Tianzi (Sun Scracher), 信区: Biology
标题: 几件小事可见当前学术界的堕落
发信站: BBS 未名空间站 (Thu Dec 19 19:22:22 2013, 美东)
快过节了，该来点负能量，让痴迷于科研的年轻一代清醒清醒。
事件1: 某国女刚做千老，就拜了老板为干爹。立刻得到各种好处，包括接手快出文章
的项目（前面的第一作者被赶走后），然后提薪提职变成research AP。我好像又见到
了港台演艺圈和黑社会。
事件2: 某会议上，两个竞争关系的实验室老板仇人见面分外眼红，在对方讲座之后出
言讥讽，就差动手了。斯文扫地啊。
事件3: 有人对某PI的统计方法有异议，主要是在样本太小的情况下（n＝3）用SEM而不
是SD，从而看到显著差异。结果该PI一脸怒容，说其他人也是这样做的（确实不少人也
是这么做的）。他们明知道不对，做了，而且要继续做，当作什么都没看见。
事件4: 某实验室某明星千老，老板巨喜欢，从来实验只做一次，不重复。老板知道，
但从来不说什么。后来该千老顺利找到AP。
事件5: 某院长，没有任何拿得出手的学术成就，就是独断专行，硬把一德高望重的有
很多funding的教授给气走了，连带着带走了几十人的团队和几百万的房顶，对该学校
造成了很大的智力和财力损失。而该院长仍然老神在在。
总之，劣币逐良币的趋势越来越明显。学术界越来越堕落了。一个重要原因就是PI制，
让科学家变成了学术包工头学术奴隶主，而学校里更有很多职业政客，啥也不懂，就会
搞关系。而政府也是一样，多的是政客，缺的是专业官僚，不懂科学的逻辑，整天想搞
大科学，小实验室的生存越来越难，只能挂靠大牛学术包工头。年轻人在上学时是看不
到这点的，所以老夫出来提醒大家。

x*y2015-04-13 07:04

3 楼

【以下文字转载自 Hardware 讨论区】
发信人: xuray (干干干), 信区: Hardware
标题: 一加这两个破update搞的鸡飞狗跳暴露了准寨厂的尴尬。
发信站: BBS 未名空间站 (Mon Apr 13 13:32:18 2015, 美东)
软件被掐住脖子，只有看人眼色的命，android的二道贩子也能搞的你生不如死。
OTA出来还是等等吧，别急着当小白鼠了。
从软件QC的角度来说，相比之下我软真是业界良心。

t*e2015-04-13 07:04

4 楼

distributed count + min heap?

T*i2015-04-13 07:04

5 楼

sigh

【在 I*****a 的大作中提到】

: 【以下文字转载自 Military 讨论区】
: 发信人: Tianzi (Sun Scracher), 信区: Military
: 标题: 几件小事可见当前学术界的堕落 (转载)
: 发信站: BBS 未名空间站 (Thu Dec 19 19:22:46 2013, 美东)
: 发信人: Tianzi (Sun Scracher), 信区: Biology
: 标题: 几件小事可见当前学术界的堕落
: 发信站: BBS 未名空间站 (Thu Dec 19 19:22:22 2013, 美东)
: 快过节了，该来点负能量，让痴迷于科研的年轻一代清醒清醒。
: 事件1: 某国女刚做千老，就拜了老板为干爹。立刻得到各种好处，包括接手快出文章
: 的项目（前面的第一作者被赶走后），然后提薪提职变成research AP。我好像又见到

j*u2015-04-13 07:04

6 楼

说句外行话，自己没有系统的话，干嘛不直接用google的版本？我看nexus系列的系统也
不难用，还是google的亲儿子，更新也容易得多。

【在 x***y 的大作中提到】

: 【以下文字转载自 Hardware 讨论区】
: 发信人: xuray (干干干), 信区: Hardware
: 标题: 一加这两个破update搞的鸡飞狗跳暴露了准寨厂的尴尬。
: 发信站: BBS 未名空间站 (Mon Apr 13 13:32:18 2015, 美东)
: 软件被掐住脖子，只有看人眼色的命，android的二道贩子也能搞的你生不如死。
: OTA出来还是等等吧，别急着当小白鼠了。
: 从软件QC的角度来说，相比之下我软真是业界良心。

x*02015-04-13 07:04

7 楼

minheap 是肯定的。
我当时说需要对每个keyword 维护一个circular array,大小可以是30，记录每分钟的
search数目。
但是这样的话每分钟都要为每个keyword update这个array，而且minheap也要update。
可以进一步优化，根据log只用update那些在heap里的keyword 和上一分钟search过的
keyword。
貌似interviewer还是不满意，说这样存储的cost还是可以优化。

【在 t********e 的大作中提到】

: distributed count + min heap?

c*i2015-04-13 07:04

8 楼

這都是真實的。

p*m2015-04-13 07:04

9 楼

麻辣隔壁狗狗自己的update 还把自己的亲儿子给杀死了

t*e2015-04-13 07:04

10 楼

"根据log只用update那些在heap里的keyword 和上一分钟search过的keyword。"
你是说上30分钟？
继续优化可以approximate吗？例如只存top 100k keywords in all time

H*72015-04-13 07:04

11 楼

实验从来只做一次，每次都很理想，这个很牛X

f*e2015-04-13 07:04

12 楼

没看楼上贴的亲儿子更新变砖？

统也

【在 j**u 的大作中提到】

: 说句外行话，自己没有系统的话，干嘛不直接用google的版本？我看nexus系列的系统也
: 不难用，还是google的亲儿子，更新也容易得多。

o*g2015-04-13 07:04

13 楼

这个太夸张了

【在 x******0 的大作中提到】

: minheap 是肯定的。
: 我当时说需要对每个keyword 维护一个circular array,大小可以是30，记录每分钟的
: search数目。
: 但是这样的话每分钟都要为每个keyword update这个array，而且minheap也要update。
: 可以进一步优化，根据log只用update那些在heap里的keyword 和上一分钟search过的
: keyword。
: 貌似interviewer还是不满意，说这样存储的cost还是可以优化。

M*92015-04-13 07:04

14 楼

的确是这样。。。
前段和人聊某八卦。伊说他们当年就知道，都是排队跑去观摩的。。。LOL...

【在 I*****a 的大作中提到】

: 【以下文字转载自 Military 讨论区】
: 发信人: Tianzi (Sun Scracher), 信区: Military
: 标题: 几件小事可见当前学术界的堕落 (转载)
: 发信站: BBS 未名空间站 (Thu Dec 19 19:22:46 2013, 美东)
: 发信人: Tianzi (Sun Scracher), 信区: Biology
: 标题: 几件小事可见当前学术界的堕落
: 发信站: BBS 未名空间站 (Thu Dec 19 19:22:22 2013, 美东)
: 快过节了，该来点负能量，让痴迷于科研的年轻一代清醒清醒。
: 事件1: 某国女刚做千老，就拜了老板为干爹。立刻得到各种好处，包括接手快出文章
: 的项目（前面的第一作者被赶走后），然后提薪提职变成research AP。我好像又见到

w*r2015-04-13 07:04

15 楼

很多人看不起小米，但国产手机里系统最好的基本就是MIUI了

x*02015-04-13 07:04

16 楼

30分钟只是个参数，可以是1分钟，5分钟。。。

【在 t********e 的大作中提到】

: "根据log只用update那些在heap里的keyword 和上一分钟search过的keyword。"
: 你是说上30分钟？
: 继续优化可以approximate吗？例如只存top 100k keywords in all time

f*e2015-04-13 07:04

17 楼

学术问题，PI是什么？

p*m2015-04-13 07:04

18 楼

假装没看见 lol

【在 f*****e 的大作中提到】

: 没看楼上贴的亲儿子更新变砖？
:
: 统也

x*02015-04-13 07:04

19 楼

当然可以搞个moving average。。。我说了以后，貌似对方也不满意

【在 o***g 的大作中提到】

:
: 这个太夸张了

w*u2015-04-13 07:04

20 楼

principal investigator

【在 f*****e 的大作中提到】

: 学术问题，PI是什么？

a*92015-04-13 07:04

21 楼

非国产手机我也没觉得哪个os比miui好用的

【在 w********r 的大作中提到】

: 很多人看不起小米，但国产手机里系统最好的基本就是MIUI了

m*n2015-04-13 07:04

22 楼

有个想法，你可以试试。
不用array,用linked list，
每个keyword维护linked list，
有的keyword如果每分钟都会出现，就是30个nodes（假设最长30），每个node存的是前
n分钟的总数，不是第n分钟的次数。
有的keyword不是每分钟都会出现，就小于30个nodes。
linked list可以滚动没问题。
从说明来看，这个function一般是getTop10inLast30， 10， 5， 1 几个特殊时间的数
，不是1-30都有。
在更新linked list的时候(时间复杂度 < 30*O(n) )，可以对这几个特殊时间建堆，只
要4个 10个element的minheap。应该是< 4*log10*O(n)的时间复杂度。

【在 x******0 的大作中提到】

: 统计最近30分钟google的top 10 searched keywords -- getTop10InLast30mins(),需
: 要经常调用。

j*n2015-04-13 07:04

23 楼

估计是不理想的都选择性剔除了哈哈

【在 H******7 的大作中提到】

: 实验从来只做一次，每次都很理想，这个很牛X

l*r2015-04-13 07:04

24 楼

感觉一加的论坛就是一堆烙印在折腾。

【在 x***y 的大作中提到】

: 【以下文字转载自 Hardware 讨论区】
: 发信人: xuray (干干干), 信区: Hardware
: 标题: 一加这两个破update搞的鸡飞狗跳暴露了准寨厂的尴尬。
: 发信站: BBS 未名空间站 (Mon Apr 13 13:32:18 2015, 美东)
: 软件被掐住脖子，只有看人眼色的命，android的二道贩子也能搞的你生不如死。
: OTA出来还是等等吧，别急着当小白鼠了。
: 从软件QC的角度来说，相比之下我软真是业界良心。

x*02015-04-13 07:04

25 楼

谢谢！这个想法很好。
只不过那个interviewer总是觉得我每个keyword用了太多storage，moving average又
不对，百思不得其解。。

【在 m*****n 的大作中提到】

: 有个想法，你可以试试。
: 不用array,用linked list，
: 每个keyword维护linked list，
: 有的keyword如果每分钟都会出现，就是30个nodes（假设最长30），每个node存的是前
: n分钟的总数，不是第n分钟的次数。
: 有的keyword不是每分钟都会出现，就小于30个nodes。
: linked list可以滚动没问题。
: 从说明来看，这个function一般是getTop10inLast30， 10， 5， 1 几个特殊时间的数
: ，不是1-30都有。
: 在更新linked list的时候(时间复杂度 < 30*O(n) )，可以对这几个特殊时间建堆，只

z*32015-04-13 07:04

26 楼

第3个，去年会的时候亲眼所见，他妈的3个点就敢计算线性相关了，你他妈的怎么不再
去掉一个点，两个点那相关性刚刚的

m*t2015-04-13 07:04

27 楼

说这话不怕有人拿锤子砸你

【在 a******9 的大作中提到】

: 非国产手机我也没觉得哪个os比miui好用的

b*c2015-04-13 07:04

28 楼

bookmarked

m*d2015-04-13 07:04

29 楼

三个点怎么不能计算了？

【在 z*****3 的大作中提到】

: 第3个，去年会的时候亲眼所见，他妈的3个点就敢计算线性相关了，你他妈的怎么不再
: 去掉一个点，两个点那相关性刚刚的

v*e2015-04-13 07:04

30 楼

小米托

【在 a******9 的大作中提到】

: 非国产手机我也没觉得哪个os比miui好用的

o*g2015-04-13 07:04

31 楼

你没搞懂，我为什么说太夸张了
我的理解你选择的数据集有问题，我理解是你要对所有的数据集做这个操作。包括在这
一分钟里没有被搜索的关键词也要做这个操作。如果你真是这么想的就太夸张了，如果
面试官也这么认为的就糟糕了。数据集没选对，后面怎么算都不行啊

【在 x******0 的大作中提到】

: 当然可以搞个moving average。。。我说了以后，貌似对方也不满意

z*32015-04-13 07:04

32 楼

你什么专业的？

【在 m**d 的大作中提到】

: 三个点怎么不能计算了？

b*c2015-04-13 07:04

33 楼

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.859

t*t2015-04-13 07:04

34 楼

当然可以

【在 m**d 的大作中提到】

: 三个点怎么不能计算了？

x*02015-04-13 07:04

35 楼

你说的对，我刚开始是说对所有的做操作。后来面试官一质疑，我就马上改过来，只对
被搜索的keyword做这个操作。但是他还是觉得我统计这些keyword的方法太expensive。
貌似这个面试feedback还不错，但是肯定没有达到面试官心中的optimal。应该是差不
远了。

【在 o***g 的大作中提到】

: 你没搞懂，我为什么说太夸张了
: 我的理解你选择的数据集有问题，我理解是你要对所有的数据集做这个操作。包括在这
: 一分钟里没有被搜索的关键词也要做这个操作。如果你真是这么想的就太夸张了，如果
: 面试官也这么认为的就糟糕了。数据集没选对，后面怎么算都不行啊

z*32015-04-13 07:04

36 楼

我槽，祝你早日用三个点的发CNS

【在 t**t 的大作中提到】

: 当然可以

W*y2015-04-13 07:04

37 楼

mark

t*t2015-04-13 07:04

38 楼

不用三个点就能发CNS了？

【在 z*****3 的大作中提到】

: 我槽，祝你早日用三个点的发CNS

o*g2015-04-13 07:04

39 楼

我不知道面试官要的是啥，也许他有非常牛逼的算法之类的。
但是我想从工程师的角度说说这种问题。不是教授角度。
在你心中这些关键词集合是个什么样子？一些随机的字符串？想成这样是不够的。
一共在google被搜索过的关键词的数量级肯定不是M，往上高个3到6个数量级都是非常
可能的。在一分钟内被搜索过的关键词，多数是长尾（long tail）的，少数是重复次
数很高的。这些长尾的关键词有些甚至几周几个月才被搜索一次。长尾关键词占总搜索
次数比却是很小的。30分钟之内，为什么不是5分钟10分钟，可能5分钟10分钟的所有关
键词操作一下是能搞定的，但是30分钟内，很多关键词其实只出现过1次2次。因为只要
前10个，所以，这些长尾的就可以不用计算直接忽略掉。如果要前1000个10000个，忽
略的关键词还真得谨慎点儿，前10个的话，很多都可以忽略掉。
下面是我能想到的3个方法
1. 专业的学术术语，这个开销比较大，需要查字典，不太实用
2. 搜索结果小于多少就可以忽略了
3. 关键词长度，大于多少字符就可以忽略了。50肯定是没问题的，20我觉得都可以一
试。
第三个是最简单最有效的，不用其他资源就可以。
这种东西严谨么？肯定是不严谨的，但是是有效的。这东西也没法拿出来说，但实际大
家都在用。

expensive。

【在 x******0 的大作中提到】

: 你说的对，我刚开始是说对所有的做操作。后来面试官一质疑，我就马上改过来，只对
: 被搜索的keyword做这个操作。但是他还是觉得我统计这些keyword的方法太expensive。
: 貌似这个面试feedback还不错，但是肯定没有达到面试官心中的optimal。应该是差不
: 远了。

d*f2015-04-13 07:04

40 楼

这根pi制没关系，nih关门就对了

【在 I*****a 的大作中提到】

: 【以下文字转载自 Military 讨论区】
: 发信人: Tianzi (Sun Scracher), 信区: Military
: 标题: 几件小事可见当前学术界的堕落 (转载)
: 发信站: BBS 未名空间站 (Thu Dec 19 19:22:46 2013, 美东)
: 发信人: Tianzi (Sun Scracher), 信区: Biology
: 标题: 几件小事可见当前学术界的堕落
: 发信站: BBS 未名空间站 (Thu Dec 19 19:22:22 2013, 美东)
: 快过节了，该来点负能量，让痴迷于科研的年轻一代清醒清醒。
: 事件1: 某国女刚做千老，就拜了老板为干爹。立刻得到各种好处，包括接手快出文章
: 的项目（前面的第一作者被赶走后），然后提薪提职变成research AP。我好像又见到

U*A2015-04-13 07:04

41 楼

大猩猩牛人啊

z*32015-04-13 07:04

42 楼

这我不确定，但用三个点的发不了CNS，也许“有些人”能，但大多数人不能。

【在 t**t 的大作中提到】

: 不用三个点就能发CNS了？

x*02015-04-13 07:04

43 楼

赞一个

【在 o***g 的大作中提到】

: 我不知道面试官要的是啥，也许他有非常牛逼的算法之类的。
: 但是我想从工程师的角度说说这种问题。不是教授角度。
: 在你心中这些关键词集合是个什么样子？一些随机的字符串？想成这样是不够的。
: 一共在google被搜索过的关键词的数量级肯定不是M，往上高个3到6个数量级都是非常
: 可能的。在一分钟内被搜索过的关键词，多数是长尾（long tail）的，少数是重复次
: 数很高的。这些长尾的关键词有些甚至几周几个月才被搜索一次。长尾关键词占总搜索
: 次数比却是很小的。30分钟之内，为什么不是5分钟10分钟，可能5分钟10分钟的所有关
: 键词操作一下是能搞定的，但是30分钟内，很多关键词其实只出现过1次2次。因为只要
: 前10个，所以，这些长尾的就可以不用计算直接忽略掉。如果要前1000个10000个，忽
: 略的关键词还真得谨慎点儿，前10个的话，很多都可以忽略掉。

z*92015-04-13 07:04

44 楼

有才

第3个，去年会的时候亲眼所见，他妈的3个点就敢计算线性相关了，你他妈的怎么不再
去掉一个点，两个点那相关性刚刚的

【在 z*****3 的大作中提到】

: 第3个，去年会的时候亲眼所见，他妈的3个点就敢计算线性相关了，你他妈的怎么不再
: 去掉一个点，两个点那相关性刚刚的

z*e2015-04-13 07:04

45 楼

可以建一级cache，二级cache，三级cache……

【在 o***g 的大作中提到】

: 我不知道面试官要的是啥，也许他有非常牛逼的算法之类的。
: 但是我想从工程师的角度说说这种问题。不是教授角度。
: 在你心中这些关键词集合是个什么样子？一些随机的字符串？想成这样是不够的。
: 一共在google被搜索过的关键词的数量级肯定不是M，往上高个3到6个数量级都是非常
: 可能的。在一分钟内被搜索过的关键词，多数是长尾（long tail）的，少数是重复次
: 数很高的。这些长尾的关键词有些甚至几周几个月才被搜索一次。长尾关键词占总搜索
: 次数比却是很小的。30分钟之内，为什么不是5分钟10分钟，可能5分钟10分钟的所有关
: 键词操作一下是能搞定的，但是30分钟内，很多关键词其实只出现过1次2次。因为只要
: 前10个，所以，这些长尾的就可以不用计算直接忽略掉。如果要前1000个10000个，忽
: 略的关键词还真得谨慎点儿，前10个的话，很多都可以忽略掉。

t*t2015-04-13 07:04

46 楼

我等芸芸众生，要几个点才行？

【在 z*****3 的大作中提到】

: 这我不确定，但用三个点的发不了CNS，也许“有些人”能，但大多数人不能。

z*e2015-04-13 07:04

47 楼

不过大猩猩，我问你个问题
你这里面确定freq比较少的，比如过去30分钟只出现1次2次的这种
你如何界定？你要删不也要等到30分钟之后才删？
你还是要把这个term以及timestamp保留在内存结构或者某个db什么的里面呀
这题除了heap以外，我觉得就是一个hashmap用来统计次数
最后删除时候会遇到一个并发的问题，而且需要你保存log
这个log用linkedlist也未尝不可，但是每次删除log呢，是一个很费时间的过程
如果用当前thread，会导致整个thread被blocked，所以最好额外启动一个thread
统计完，去保存次数那个hashmap里面扣除你刚删除掉的那些terms的freq的时候
一定会遇到并发冲突的问题，所以需要用到concurrenthashmap
所以我上次就不认为从array开始弄有什么道理，你还不同意我
我觉得这题三个点回答出来
一个priorityqueue，就是min heap的实现
另外一个是concurrenthashmap，考并发
最后一个是timestamp，这个可以扯一下logic clock
最后拼凑起来，就很圆满了

【在 o***g 的大作中提到】

: 我不知道面试官要的是啥，也许他有非常牛逼的算法之类的。
: 但是我想从工程师的角度说说这种问题。不是教授角度。
: 在你心中这些关键词集合是个什么样子？一些随机的字符串？想成这样是不够的。
: 一共在google被搜索过的关键词的数量级肯定不是M，往上高个3到6个数量级都是非常
: 可能的。在一分钟内被搜索过的关键词，多数是长尾（long tail）的，少数是重复次
: 数很高的。这些长尾的关键词有些甚至几周几个月才被搜索一次。长尾关键词占总搜索
: 次数比却是很小的。30分钟之内，为什么不是5分钟10分钟，可能5分钟10分钟的所有关
: 键词操作一下是能搞定的，但是30分钟内，很多关键词其实只出现过1次2次。因为只要
: 前10个，所以，这些长尾的就可以不用计算直接忽略掉。如果要前1000个10000个，忽
: 略的关键词还真得谨慎点儿，前10个的话，很多都可以忽略掉。

d*l2015-04-13 07:04

48 楼

精分不要吓唬人。
我看三点式可上‘阁楼’杂志。

o*g2015-04-13 07:04

49 楼

赵老师啊，我跟楼主只是在说面试官说楼主存储空间太大不满意的问题
界定？我原帖最后一段说了，这个不是严谨的方法。就是说只是一个粗略的方法。
方法我不是提了3个。忽略的意思是见到这个关键词就直接看下一个了，不给空间也不
做统计，就当没有这个词。根本没有保留多长时间的问题。
不严谨有时也有好处，记得几年前央视焦点访谈曝光谷歌搜索关键词提示涉黄。
那个提示词那么长，肯定是有人故意而为才顶上去的，如果把长关键词都忽略了，这事
儿也成不了。
就这个问题，其实还有很多地方需要考虑，而你提到的这些heap hashmap之类的在我来
看是最不重要的。
比如如何采集这些关键词，需要确定用户搜索的关键词都能采集到。这事儿其实就挺难
的。
我能想到的是，互联网上到处都有各级cache，如果某个cache中了，就直接返回了，这
个request都没有到服务器就返回了，你可能就没有得到这次搜索。第二个是，即便到g
家的服务器了，服务器也是遍布世界各地的。（各个城市搜索链接的服务器是不同的，
同一个关键词的返回结果可能是不同的哦！！！）在世界各地的这些数据怎么集中到一
起。
还有时间戳的问题，用户是12.999秒发出的搜索，到服务器是13.01秒，这个应该算在
12秒里还是13秒里？再说服务器时间都可能不完全一样。
如果只是做题的话，可能上面这些不用考虑，但是实际工作就需要考虑。我不知道如果
面试的时候提这些情况会不会加分。
我做了很多tracking report之类的工作，各个地方统计的数很难对的上，即便一天几
十个的都很难对的上。但是单个测试的时候总是通过的。
所以有了这些背景知识，最后统计的时候有些不严谨是不是也是可以接受的呢

【在 z****e 的大作中提到】

: 不过大猩猩，我问你个问题
: 你这里面确定freq比较少的，比如过去30分钟只出现1次2次的这种
: 你如何界定？你要删不也要等到30分钟之后才删？
: 你还是要把这个term以及timestamp保留在内存结构或者某个db什么的里面呀
: 这题除了heap以外，我觉得就是一个hashmap用来统计次数
: 最后删除时候会遇到一个并发的问题，而且需要你保存log
: 这个log用linkedlist也未尝不可，但是每次删除log呢，是一个很费时间的过程
: 如果用当前thread，会导致整个thread被blocked，所以最好额外启动一个thread
: 统计完，去保存次数那个hashmap里面扣除你刚删除掉的那些terms的freq的时候
: 一定会遇到并发冲突的问题，所以需要用到concurrenthashmap

z*32015-04-13 07:04

50 楼

你起码得十个点，我二十个点也够呛

【在 t**t 的大作中提到】

: 我等芸芸众生，要几个点才行？

i*t2015-04-13 07:04

51 楼

为什么是min heap不是max?
arraylist存(keyword,time,count, heap1 node, heap2 node)
hashmap存(keyword,index)，或者用trie存index
一个max heap放index，以count为比较值
第二个max heap放index，以time为比较值。
每次接到一个keyword，更新这4个数据结构(先用trie或者map找到index)
每次调用的时候或者hashmap一定大的时候按照第二个heap，去掉所有的超时元素，更
新4个数据结构

【在 x******0 的大作中提到】

: minheap 是肯定的。
: 我当时说需要对每个keyword 维护一个circular array,大小可以是30，记录每分钟的
: search数目。
: 但是这样的话每分钟都要为每个keyword update这个array，而且minheap也要update。
: 可以进一步优化，根据log只用update那些在heap里的keyword 和上一分钟search过的
: keyword。
: 貌似interviewer还是不满意，说这样存储的cost还是可以优化。

s*i2015-04-13 07:04

52 楼

恩，精分最近有些愤世嫉俗阿，三点怎么了，我觉得*挺*好

【在 d**l 的大作中提到】

: 精分不要吓唬人。
: 我看三点式可上‘阁楼’杂志。

z*e2015-04-13 07:04

53 楼

不是，猩猩啊
你要等一个定长时间之后才能看出这个关键词出现的freq呢？
举个例子，当你看到克什米亚之后直接忽略，因为一般情况下这个词是低频词
那么万一短时间内这个克什米亚大量出现呢？
因为每次你都忽略，所以会导致你无法统计出这个关键词的freq
这样对于短时间内出现的热点会错过的呀

【在 o***g 的大作中提到】

: 赵老师啊，我跟楼主只是在说面试官说楼主存储空间太大不满意的问题
: 界定？我原帖最后一段说了，这个不是严谨的方法。就是说只是一个粗略的方法。
: 方法我不是提了3个。忽略的意思是见到这个关键词就直接看下一个了，不给空间也不
: 做统计，就当没有这个词。根本没有保留多长时间的问题。
: 不严谨有时也有好处，记得几年前央视焦点访谈曝光谷歌搜索关键词提示涉黄。
: 那个提示词那么长，肯定是有人故意而为才顶上去的，如果把长关键词都忽略了，这事
: 儿也成不了。
: 就这个问题，其实还有很多地方需要考虑，而你提到的这些heap hashmap之类的在我来
: 看是最不重要的。
: 比如如何采集这些关键词，需要确定用户搜索的关键词都能采集到。这事儿其实就挺难

z*32015-04-13 07:04

54 楼

马蹄丝快发包子

【在 d**l 的大作中提到】

: 精分不要吓唬人。
: 我看三点式可上‘阁楼’杂志。

c*y2015-04-13 07:04

55 楼

我去，这就是senior和new grad的区别所在了，new grad除非是脑补天才根本不可能答
的这么迪奥。

【在 o***g 的大作中提到】

: 赵老师啊，我跟楼主只是在说面试官说楼主存储空间太大不满意的问题
: 界定？我原帖最后一段说了，这个不是严谨的方法。就是说只是一个粗略的方法。
: 方法我不是提了3个。忽略的意思是见到这个关键词就直接看下一个了，不给空间也不
: 做统计，就当没有这个词。根本没有保留多长时间的问题。
: 不严谨有时也有好处，记得几年前央视焦点访谈曝光谷歌搜索关键词提示涉黄。
: 那个提示词那么长，肯定是有人故意而为才顶上去的，如果把长关键词都忽略了，这事
: 儿也成不了。
: 就这个问题，其实还有很多地方需要考虑，而你提到的这些heap hashmap之类的在我来
: 看是最不重要的。
: 比如如何采集这些关键词，需要确定用户搜索的关键词都能采集到。这事儿其实就挺难

H*g2015-04-13 07:04

56 楼

正常人一般认为PI是private investigator

【在 w********u 的大作中提到】

: principal investigator

o*g2015-04-13 07:04

57 楼

你看我propose的忽略长度是多少，50呢，这个还需要看一下统计数据，我估计看完之
后，20也可以。你给的克什米亚才4个字符长度啊。
我说这个不严谨了，就是理论上有漏的可能性。但是这种可能出现的概率是极低的，即
便一年有一次，又有什么关系呢
退一万步讲，如果world cup 2014 final game这个能进前10，那我想world cup final
一定比那个更多。你不会错过这种信息的。

【在 z****e 的大作中提到】

: 不是，猩猩啊
: 你要等一个定长时间之后才能看出这个关键词出现的freq呢？
: 举个例子，当你看到克什米亚之后直接忽略，因为一般情况下这个词是低频词
: 那么万一短时间内这个克什米亚大量出现呢？
: 因为每次你都忽略，所以会导致你无法统计出这个关键词的freq
: 这样对于短时间内出现的热点会错过的呀

d*l2015-04-13 07:04

58 楼

不愤世嫉俗怎么精分？
你看他要包子都要得那么理所当然！

【在 s*****i 的大作中提到】

: 恩，精分最近有些愤世嫉俗阿，三点怎么了，我觉得*挺*好

z*e2015-04-13 07:04

59 楼

嗯，大猩猩的意思我大概明白了
但是query term一般指的是用户输入的关键字
其他的叫做co term，这种一般有query expansion的说法
比如world cup 2014 final game
真正输入的query term估计只有world cup两个，剩下的是系统自动expand的
比如crimea，然后系统会自动补足其他的co term，比如conflict这些
这里面文章很大，不仅仅是删掉long tail就好了的
而且你只删超过50个字符长的搜索，这个估计也不会有太大优化的作用
因为很少有人会输入超过20个或者50个字符长度的搜索酱紫
当然删除低频词是必需的，要不然内存会增长得很快
但是我觉得存最近30分钟得数据
也是必需的
所以一读一写，这里就自然涉及读写冲突问题，这就是为什么会说到concurrent处理
而且query log本身是很重要的一个query expansion的来源
其实真正query expansion，比如crimea->crimea conflict
这种都是通过mining log得到的，所以有些低级和原始，为学术界所不齿
但是用得比较多

final

【在 o***g 的大作中提到】

: 你看我propose的忽略长度是多少，50呢，这个还需要看一下统计数据，我估计看完之
: 后，20也可以。你给的克什米亚才4个字符长度啊。
: 我说这个不严谨了，就是理论上有漏的可能性。但是这种可能出现的概率是极低的，即
: 便一年有一次，又有什么关系呢
: 退一万步讲，如果world cup 2014 final game这个能进前10，那我想world cup final
: 一定比那个更多。你不会错过这种信息的。

s*i2015-04-13 07:04

60 楼

不然，要包子是精分的本色，恩，愤世嫉俗明显是后天发育的结果

【在 d**l 的大作中提到】

: 不愤世嫉俗怎么精分？
: 你看他要包子都要得那么理所当然！

s*s2015-04-13 07:04

61 楼

比较认同赵大牛的方法。
用一个HashMap 来记得current minute 的
Keywords 和它的出现次数。用一个Queue of
size of 30 （因为30 分钟，也可以是60分钟）
来记录每一分钟的map，构成一个动态
leaking buffle Queue，这样就可以精确
算出last 30 minutes, 60 minutes, 24 hours
freq Top K keywords.

【在 z****e 的大作中提到】

: 嗯，大猩猩的意思我大概明白了
: 但是query term一般指的是用户输入的关键字
: 其他的叫做co term，这种一般有query expansion的说法
: 比如world cup 2014 final game
: 真正输入的query term估计只有world cup两个，剩下的是系统自动expand的
: 比如crimea，然后系统会自动补足其他的co term，比如conflict这些
: 这里面文章很大，不仅仅是删掉long tail就好了的
: 而且你只删超过50个字符长的搜索，这个估计也不会有太大优化的作用
: 因为很少有人会输入超过20个或者50个字符长度的搜索酱紫
: 当然删除低频词是必需的，要不然内存会增长得很快

t*t2015-04-13 07:04

62 楼

看来多几个，我也可能发CNS了。下次就就多画几个点算了。

【在 z*****3 的大作中提到】

: 你起码得十个点，我二十个点也够呛

c*l2015-04-13 07:04

63 楼

mark

M*e2015-04-13 07:04

64 楼

三点水

【在 s*****i 的大作中提到】

: 恩，精分最近有些愤世嫉俗阿，三点怎么了，我觉得*挺*好

a*n2015-04-13 07:04

65 楼

我去。。。感叹一下这种题目不是欺负new grad么。。。
其实每个词平时都是有词频统计的，比如fukujima这个词平时是铁定进不了top10的。
这题目一个大小为10的minheap肯定要，然后再搞个pool装一些最近n分钟突然频率暴涨
的词就可以了，比如fukujima地震那半小时这个词频肯定异常暴涨。
然后每个词每分钟统计出来可以和平时的词频对比一下，如果区别不大又是长尾词就丢
了，否则进二级pool，如果在二级pool里统计发现累加前30分钟的次数已经高于heap
top的次数了则进heap。

M*e2015-04-13 07:04

66 楼

不受胁迫

【在 z*****3 的大作中提到】

: 马蹄丝快发包子

s*m2015-04-13 07:04

67 楼

mark

d*f2015-04-13 07:04

68 楼

问题不大，可以内插再外插，想有多少点就有多少点

【在 z*****3 的大作中提到】

: 这我不确定，但用三个点的发不了CNS，也许“有些人”能，但大多数人不能。

d*o2015-04-13 07:04

69 楼

什么时候用SD什么时候用SEM？
我是小白你们不要骗我

M*e2015-04-13 07:04

70 楼

笨，哪个小用哪个

【在 d****o 的大作中提到】

: 什么时候用SD什么时候用SEM？
: 我是小白你们不要骗我

d*o2015-04-13 07:04

71 楼

那不是永远用sem

【在 M*****e 的大作中提到】

: 笨，哪个小用哪个

z*32015-04-13 07:04

72 楼

你们都凶我 T^T

【在 s*****i 的大作中提到】

: 恩，精分最近有些愤世嫉俗阿，三点怎么了，我觉得*挺*好

z*32015-04-13 07:04

73 楼

要也没用
我原来以为你的境界不止停留在几个包子上
---MTS

【在 d**l 的大作中提到】

: 不愤世嫉俗怎么精分？
: 你看他要包子都要得那么理所当然！

z*32015-04-13 07:04

74 楼

记着那些点要画在点上不然再多几个点不在点上也只是白点还不如三个点每个点都在点
上所谓点点点点

【在 t**t 的大作中提到】

: 看来多几个，我也可能发CNS了。下次就就多画几个点算了。

z*32015-04-13 07:04

75 楼

我猜如果老鼠模型比较特别也许要用到SD

【在 d****o 的大作中提到】

: 什么时候用SD什么时候用SEM？
: 我是小白你们不要骗我

t*t2015-04-13 07:04

76 楼

太高深了，搞不懂。

【在 z*****3 的大作中提到】

: 记着那些点要画在点上不然再多几个点不在点上也只是白点还不如三个点每个点都在点
: 上所谓点点点点