为什么你么都说现在招聘走做题路线 - 未名空间MITBBS历史存档

为什么你么都说现在招聘走做题路线# JobHunting - 待字闺中

a*m2013-11-01 07:11

1 楼

我看很多招聘要求都很专业啊比如 fb的一个SDE职位
靠做题能面这种吗
MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
NLP or relevant industry experience
Experience in classifiers, rankers or other Machine Learning technologies
Extensive programming experience in C++, Java or C#
Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
Experience with scripting languages such as Perl, Python, PHP and shell
scripts

y*g2013-11-01 07:11

2 楼

面这种也要做题的

c*02013-11-01 07:11

3 楼

我觉得是因为如果你不刷题，人家都懒得问你专业知识。

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m*o2013-11-01 07:11

4 楼

做题是基础吧，但是对于比较专业的position, 还是会问算法以外的东西

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

D*d2013-11-01 07:11

5 楼

这个要求好像是 LinkedIn 的职位吧？

s*r2013-11-01 07:11

6 楼

晕死，前两条的题能难死人

a*m2013-11-01 07:11

7 楼

我看很多招聘要求都很专业啊比如 fb的一个SDE职位
靠做题能面这种吗
MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
NLP or relevant industry experience
Experience in classifiers, rankers or other Machine Learning technologies
Extensive programming experience in C++, Java or C#
Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
Experience with scripting languages such as Perl, Python, PHP and shell
scripts

y*g2013-11-01 07:11

8 楼

面这种也要做题的

c*02013-11-01 07:11

9 楼

我觉得是因为如果你不刷题，人家都懒得问你专业知识。

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m*o2013-11-01 07:11

10 楼

做题是基础吧，但是对于比较专业的position, 还是会问算法以外的东西

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

D*d2013-11-01 07:11

11 楼

这个要求好像是 LinkedIn 的职位吧？

s*r2013-11-01 07:11

12 楼

晕死，前两条的题能难死人

v*n2013-11-01 07:11

13 楼

能给个job的链接吗？

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

A*c2013-11-01 07:11

14 楼

懂的不多，胡扯凑凑热闹：）
IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
matching model，用的最多的估计还是vector space或者OKAPI 25。
ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
1TB内存...呵呵。
随便乱说的，大牛们再指教～

【在 s*****r 的大作中提到】

: 晕死，前两条的题能难死人

y*n2013-11-01 07:11

15 楼

因为大家都知道中国人吹牛不如人家，都是为了照顾我们。

v*n2013-11-01 07:11

16 楼

挺同意的，公司产品里面用的算法，真正work好的，如果要发paper的话，基本都是被
拒的水平。可见研究和实践的差别有多大。

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

j*x2013-11-01 07:11

17 楼

1TB内存算个啥？
desktop现在都是32G的标配，30台desktop就能打起来的东西也算难做？

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

j*x2013-11-01 07:11

18 楼

你看过顶级计算机系统、分布式系统的会议么？
google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文，
就以为搞科研都是浑水摸鱼。。。

【在 v**n 的大作中提到】

: 挺同意的，公司产品里面用的算法，真正work好的，如果要发paper的话，基本都是被
: 拒的水平。可见研究和实践的差别有多大。

v*n2013-11-01 07:11

19 楼

您的解读能力还真是。。。
我只是说工业界和科研（指学校）是很不一样的。
另，那些work好的ML/DM的是很难发出来的，一是根本过不了内部IP的审核，二是很多
都是在有大量数据的情况下做的一些比较adhoc的调整。
你说的情况是DS，不同领域。

【在 j********x 的大作中提到】

: 你看过顶级计算机系统、分布式系统的会议么？
: google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文，
: 就以为搞科研都是浑水摸鱼。。。

v*n2013-11-01 07:11

20 楼

不要觉得distributed system就是上帝，可以解决一切问题。 MR有自己的problem
space, 也不是万能的....

【在 j********x 的大作中提到】

: 1TB内存算个啥？
: desktop现在都是32G的标配，30台desktop就能打起来的东西也算难做？

j*42013-11-01 07:11

21 楼

一光年是距离单位？

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

l*e2013-11-01 07:11

22 楼

please read more ML/DM papers, most of the pointer works are published from
university & research center

【在 v**n 的大作中提到】

: 您的解读能力还真是。。。
: 我只是说工业界和科研（指学校）是很不一样的。
: 另，那些work好的ML/DM的是很难发出来的，一是根本过不了内部IP的审核，二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS，不同领域。

l*e2013-11-01 07:11

23 楼

what you said is incorrect, guess you are not from a good IR/DM research
group (no offense)

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

l*e2013-11-01 07:11

24 楼

of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
background (PhD from decent groups or MS with several years of related exps
in decent firms)

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

C*r2013-11-01 07:11

25 楼

马克

P*22013-11-01 07:11

26 楼

我知道有个组发了很多WWW,SIGIR,NIPS,KDD，没有一篇文章TRANSFER到产品中的。。。

NLP
exps

【在 l**********e 的大作中提到】

: of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
: background (PhD from decent groups or MS with several years of related exps
: in decent firms)
:
: or

g*e2013-11-01 07:11

27 楼

有道理

【在 y***n 的大作中提到】

: 因为大家都知道中国人吹牛不如人家，都是为了照顾我们。

g*e2013-11-01 07:11

28 楼

是一种修辞手法 lol

【在 j******4 的大作中提到】

: 一光年是距离单位？

A*c2013-11-01 07:11

29 楼

本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification，Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是，工业界真正使用的算法，没有那么多fancy的东西，因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑，大部分都不怎么work。
或者tune了N久比传统算法好不了多少，还不稳定。
举例来说一个work的，page rank algorithm，这还是实现在真实系统里的。你要是实
现过你就知道，比起kleinberg的HITS algorithm没有什么优势，但是Google实现的好
，关键是加了很多有用的不被学术界所齿的heuristics，所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步，改善了人类的生活，请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中，I am glad to know。我去学习。btw，deep learning去年NIPS很火，技术被
google买了，那东西是彻底的刁丝翻身，NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again，The true fact is我很菜。我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我，是个好事儿，我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来，那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思，我也干这个，我就是想说，虽然不时会有一些比较
牛逼的算法出现，（比如像SVM，就是work）。但残酷的现实就是，绝大部分的
research work都
没有什么significant contribution，除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ，要去工业界，不用认为自己就牛逼得不得了，好像比没读phd
的高几等。

from

【在 l**********e 的大作中提到】

: please read more ML/DM papers, most of the pointer works are published from
: university & research center

j*x2013-11-01 07:11

30 楼

那你直接说ml dm领域就好了
google的论文这些领域也很多，你还是在乱讲

【在 v**n 的大作中提到】

: 您的解读能力还真是。。。
: 我只是说工业界和科研（指学校）是很不一样的。
: 另，那些work好的ML/DM的是很难发出来的，一是根本过不了内部IP的审核，二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS，不同领域。

S*u2013-11-01 07:11

31 楼

不做题没饭吃

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m*o2013-11-01 07:11

32 楼

“Working algorithms are usually very very simple. 忽悠algorithms are
usually intentionally made complex and not working. 我觉得如果连这个都没练出
来，那几百篇paper是白读了。”
正解~
前面拿“顶级paper”出来说事有点让人无奈，大家都是在学术圈混过的，也都是发过
所谓“顶级paper”的，不管数量多少（好吧，我承认我数量较少，1作只有一篇），就
别开这种不好笑的玩笑了行么。。。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

h*n2013-11-01 07:11

33 楼

确实工业界看学术圈大部分觉得都是toy cases

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

d*r2013-11-01 07:11

34 楼

强顶这个~~
难道大家做这么多年的research，还不明白现在学校所谓的research大多数就是纯扯淡
!?

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v*n2013-11-01 07:11

35 楼

能给个job的链接吗？

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

A*c2013-11-01 07:11

36 楼

懂的不多，胡扯凑凑热闹：）
IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
matching model，用的最多的估计还是vector space或者OKAPI 25。
ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
1TB内存...呵呵。
随便乱说的，大牛们再指教～

【在 s*****r 的大作中提到】

: 晕死，前两条的题能难死人

y*n2013-11-01 07:11

37 楼

因为大家都知道中国人吹牛不如人家，都是为了照顾我们。

v*n2013-11-01 07:11

38 楼

挺同意的，公司产品里面用的算法，真正work好的，如果要发paper的话，基本都是被
拒的水平。可见研究和实践的差别有多大。

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

j*x2013-11-01 07:11

39 楼

1TB内存算个啥？
desktop现在都是32G的标配，30台desktop就能打起来的东西也算难做？

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

j*x2013-11-01 07:11

40 楼

你看过顶级计算机系统、分布式系统的会议么？
google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文，
就以为搞科研都是浑水摸鱼。。。

【在 v**n 的大作中提到】

: 挺同意的，公司产品里面用的算法，真正work好的，如果要发paper的话，基本都是被
: 拒的水平。可见研究和实践的差别有多大。

v*n2013-11-01 07:11

41 楼

您的解读能力还真是。。。
我只是说工业界和科研（指学校）是很不一样的。
另，那些work好的ML/DM的是很难发出来的，一是根本过不了内部IP的审核，二是很多
都是在有大量数据的情况下做的一些比较adhoc的调整。
你说的情况是DS，不同领域。

【在 j********x 的大作中提到】

: 你看过顶级计算机系统、分布式系统的会议么？
: google很多都是内部系统等几年之后发布出来的。你不要以为每天看了很多垃圾论文，
: 就以为搞科研都是浑水摸鱼。。。

v*n2013-11-01 07:11

42 楼

不要觉得distributed system就是上帝，可以解决一切问题。 MR有自己的problem
space, 也不是万能的....

【在 j********x 的大作中提到】

: 1TB内存算个啥？
: desktop现在都是32G的标配，30台desktop就能打起来的东西也算难做？

j*42013-11-01 07:11

43 楼

一光年是距离单位？

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

l*e2013-11-01 07:11

44 楼

please read more ML/DM papers, most of the pointer works are published from
university & research center

【在 v**n 的大作中提到】

: 您的解读能力还真是。。。
: 我只是说工业界和科研（指学校）是很不一样的。
: 另，那些work好的ML/DM的是很难发出来的，一是根本过不了内部IP的审核，二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS，不同领域。

l*e2013-11-01 07:11

45 楼

what you said is incorrect, guess you are not from a good IR/DM research
group (no offense)

【在 A*********c 的大作中提到】

: 懂的不多，胡扯凑凑热闹：）
: IR没啥高深的算法，基本数据结构就是inverted list, skip list。然后加上几个
: matching model，用的最多的估计还是vector space或者OKAPI 25。
: ML实践中真正好使的都是最基本的算法吧。比较鬼扯的那些个灌水算法，加上一堆乱七
: 八糟regularizer或者推convergence bound的，估计也没人care，因为实际上一碰上真
: 实数据全不work。要么就是仅仅在小规模数据上work，碰上大数据就要算一光年或者要
: 1TB内存...呵呵。
: 随便乱说的，大牛们再指教～

l*e2013-11-01 07:11

46 楼

of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
background (PhD from decent groups or MS with several years of related exps
in decent firms)

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

C*r2013-11-01 07:11

47 楼

马克

P*22013-11-01 07:11

48 楼

我知道有个组发了很多WWW,SIGIR,NIPS,KDD，没有一篇文章TRANSFER到产品中的。。。

NLP
exps

【在 l**********e 的大作中提到】

: of course not, if this is a serious post, they want ppl with solid IR/ML/NLP
: background (PhD from decent groups or MS with several years of related exps
: in decent firms)
:
: or

g*e2013-11-01 07:11

49 楼

有道理

【在 y***n 的大作中提到】

: 因为大家都知道中国人吹牛不如人家，都是为了照顾我们。

g*e2013-11-01 07:11

50 楼

是一种修辞手法 lol

【在 j******4 的大作中提到】

: 一光年是距离单位？

A*c2013-11-01 07:11

51 楼

本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification，Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是，工业界真正使用的算法，没有那么多fancy的东西，因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑，大部分都不怎么work。
或者tune了N久比传统算法好不了多少，还不稳定。
举例来说一个work的，page rank algorithm，这还是实现在真实系统里的。你要是实
现过你就知道，比起kleinberg的HITS algorithm没有什么优势，但是Google实现的好
，关键是加了很多有用的不被学术界所齿的heuristics，所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步，改善了人类的生活，请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中，I am glad to know。我去学习。btw，deep learning去年NIPS很火，技术被
google买了，那东西是彻底的刁丝翻身，NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again，The true fact is我很菜。我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我，是个好事儿，我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来，那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思，我也干这个，我就是想说，虽然不时会有一些比较
牛逼的算法出现，（比如像SVM，就是work）。但残酷的现实就是，绝大部分的
research work都
没有什么significant contribution，除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ，要去工业界，不用认为自己就牛逼得不得了，好像比没读phd
的高几等。

from

【在 l**********e 的大作中提到】

: please read more ML/DM papers, most of the pointer works are published from
: university & research center

j*x2013-11-01 07:11

52 楼

那你直接说ml dm领域就好了
google的论文这些领域也很多，你还是在乱讲

【在 v**n 的大作中提到】

: 您的解读能力还真是。。。
: 我只是说工业界和科研（指学校）是很不一样的。
: 另，那些work好的ML/DM的是很难发出来的，一是根本过不了内部IP的审核，二是很多
: 都是在有大量数据的情况下做的一些比较adhoc的调整。
: 你说的情况是DS，不同领域。

S*u2013-11-01 07:11

53 楼

不做题没饭吃

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

m*o2013-11-01 07:11

54 楼

“Working algorithms are usually very very simple. 忽悠algorithms are
usually intentionally made complex and not working. 我觉得如果连这个都没练出
来，那几百篇paper是白读了。”
正解~
前面拿“顶级paper”出来说事有点让人无奈，大家都是在学术圈混过的，也都是发过
所谓“顶级paper”的，不管数量多少（好吧，我承认我数量较少，1作只有一篇），就
别开这种不好笑的玩笑了行么。。。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

h*n2013-11-01 07:11

55 楼

确实工业界看学术圈大部分觉得都是toy cases

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

d*r2013-11-01 07:11

56 楼

强顶这个~~
难道大家做这么多年的research，还不明白现在学校所谓的research大多数就是纯扯淡
!?

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v*n2013-11-01 07:11

57 楼

说的太好了。我们组以前有个junior，以为是斯坦福的phd就牛逼了，上来就跟我说你
读过多少paper, 很多paper里是这样的云云。我也没生气，就跟丫说这个业界都是有成
熟的方法的，你说的那些发个paper还行，产品里不是这样搞的。后来，找了个机会把
丫fire了。这种书和paper读的太多了，文化不fit的在非研究的团队里就是个祸害。。。
lovelyminnie也要我多看paper,那我也多看看。。嘿嘿。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v*n2013-11-01 07:11

58 楼

G这些领域的论文确实多，而且不可否认google内部的理论和工程水平都是牛叉中的牛
叉。但是论文和实际用的很不一样。
敢问你仔细看了吗？敢问你能以他们的论文为基础recreate同样的results吗？
如果你没有亲自做过，就不要说别人乱讲。

【在 j********x 的大作中提到】

: 那你直接说ml dm领域就好了
: google的论文这些领域也很多，你还是在乱讲

z*e2013-11-01 07:11

59 楼

介于扯蛋和不扯蛋的一种中间状态
至于什么时候能够进化到不扯蛋，那比较看运气
大多数还是end up with扯蛋

【在 d*******r 的大作中提到】

: 强顶这个~~
: 难道大家做这么多年的research，还不明白现在学校所谓的research大多数就是纯扯淡
: !?

z*e2013-11-01 07:11

60 楼

re一个
说得很欢乐
受用

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z*e2013-11-01 07:11

61 楼

我也想知道除了VSM以外还有其他啥特别牛逼的算法或者是统计之类的
我现在也处于一种扯蛋的状态，而且处于一种扯不出蛋的状态
谁能说点有意义的，我好写出去交差，包子小意思了

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z*e2013-11-01 07:11

62 楼

我最近学习的扯蛋发现效果都不如最简单的vsm这些
很希望有人educate me一下下，我好有点灵感，能迸发一点出来也好

【在 v**n 的大作中提到】

: G这些领域的论文确实多，而且不可否认google内部的理论和工程水平都是牛叉中的牛
: 叉。但是论文和实际用的很不一样。
: 敢问你仔细看了吗？敢问你能以他们的论文为基础recreate同样的results吗？
: 如果你没有亲自做过，就不要说别人乱讲。

z*e2013-11-01 07:11

63 楼

我前一段试了半死，发现最简单的vsm就是work
不需要什么特别复杂的algorithm或者statistical methods去tune
就能很有效，而且比其他人做的都更有效果
然后论证了一下其他方法不如最简单的这个
结论是最好的方式就是不要自找麻烦
结果写上去，被评为低分，评价是太过于简单
我！@＃￥％—＊
求大牛educate me，我好有点灵感去交差

【在 P****2 的大作中提到】

: 我知道有个组发了很多WWW,SIGIR,NIPS,KDD，没有一篇文章TRANSFER到产品中的。。。
:
: NLP
: exps

v*n2013-11-01 07:11

64 楼

和你情况相似。而且谷歌图像搜索的大牛跟我说，他们的方法就是上不了台面，内部审
核不说，就算出去了double blind review的话还可能被认为是哪个野鸡大学做的及其
没有理论依据的小玩闹。。。
工程现实就是这样，大家洗洗睡吧。

【在 z****e 的大作中提到】

: 我前一段试了半死，发现最简单的vsm就是work
: 不需要什么特别复杂的algorithm或者statistical methods去tune
: 就能很有效，而且比其他人做的都更有效果
: 然后论证了一下其他方法不如最简单的这个
: 结论是最好的方式就是不要自找麻烦
: 结果写上去，被评为低分，评价是太过于简单
: 我！@＃￥％—＊
: 求大牛educate me，我好有点灵感去交差

t*e2013-11-01 07:11

65 楼

这边扯谈的好好看看人家百度的余凯，msr的邓禹怎么用deep network/ml做出产品的。
更别说google now/google translate等从学术圈搬过去的东西

q*c2013-11-01 07:11

66 楼

这个都是办绿卡用的，真正面试都要先做题，做题是第一步。

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

f*22013-11-01 07:11

67 楼

Deep learning 是皇帝的新装。
与ANN有关的好的工作是 Neal 的 Bayesian NN 和 MacKay 等人的 Gaussian process。
不过，高维小样本，对什么方法都是个坎儿。
另外，SVM离了核方法也不是那么牛叉。
严重同意楼主的观点，工业界更看中简单有效的方法，学术界的一些装逼理论一到实践
里就歇菜了。

u*n2013-11-01 07:11

68 楼

怎么看出来是办绿卡用的？如何区别绿卡广告和正常招工广告？

【在 q********c 的大作中提到】

: 这个都是办绿卡用的，真正面试都要先做题，做题是第一步。
:
: or

X*i2013-11-01 07:11

69 楼

办绿卡用的广告效果是让读者却步。最好没人会申请。
它的目的是要证明给政府，公司聘不到合格的米国公民。

【在 u***n 的大作中提到】

: 怎么看出来是办绿卡用的？如何区别绿卡广告和正常招工广告？

u*n2013-11-01 07:11

70 楼

或者说是为那个人定身度作的？

【在 X****i 的大作中提到】

:
: 办绿卡用的广告效果是让读者却步。最好没人会申请。
: 它的目的是要证明给政府，公司聘不到合格的米国公民。

H*52013-11-01 07:11

71 楼

Can not agree more,
某日on site某不知名公司（就是抱着玩玩去面的态度的）
一去了某老中面试官屌的不行
（也不只是什么野鸡大学博士）
从头到尾就是宣扬：
基础知识的重要性
你要去读个美国名校
Research技术很重要很重要
计算机不是写代码
计算机算法，理论知识是无比重要的
等等。
我心里就hehe 了，
你MB屌个GB，
大家谁都不要装B，
本来就是个control C+control V的活，还TMB真得很难？很有技术含量？
非计算机的GB毛专业的刷题都能进FLG的又不是1个2个了
没有什么歧视的态度，
反正我看见某些自以为读了PHD的CS开始装的话，我心里就会不爽了。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

D*32013-11-01 07:11

72 楼

主要是看公司。。。
面试不面算法题的牛逼公司多了去了。

a*y2013-11-01 07:11

73 楼

顶这个，学术圈的state-of-the-art research和工业界的de-facto还是不一样的
但是目的本身也一样，学术界本质目的还是求新知。work的好的但是已经被充分理解的
，或者heuristic没有太大通用意义的发不出来也是正常
classification算法方面我觉得random forest, deep learning, boosting相关的都比
SVM更实用。SVM主要是背后的learning theory牛逼，算法本身已经有点过时了，因为
复杂度高并且本质上是shallow learning，而且不容易fine tune，但是理论不会过时
，因为理论就算暂时解释不了实践，也还是可以持续发展的。
clustering目前无解，因为问题本身定义是模糊的，对任意数据最多能够假设一个
gaussian mixture，也就是用k-means。很多文章也在质疑这个是science 还是 art。
但是可以期待一个好算法帮助选择k-means里面的k，同时又像kmeans本身一样高效。
Bayesian topic modeling可以做这个但感觉没有太大前途。未来的发展还是看好deep
learning的路线（unsupervised deep learning，和用于classification的不一样）
做feature learning。这就整个把clustering的问题都颠覆了。
我是菜鸟并且也不是做NLP的，凭感觉讨论一下learning的问题，请大牛多指教。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

a*y2013-11-01 07:11

74 楼

另外，从实用技术考虑来讲
如果kmeans不知道如何指定K，可以用Hierarchical clustering。复杂度高但是一次能
得到整个hierarchy。可以从中选择合适的cluster粒度。X-means指定K的方法没有用过
，不过好像比较流行。我需要去看一看。。。
KNN最大的瓶颈是O(n) complexity。但是KNN的solution space其实是对空间的voronoi
划分。random forest本质上也是对空间的划分。应该是取代KNN最理想的直接选择。

【在 a***y 的大作中提到】

: 顶这个，学术圈的state-of-the-art research和工业界的de-facto还是不一样的
: 但是目的本身也一样，学术界本质目的还是求新知。work的好的但是已经被充分理解的
: ，或者heuristic没有太大通用意义的发不出来也是正常
: classification算法方面我觉得random forest, deep learning, boosting相关的都比
: SVM更实用。SVM主要是背后的learning theory牛逼，算法本身已经有点过时了，因为
: 复杂度高并且本质上是shallow learning，而且不容易fine tune，但是理论不会过时
: ，因为理论就算暂时解释不了实践，也还是可以持续发展的。
: clustering目前无解，因为问题本身定义是模糊的，对任意数据最多能够假设一个
: gaussian mixture，也就是用k-means。很多文章也在质疑这个是science 还是 art。
: 但是可以期待一个好算法帮助选择k-means里面的k，同时又像kmeans本身一样高效。

w*g2013-11-01 07:11

75 楼

强贴，专门过来顶一下。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

l*m2013-11-01 07:11

76 楼

这心态有问题

A*x2013-11-01 07:11

77 楼

因为都是码农职位呗，有啥好讨论的，其他行业谁刷题。。。

v*n2013-11-01 07:11

78 楼

说的太好了。我们组以前有个junior，以为是斯坦福的phd就牛逼了，上来就跟我说你
读过多少paper, 很多paper里是这样的云云。我也没生气，就跟丫说这个业界都是有成
熟的方法的，你说的那些发个paper还行，产品里不是这样搞的。后来，找了个机会把
丫fire了。这种书和paper读的太多了，文化不fit的在非研究的团队里就是个祸害。。。
lovelyminnie也要我多看paper,那我也多看看。。嘿嘿。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

v*n2013-11-01 07:11

79 楼

G这些领域的论文确实多，而且不可否认google内部的理论和工程水平都是牛叉中的牛
叉。但是论文和实际用的很不一样。
敢问你仔细看了吗？敢问你能以他们的论文为基础recreate同样的results吗？
如果你没有亲自做过，就不要说别人乱讲。

【在 j********x 的大作中提到】

: 那你直接说ml dm领域就好了
: google的论文这些领域也很多，你还是在乱讲

z*e2013-11-01 07:11

80 楼

介于扯蛋和不扯蛋的一种中间状态
至于什么时候能够进化到不扯蛋，那比较看运气
大多数还是end up with扯蛋

【在 d*******r 的大作中提到】

: 强顶这个~~
: 难道大家做这么多年的research，还不明白现在学校所谓的research大多数就是纯扯淡
: !?

z*e2013-11-01 07:11

81 楼

re一个
说得很欢乐
受用

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z*e2013-11-01 07:11

82 楼

我也想知道除了VSM以外还有其他啥特别牛逼的算法或者是统计之类的
我现在也处于一种扯蛋的状态，而且处于一种扯不出蛋的状态
谁能说点有意义的，我好写出去交差，包子小意思了

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

z*e2013-11-01 07:11

83 楼

我最近学习的扯蛋发现效果都不如最简单的vsm这些
很希望有人educate me一下下，我好有点灵感，能迸发一点出来也好

【在 v**n 的大作中提到】

: G这些领域的论文确实多，而且不可否认google内部的理论和工程水平都是牛叉中的牛
: 叉。但是论文和实际用的很不一样。
: 敢问你仔细看了吗？敢问你能以他们的论文为基础recreate同样的results吗？
: 如果你没有亲自做过，就不要说别人乱讲。

z*e2013-11-01 07:11

84 楼

我前一段试了半死，发现最简单的vsm就是work
不需要什么特别复杂的algorithm或者statistical methods去tune
就能很有效，而且比其他人做的都更有效果
然后论证了一下其他方法不如最简单的这个
结论是最好的方式就是不要自找麻烦
结果写上去，被评为低分，评价是太过于简单
我！@＃￥％—＊
求大牛educate me，我好有点灵感去交差

【在 P****2 的大作中提到】

: 我知道有个组发了很多WWW,SIGIR,NIPS,KDD，没有一篇文章TRANSFER到产品中的。。。
:
: NLP
: exps

v*n2013-11-01 07:11

85 楼

和你情况相似。而且谷歌图像搜索的大牛跟我说，他们的方法就是上不了台面，内部审
核不说，就算出去了double blind review的话还可能被认为是哪个野鸡大学做的及其
没有理论依据的小玩闹。。。
工程现实就是这样，大家洗洗睡吧。

【在 z****e 的大作中提到】

: 我前一段试了半死，发现最简单的vsm就是work
: 不需要什么特别复杂的algorithm或者statistical methods去tune
: 就能很有效，而且比其他人做的都更有效果
: 然后论证了一下其他方法不如最简单的这个
: 结论是最好的方式就是不要自找麻烦
: 结果写上去，被评为低分，评价是太过于简单
: 我！@＃￥％—＊
: 求大牛educate me，我好有点灵感去交差

t*e2013-11-01 07:11

86 楼

这边扯谈的好好看看人家百度的余凯，msr的邓禹怎么用deep network/ml做出产品的。
更别说google now/google translate等从学术圈搬过去的东西

q*c2013-11-01 07:11

87 楼

这个都是办绿卡用的，真正面试都要先做题，做题是第一步。

or

【在 a***m 的大作中提到】

: 我看很多招聘要求都很专业啊比如 fb的一个SDE职位
: 靠做题能面这种吗
: MSc. or PhD. in Computer Science, Information Retrieval, Machine Learning or
: NLP or relevant industry experience
: Experience in classifiers, rankers or other Machine Learning technologies
: Extensive programming experience in C++, Java or C#
: Experience with Hadoop/Hbase/Pig or Mapreduce/Sawzall/Bigtable a plus
: Experience with scripting languages such as Perl, Python, PHP and shell
: scripts

f*22013-11-01 07:11

88 楼

Deep learning 是皇帝的新装。
与ANN有关的好的工作是 Neal 的 Bayesian NN 和 MacKay 等人的 Gaussian process。
不过，高维小样本，对什么方法都是个坎儿。
另外，SVM离了核方法也不是那么牛叉。
严重同意楼主的观点，工业界更看中简单有效的方法，学术界的一些装逼理论一到实践
里就歇菜了。

u*n2013-11-01 07:11

89 楼

怎么看出来是办绿卡用的？如何区别绿卡广告和正常招工广告？

【在 q********c 的大作中提到】

: 这个都是办绿卡用的，真正面试都要先做题，做题是第一步。
:
: or

X*i2013-11-01 07:11

90 楼

办绿卡用的广告效果是让读者却步。最好没人会申请。
它的目的是要证明给政府，公司聘不到合格的米国公民。

【在 u***n 的大作中提到】

: 怎么看出来是办绿卡用的？如何区别绿卡广告和正常招工广告？

u*n2013-11-01 07:11

91 楼

或者说是为那个人定身度作的？

【在 X****i 的大作中提到】

:
: 办绿卡用的广告效果是让读者却步。最好没人会申请。
: 它的目的是要证明给政府，公司聘不到合格的米国公民。

H*52013-11-01 07:11

92 楼

Can not agree more,
某日on site某不知名公司（就是抱着玩玩去面的态度的）
一去了某老中面试官屌的不行
（也不只是什么野鸡大学博士）
从头到尾就是宣扬：
基础知识的重要性
你要去读个美国名校
Research技术很重要很重要
计算机不是写代码
计算机算法，理论知识是无比重要的
等等。
我心里就hehe 了，
你MB屌个GB，
大家谁都不要装B，
本来就是个control C+control V的活，还TMB真得很难？很有技术含量？
非计算机的GB毛专业的刷题都能进FLG的又不是1个2个了
没有什么歧视的态度，
反正我看见某些自以为读了PHD的CS开始装的话，我心里就会不爽了。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

D*32013-11-01 07:11

93 楼

主要是看公司。。。
面试不面算法题的牛逼公司多了去了。

a*y2013-11-01 07:11

94 楼

顶这个，学术圈的state-of-the-art research和工业界的de-facto还是不一样的
但是目的本身也一样，学术界本质目的还是求新知。work的好的但是已经被充分理解的
，或者heuristic没有太大通用意义的发不出来也是正常
classification算法方面我觉得random forest, deep learning, boosting相关的都比
SVM更实用。SVM主要是背后的learning theory牛逼，算法本身已经有点过时了，因为
复杂度高并且本质上是shallow learning，而且不容易fine tune，但是理论不会过时
，因为理论就算暂时解释不了实践，也还是可以持续发展的。
clustering目前无解，因为问题本身定义是模糊的，对任意数据最多能够假设一个
gaussian mixture，也就是用k-means。很多文章也在质疑这个是science 还是 art。
但是可以期待一个好算法帮助选择k-means里面的k，同时又像kmeans本身一样高效。
Bayesian topic modeling可以做这个但感觉没有太大前途。未来的发展还是看好deep
learning的路线（unsupervised deep learning，和用于classification的不一样）
做feature learning。这就整个把clustering的问题都颠覆了。
我是菜鸟并且也不是做NLP的，凭感觉讨论一下learning的问题，请大牛多指教。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

a*y2013-11-01 07:11

95 楼

另外，从实用技术考虑来讲
如果kmeans不知道如何指定K，可以用Hierarchical clustering。复杂度高但是一次能
得到整个hierarchy。可以从中选择合适的cluster粒度。X-means指定K的方法没有用过
，不过好像比较流行。我需要去看一看。。。
KNN最大的瓶颈是O(n) complexity。但是KNN的solution space其实是对空间的voronoi
划分。random forest本质上也是对空间的划分。应该是取代KNN最理想的直接选择。

【在 a***y 的大作中提到】

: 顶这个，学术圈的state-of-the-art research和工业界的de-facto还是不一样的
: 但是目的本身也一样，学术界本质目的还是求新知。work的好的但是已经被充分理解的
: ，或者heuristic没有太大通用意义的发不出来也是正常
: classification算法方面我觉得random forest, deep learning, boosting相关的都比
: SVM更实用。SVM主要是背后的learning theory牛逼，算法本身已经有点过时了，因为
: 复杂度高并且本质上是shallow learning，而且不容易fine tune，但是理论不会过时
: ，因为理论就算暂时解释不了实践，也还是可以持续发展的。
: clustering目前无解，因为问题本身定义是模糊的，对任意数据最多能够假设一个
: gaussian mixture，也就是用k-means。很多文章也在质疑这个是science 还是 art。
: 但是可以期待一个好算法帮助选择k-means里面的k，同时又像kmeans本身一样高效。

w*g2013-11-01 07:11

96 楼

强贴，专门过来顶一下。

【在 A*********c 的大作中提到】

: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
: BM25, Statistically significantly better for general purpose document
: retrieval. Either implemented in Lucene or Lemur.
: 请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
: first choice of clustering when you see some arbitrary data.
: 对于Classification，Old Stuff Like KNN works well in many cases. Kernel
: algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大

l*m2013-11-01 07:11

97 楼

这心态有问题

A*x2013-11-01 07:11

98 楼

因为都是码农职位呗，有啥好讨论的，其他行业谁刷题。。。

x*62013-11-01 07:11

99 楼

支持啊，真正牛逼的PhD也有，但是只占phd毕业人种的少数，他们去当PI就行了。
大部分人还是毕业工作挣钱养家。。