Data scientist / Machine Learning Engineer 相关面试题 (转载) - 未名空间MITBBS历史存档

Data scientist / Machine Learning Engineer 相关面试题 (转载)# DataSciences - 数据科学

o*e2014-10-20 07:10

1 楼

【以下文字转载自 SanFrancisco 讨论区】
发信人: sammamish (sammamish), 信区: SanFrancisco
标题: 同是工厂设厂纠纷，看老美是如何斗法的 (转载)
发信站: BBS 未名空间站 (Wed May 14 18:57:15 2014, 美东)
发信人: beijingren (to thine own self be true), 信区: Military
标题: 同是工厂设厂纠纷，看老美是如何斗法的
发信站: BBS 未名空间站 (Wed May 14 14:43:59 2014, 美东)
http://blog.wenxuecity.com/myblog/46723/201405/12462.html
同是工厂设厂纠纷，看老美是如何斗法的
解滨
这几天的网络新闻，国内的一个热门议题是杭州垃圾焚烧厂选址遭到附近的老百姓抗议
。这几天美国的主流新闻也在报道加州的一个叫“Huy Fong Foods”的工厂遭到居民
抗议，居民要求该厂关门或搬迁一事。这件事还真和我们华裔有关。中美两国的地方
政府都在设厂选址的问题上遇到了麻烦，都遭到百姓的反弹或抗议。中国那边据说特
警都出动了。美国这边虽然没出动特警，却也惊动了加州和德州这美国的两个大州的
政要。
关于杭州垃圾焚烧厂那件事，我不敢乱说。但美国这事件，我却有所闻有所知。一开
始看到媒体上说这件事，我二话不说赶紧去中国店买了两瓶越南蒜蓉辣椒酱储备起来，
以备万一。买辣椒酱？对！那不是买来参加街头恶斗的，而是吃的！提起蒜蓉辣酱
，您也许会以为那不过是个家庭作坊小生意，能赚几个钱？最多不过是“老干妈”的
规模，犯得着两个州的政要们去操那份闲心吗？要知道德州是美国500强企业最为集
中的一个大州，而加州每年的GDP就多于许多中等国家。一个蒜蓉辣酱工厂算啥啊。
这您就错了，这一起工厂选址纠纷所牵涉的汇丰食品公司（Huy Fong Foods）的产业链
的上端有加州当地的数百椒农，下端有成千上万家食品公司和餐馆，更有几百万亚裔美
国人，甚至很多美国主流社会的食客，影响可大呢。
这里面还有我们华人的一个传奇故事。说起来话长，39年前美军撤出南越后，西贡（
今胡志明市）陷落，越战结束。夺取全国胜利后，越共和老东家中国翻脸，把上百万
的越南华侨不是给杀了就是剥夺财产，或者扔到大海里喂鲨鱼。中国曾派出巨轮把华
侨一批批接回去。有些华人在海上躲过鲨鱼和越共巡逻舰的追杀，历尽艰辛辗转到了
美国。这其中有个华人叫陈德（David Tran），广东潮州农民的后代。 35年前陈德来
到洛杉矶，靠领难民救济金安下家来。两年后这个华侨发现当地的泰国餐、越南餐以
及中餐都缺少一种可以被食客普遍接受的辣椒酱。这位在西贡的一个辣酱作坊里打过
小工的华侨比较了各国辣酱的特点后，独创了他自己的辣酱，注册了“Huy Fong Foods
”（汇丰食品公司），并以“Sriracha”商标开始投产。汇丰是他坐船逃到美国的那
艘台湾货轮的名字。这种辣椒酱看起来并不十分特别，不过是新鲜红辣椒、盐、醋、
大蒜、水和糖的混合物，类似于泰国辣椒酱。但他的工艺和配方十分独特。在银行拒
绝了他的20万美元的贷款申请后，他用家庭的全部积蓄5万美元，开始作坊式的小批量
生产，自己开一辆破旧的面包车四处兜售他的辣椒酱，很快他的产品受到多家餐馆的青
睐。
几年后这个手工作坊的营业规模赶不上需求，在1986年他开始工业规模的机械化生产，
在洛杉矶郊外的一个叫“Rosemead”的小城修建了一个中等规模的辣酱工厂，生意如滚
雪球似的越做越大，订单如雪片般地飞来。一开始那种辣酱不过只是深受亚裔美国人
的欢迎，很快美国的主流食品工业也开始重视其产品。从炸鸡到薯片，从Applebee到
Subway，许多主流社会的食品都把“Sriracha”辣酱作为调味品之一，在美国各大超级
市场的货架上都可以看到这种辣酱，以至于陈德的Rosemead生产线远远不能满足市场的
需求。 2012年，汇丰食品在洛杉矶远郊的另外一个小城温黛尔（Irwindale）建造了一
个面积达6万平方米的现代化厂房并投产，其产量是原工厂的3倍。就在这个时候，噩
梦开始了。
温黛尔的居民们的鼻子大概特别敏感，闻不得半点辣酱的气味。而陈德的辣酱工厂一
天到晚都散发出一点辣椒的气味，这让一些当地的某些居民十分反感。有些居民抱怨
闻到该辣酱厂的气味后会烧心、咳嗽、哮喘，甚至“流鼻血”。一开始只是四家居民
零星的抱怨，后来演化成为十几家民众联署呼吁书。事实上，在陈老板把他的工厂设
到温黛尔之前，温黛尔的市政当局还花了不少力气去笼络陈老板。但看到居民反对汇
丰食品工厂的舆论如此认真，市政当局官员为了今后的选票，也不得不拉下脸来，代表
选民们起诉汇丰，就和当年的越共那样翻脸不认人。
这是美国历史上第一次单独因为食品气味而不是其它问题而遭受起诉的案件。起诉方并
不知胜算如何，于是他们到EPA（环保局）叫苦连天，希望EPA勒令工厂关门。 EPA数次
派人到温黛尔那个辣酱工厂，里里外外翻了个底朝天，没有查出半点违规，因为辣椒的
辣味和玫瑰香味以及奶酪的臭味一样是不能算为环境污染的。汇丰工厂也邀请记者去
厂区自由拍照，记者看到的是一尘不染的现代化工厂，甚至闻不到辣味。经过数次听
证和双方的法庭辩论，2013年11月27日，洛杉矶的一个高等法院（Superior Court）法
官在拒绝了关闭工厂的请求后作出裁决：汇丰食品工厂必须减小其生产规模，就辣椒气
味问题进行整改，并限期和抗议群众打成协议。这所谓的整改以及达成协议其实就是
要把这个辣酱工厂撵走，一劳永逸地解决当地居民的烦恼。
一石激起千层浪，这个判决不但激怒了当地的椒农，也惹恼了下游的批发商。好在辣酱
生产高峰季节已经过去，并没有对去年的总产量造成巨大的冲击。但这给加州这个工农
业大州的脸上抹黑。加州一些政客开始站在陈老板一边，竭力挽留陈老板，为他四处
奔走并提供法律和舆论上的援助。这时候德州的政客乘虚而入，不失时机地来到陈老
板的办公室，苦口婆心地劝他把生产线搬迁到德州去，并许诺种种优惠，保证不会发生
加州这样的抗议事件。其实德州的政客们根本不需要花一分钱就可以白送给陈老板许
多好处 —— 德州的环保法以及各种法规对企业没有那么多的约束，远不像加州那样苛
刻，可以说德州是企业的天堂。这也就是为什么德州拥有全美最多的500强企业。
本周一（5月12日），以德州众议员Jason Villalba, 参议员 Carlos Uresti, 众议员
Hubert Vo为领队的一行政府官员视察了温黛尔的汇丰工厂。作为一种姿态，汇丰工
厂前挂起了一面德州州旗。这一搬迁案叫德州的政客们找到了一个突破口。陈老板有
些动心了，这之前他来到德州考察了好几次。温黛尔市政当局也有些后怕了，一再拖延
关于汇丰食品公司是否“公害” （public nuisance）的表决。如果是公害，那么辣
酱工厂就必须搬迁。这个案件迅速成为美国主流新闻的热门话题之一。
除了德州的政客一再大献殷勤，其它至少有10个州的一些政客也蠢蠢欲动。他们来到了
陈老板的办公室，凭借三寸不烂之舌拉拢陈老板去本州建厂，许诺出种种优惠。为什
么陈老板的工厂如同香饽饽一样受到各地政客们的青睐呢？这是因为他的两个生产线
高峰时每个小时灌装大约10000瓶辣酱，去年他的辣椒进货量就超过一亿磅，就这还不
够，这也没算其它原料（食醋、蔗糖、精盐等）的进货量。而且这个规模还以2位数的
年增长率在扩大。这是实打实的就业机会。陈老板只用新鲜的辣椒做辣椒酱，辣椒
采摘下来后往往6个小时内就送到生产线上切碎-研磨，这就要求工厂附近有充足的辣椒
供应源，也就是说工厂不能离椒农的农田太远。这样一来，工厂附近的农民们就跟着
陈老板发了。这不是简单的一个工厂的搬迁，而是整个产品链的搬迁。对于政客们来
说，这是千载难逢的拉选票的良机。
陈老板是不想搬迁的，因为即使工厂在德州建起来了，附近的农民也未必能够那么快地
改农田为椒田。那是一种朝天椒和美国当地的Jalapeno的杂交品种，最适合加州的气
候，所以搬迁总会造成减产的，减产就意味着提价，而提价必然会为竞争对手提供良机
，乘虚而入。而且他在加州居住了35年，和椒农们以及附近的食醋作坊的小老板们建
立了一种长期的合作关系，感情上难以割舍。但是如果温黛尔的市政当局确认辣酱工
厂的气味为公害，他们就是不搬迁也不行。
这件事本来不过是很简单的居民和工厂的纠纷，但在法院的一纸裁决后迅速成为一个政
治事件。加州的民主党和共和党都不想为此事背上黑锅，成为政敌的诟病。洛杉矶郡
共和党总部，洛杉矶的民主党众议员Tony Cardenas ，还有民主党的州参议员Ed
Hernandez（就是那个提出SCA-5的参议员）联合起来向温黛尔市政当局施加压力。参
议员Ed Hernandez形容汇丰食品为“闪亮的新星”（“shining star”）。
美国关于加州模式和德州模式之争早已公开化。加州是民主党的票仓和大本营，德州是
共和党的票仓和老窝。两个州都有惊人的业绩。德州政府近年来以强悍的姿态向加州
大举进攻，试图吸引加州的企业搬迁德州，打出一套套组合拳。加州毫不示弱，以其
人之道还治其人之身。谣传丰田汽车的美国销售总部要从加州搬迁到德州达拉斯附近
的Plano，如果此事成真，那么对加州的就业率会有相当的冲击。所以加州的政要在努
力避免。汇丰食品如果搬迁到德州，虽然对于加州的经济并不会带来很大的冲击，但
重要的是心理上的冲击。所以，这个辣酱工厂搬迁纠纷迅速成为民主党和共和党的一
大心病，加州的两党都不愿该工厂搬迁德州。德州的两党在这件事上也是高度一致，
都满心希望陈老板来德州落户办厂。
陈老板已经在其工厂安装了一套空气过滤装置来淡化辣椒的气味，6月1日投入使用。
昨天（5月13日），陈老板宣布将认真考虑在德州设分厂。与此同时，汇丰食品的工人
及其家属，还有当地的椒农以及相关的产业链上的许多从业者联合起来，抗议温黛尔市
政当局的粗暴干涉，希望汇丰食品不搬迁。但是当地的反辣椒气味的一些居民不甘示
弱。最后鹿死谁手，我们拭目以待。
这件事的双方虽然水火不相容，但斗争的方法是理性、和平的。双方都聘请了律师而
不是武功高手，在法院而不是街头一决雌雄。这背后也有政治利益的博弈，但也是理
性的和守法的。
看来俺暂时不必担心辣椒酱的短缺了。

d*e2014-10-20 07:10

2 楼

【以下文字转载自 JobHunting 讨论区】
发信人: ISphoenix (beta3), 信区: JobHunting
标题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist，machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist，machine learning engineer面试
题总结很少，所以尽量申请了很多公司面试相关职位，想看看行业里这个方向都在问什
么。有幸去过不少地方面试，现在把那些题目整理整理（全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite)，希望能帮助在找相关工作的
同学们。
题目写的简略，请大家见谅
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
1. Given a coin you don’t know it’s fair or unfair. Throw it 6 times and
get 1 tail and 5 head. Determine whether it’s fair or not. What’s your
confidence value?
2. Given Amazon data, how to predict which users are going to be top
shoppers in this holiday season.
3. Which regression methods are you familiar? How to evaluate regression
result?
4. Write down the formula for logistic regression. How to determine the
coefficients given the data?
5. How do you evaluate regression?
For example, in this particular case:
item click-through-rate predicted rate
1 0.04 0.06
2 0.68 0.78
3 0.27 0.19
4 0.52 0.57
…
6. What’s the formula for SVM? What is decision boundary?
7. A field with unknown number of rabbits. Catch 100 rabbits and put a label
on each of them. A few days later, catch 300 rabbits and found 60 with
labels. Estimate how many rabbits are there?
8. Given 10 coins with 1 unfair coin and 9 fair coins. The unfair coin has &
#8532; prob. to be head. Now random select 1 coin and throw it 3 times. You
observe head, head, tail. What’s the probability that the selected coin is
the unfair one?
9. What’s the formula for Naive Bayesian classifier? What’s the assumption
in the formula? What kind of data is Naive Bayesian good at? What is not?
10. What is the real distribution of click-through rate of items? If you
want to build a predictor/classifier for this data, how do you do it? How do
you divide the data?
11. You have a stream of data coming in, in the format as the following:
item_id, views, clicks, time
1 100 10 2013-11-28
1 1000 350 2013-11-29
1 200 14 2013-11-30
2 127 13 2013-12-1
…
The same id are consecutive.
Click through rate = clicks / views.
On every day, I want to output the item id when its click through rate is
larger than a given threshold.
For example, at day 1, item 1’s rate is 10/100=10%, day2, its (10+350)/(100
+1000)=0.32. day3 it is (10+350+14)/(100+1000+200)=0.28.
If my threshold is 0.3, then at day 1, I don’t output. On day2 I output. On
day3, I don’t output.
11. Given a dictionary and a string. Write a function, if every word is in
the dictionary return true, otherwise return false.
12. Generate all the permutation of a string.
For example, abc, acb, cba, …
13. We want to add a new feature to our product. How to determine if people
like it?
A/B testing. How to do A/B testing? How many ways? pros and cons?
14. 44.3% vs 47.2% is it significant?
15. Design a function to calculate people’s interest to a place against the
distance to the place.
16. How to encourage people to write more reviews on Yelp? How to determine
who are likely to write reviews? How to increase the registration rate of
Yelp? What features to add for a better Yelp app? We are expanding to other
countries. Which country we should enter first?
17. What’s the difference between classification and regression?
18. Can you explain how decision tree works? How to build a decision tree
from data?
19. What is regularization in regression? Why do regularization? How to do
regularization?
20. What is gradient descent? stochastic gradient descent?
21. We have a database of . When user
inputs a product name, how to return results fast?
22. If user gives a budget value, how to find the most expensive product
under budget? Assume the data fits in memory. What data structure, or
algorithm you use to find the product quickly? Write the program for it.
23. Given yelp data, how to find top 10 restaurants in America?
24. Given a large file that we don’t know how many lines are there. It
doesn’t fit into memory. We want to sample K lines from the file uniformly.
Write a program for it.
25. How to determine if one advertisement is performing better than the
other?
26. How to evaluate classification result? What if the results are in
probability mode?
If I want to build a classifier, but the data is very unbalanced. I have a
few positive samples but a lot of negative samples. What should I do?
27. Given a lot of data, I want to random sample 1% of them. How to do it
efficiently?
28. When a new user signs up Pinterest, we want to know its interests. We
decide to show the user a few pins, 2 pins at a time. Let the user choose
which pin s/he likes. After the user clicks on one of the 2, we select
another 2 pins.
Question: how to design the system and select the pins so that we can
achieve our goal?
29. Write a function to compute sqrt(X). Write a function to compute pow(x,
n) [square root and power)
30. Given a matrix
a b c d
e f g h
i j k l
Print it in this order:
a f k
b g l
c h
d
e j
i
31. Given a matrix and an array of words, find if the words are in the
matrix. You can search the
matrix in all directions: from left to right, right to left, up to down,
down to up, or diagonally.
For example
w o r x b
h e l o v
i n d e m
then the word “world” is in the matrix.
32. Given a coordinates, and two points A and B. How many ways to go from A
to B? You can only move up or right.
For example, from (1, 1) to (5, 7), one possible way is 1,1 -> 2, 1… 5, 1 -
> 5,2 -> ..5, 7
33. In a city where there are only vertical and horizontal streets. There
are people on the cross point. These people want to meet. Please find a
cross point to minimize the cost for all the people to move.
34. Design a job search ranking algorithm on glassdoor
35. How to identify review spam?
36. Glassdoor has this kind of data about a job : (position, company,
location, salary). For example (Software Engineer, Microsoft, Seattle, $125K
). For some records, all four entires are available. But for others, the
salary is missing. Design a way to estimate salary for those records.
37. When to send emails to users in a day can get maximum click through rate?
38. Youtube has video play log like this:
Video ID, time
vid1 t1
vid2 t2
... ...
The log is super large.
Find out the top 10 played videos on youtube in a given week.
39. Write a program to copy a graph
40. A bank has this access log:
IP address, time
ip1 t1
ip2 t2
... ...
If one ip accessed K times within m seconds, it may be an attack.
Given the log, identify all IPs that may cause attack.

T*u2014-10-20 07:10

3 楼

牛。这么多背公式的，太变态了吧。

h*72014-10-20 07:10

4 楼

我出的题
简述 vc dimension 以及和 svm 关系
svm怎么实现？有没有比smo更快的？
各种kernel空间维度，怎么用
简述MAP, fisher information
简述MCMC基本类型，难点
bayesian vs frequentist pros and cons
boostrap好处，性质
手推PCA
向量求导手推
微分方程手推
简述categorical处理
牛顿法，共轭梯度，模拟退火，各类优化求解
各种图搜索
真做过ML的，上面都是小意思
没做过的，基本没可能突击出来

w*m2014-10-20 07:10

5 楼

大牛，这些问题用代码怎么实现?

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

T*u2014-10-20 07:10

6 楼

你还是考手推lanczos好啦。恍若回到了当年数值分析考试，都是手推，没有cheat
sheet，只许用一张16开演算纸。可以正反面用。

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

h*72014-10-20 07:10

7 楼

我这些都是ml
非ml不会考

h*72014-10-20 07:10

8 楼

问答题而已
coding自有其他人去花时间陪着

【在 w********m 的大作中提到】

: 大牛，这些问题用代码怎么实现?

b*h2014-10-20 07:10

9 楼

都会，大牛，你找人么？

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

h*72014-10-20 07:10

10 楼

等机会

【在 b********h 的大作中提到】

: 都会，大牛，你找人么？

d*e2014-10-20 07:10

11 楼

Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM，有啥比SMO更
快速的算法？

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

d*e2014-10-20 07:10

12 楼

好八股的面试题，呵呵。

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

h*72014-10-20 07:10

13 楼

大都是open question
没考ANN POSIX不算八股

【在 d******e 的大作中提到】

: 好八股的面试题，呵呵。

d*e2014-10-20 07:10

14 楼

基本都是照本宣科的东西，学过了就知道。
考察不出真正做modelling的能力，还不如预测下个月销量这种问题靠谱。

【在 h*****7 的大作中提到】

: 大都是open question
: 没考ANN POSIX不算八股

f*22014-10-20 07:10

15 楼

老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
以我个人的经验，懂这些有个屁用！
手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！
老子花了很长时间总结失败的面试，基本与智商无关。最关键的是情商，得会幽默着侃
晕你的考官，得有一个阳光健康的外型。
至于工业界里的数学，计算机系或物理系本科的就够了。我们组的一个白人老油条，虽
然除了玩得仍然不太熟练的PCA什么都不会，但他就有本事跟什么人都能侃到一起。这
个本事，恰恰是咱们欠缺的技能。
作为资深WSN，我想我的考题就是：你是华人吗？是就放水，不是就出个分支数未知的
高斯混合模型让你手推！！！！

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

T*u2014-10-20 07:10

16 楼

没有健康阳光的外形，有什么slide或者网上教程可以推荐吗

【在 f*********2 的大作中提到】

: 老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
: 还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
: 典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
: 的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
: 个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
: 过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
: 二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
: 以我个人的经验，懂这些有个屁用！
: 手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
: 所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！

f*22014-10-20 07:10

17 楼

每天坚持听郭德纲于谦的对口相声，以及刘宝瑞的单口。
笑的形式可以参阅金三胖，发型就不必了。
把大肚囊练掉，刮掉那唏嘘的胡子，换双好鞋，穿一身干净的衣服，放下 Bishop 的那
本烂书，从现在开始你的侃大山生涯。。。

【在 T*****u 的大作中提到】

: 没有健康阳光的外形，有什么slide或者网上教程可以推荐吗

T*u2014-10-20 07:10

18 楼

闹鬼了，我正在听郭德纲，感情是入门了。

【在 f*********2 的大作中提到】

: 每天坚持听郭德纲于谦的对口相声，以及刘宝瑞的单口。
: 笑的形式可以参阅金三胖，发型就不必了。
: 把大肚囊练掉，刮掉那唏嘘的胡子，换双好鞋，穿一身干净的衣服，放下 Bishop 的那
: 本烂书，从现在开始你的侃大山生涯。。。

c*z2014-10-20 07:10

19 楼

大牛，您这是找人教课还是找人解决问题：P
您的这些问题我都得一个个去google

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

c*z2014-10-20 07:10

20 楼

我的问题
1. 找出top k items，不要求real time
2. how to compare two distributions
3. feature generation from unstructured data
4. fundamentals of your favorite model
5. understanding of the bias variance tradeoff
6. fundamentals of gradient decent
7. what will you do if you have all the money you need
8. how do you multitask (or how to avoid it)
9. how much do you know about us

f*22014-10-20 07:10

21 楼

和你不太一样，我是面朝大海，喝瓶啤酒。
请大侠对我的回答给予指点！

什么是 top k items，求解释。
一大堆方法，例如 KL divergence，Kolmogorov-Smirnov goodness-of-fit test, etc.
这个得问专家，哪些 feature 是和问题有关的
这个能说出一大堆。一般地，好的模型的想法都是简单为美。
跷跷板呗。如果系统误差给定，Bias+Var=一个常数，一个增大，另一个就减小。
譬如找局部最小，就是每一步都朝最陡的方向跳。要保证每步都往下跳哦～
其实，梯度下降法就是 Newton-Raphson 方法的一个简化版本。
面朝大海，喝瓶啤酒。如果肚子有空间，再加碗凉皮。
客户着急哪个做哪个
用狗狗查！

【在 c***z 的大作中提到】

: 我的问题
: 1. 找出top k items，不要求real time
: 2. how to compare two distributions
: 3. feature generation from unstructured data
: 4. fundamentals of your favorite model
: 5. understanding of the bias variance tradeoff
: 6. fundamentals of gradient decent
: 7. what will you do if you have all the money you need
: 8. how do you multitask (or how to avoid it)
: 9. how much do you know about us

f*22014-10-20 07:10

22 楼

我有个更变态的问题：linear SVM of type nu-regression 和 GLM 什么关系？

【在 d******e 的大作中提到】

: Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM，有啥比SMO更
: 快速的算法？

T*u2014-10-20 07:10

23 楼

你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系，
但更关心球感是不是好啊？

【在 c***z 的大作中提到】

: 我的问题
: 1. 找出top k items，不要求real time
: 2. how to compare two distributions
: 3. feature generation from unstructured data
: 4. fundamentals of your favorite model
: 5. understanding of the bias variance tradeoff
: 6. fundamentals of gradient decent
: 7. what will you do if you have all the money you need
: 8. how do you multitask (or how to avoid it)
: 9. how much do you know about us

d*e2014-10-20 07:10

24 楼

所以说这玩意就是八股。
做faculty这些远远不够，做engineer这些玩意基本没用。

【在 f*********2 的大作中提到】

: 老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
: 还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
: 典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
: 的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
: 个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
: 过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
: 二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
: 以我个人的经验，懂这些有个屁用！
: 手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
: 所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！

d*e2014-10-20 07:10

25 楼

够BT，我连nu-SVR都没听说过。

【在 f*********2 的大作中提到】

: 我有个更变态的问题：linear SVM of type nu-regression 和 GLM 什么关系？

l*g2014-10-20 07:10

26 楼

我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟，如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了，以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification，Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是，工业界真正使用的算法，没有那么多fancy的东西，因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑，大部分都不怎么work。
或者tune了N久比传统算法好不了多少，还不稳定。
举例来说一个work的，page rank algorithm，这还是实现在真实系统里的。你要是实
现过你就知道，比起kleinberg的HITS algorithm没有什么优势，但是Google实现的好
，关键是加了很多有用的不被学术界所齿的heuristics，所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步，改善了人类的生活，请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中，I am glad to know。我去学习。btw，deep learning去年NIPS很火，技术被
google买了，那东西是彻底的刁丝翻身，NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again，The true fact is我很菜。我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我，是个好事儿，我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来，那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思，我也干这个，我就是想说，虽然不时会有一些比较
牛逼的算法出现，（比如像SVM，就是work）。但残酷的现实就是，绝大部分的
research work都
没有什么significant contribution，除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ，要去工业界，不用认为自己就牛逼得不得了，好像比没读phd
的高几等。

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

d*e2014-10-20 07:10

27 楼

其实弄些基础知识screen掉一些人就足够了。
完全没必要搞得多fancy。

set
implement
not.
is
usually
比较
phd

【在 l****g 的大作中提到】

: 我也负责我们组ML面试, 我对你的出题很难苟同
: 你出的这些题背得怎么熟，如果我要solve一个 PB level data problem, 怎么用?
: 所以我就不拍了，以前有个贴总结的挺好我就直接贴过来吧:
: 发信人: Algorithmic (Zeal), 信区: JobHunting
: 标题: Re: 为什么你么都说现在招聘走做题路线
: 发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi

c*z2014-10-20 07:10

28 楼

和你不太一样，我是面朝大海，喝瓶啤酒。
请大侠对我的回答给予指点！
指导不敢，相互切磋：）

什么是 top k items，求解释。
就是SQL表，找出top selling item什么的
遇到三哥，就问问real time怎么弄－ min heap max heap 都要用，足够麻烦了
一大堆方法，例如 KL divergence，Kolmogorov-Smirnov goodness-of-fit test, etc.
要求解释原理，为什么离散分布不能用KS
遇到三哥，就问如果KS不是用min distance而是mean distance 会怎样
这个得问专家，哪些 feature 是和问题有关的
会给一个project，比如地图上GPS点的分布
这个能说出一大堆。一般地，好的模型的想法都是简单为美。
会问细节，比如decision tree 如何split
遇到三哥问问如果decision tree randomly split会怎样
跷跷板呗。如果系统误差给定，Bias+Var=一个常数，一个增大，另一个就减小。
差不多，顺便问问lasso
譬如找局部最小，就是每一步都朝最陡的方向跳。要保证每步都往下跳哦～
其实，梯度下降法就是 Newton-Raphson 方法的一个简化版本。
差不多，顺便问问为什么有时候不收敛
三哥就让推一下logit gradient decent
面朝大海，喝瓶啤酒。如果肚子有空间，再加碗凉皮。
啤酒什么牌子的
三哥就说culture不合适，大家喝的不是一个牌子的啤酒
客户着急哪个做哪个
用户当然都着急。这个还是的自己和老板讨论优先级。
用狗狗查！
现查来不及了吧：）

【在 c***z 的大作中提到】

: 我的问题
: 1. 找出top k items，不要求real time
: 2. how to compare two distributions
: 3. feature generation from unstructured data
: 4. fundamentals of your favorite model
: 5. understanding of the bias variance tradeoff
: 6. fundamentals of gradient decent
: 7. what will you do if you have all the money you need
: 8. how do you multitask (or how to avoid it)
: 9. how much do you know about us

f*22014-10-20 07:10

29 楼

分布函数已知，就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
divergence 不满足对称性，因此不是距离。
分布函数未知，大样本情况下用经验分布函数近似。比较二者，KS test 离散连续通吃
，统计量由 maximum distance between empirical distribution functions 构造，
服从 Kolmogorov 分布。
我老板的座佑铭是“客户是上帝〃，客户让干什么就干什么。
青岛啤酒不错。

etc.

【在 c***z 的大作中提到】

: 和你不太一样，我是面朝大海，喝瓶啤酒。
: 请大侠对我的回答给予指点！
: 指导不敢，相互切磋：）
:
: 什么是 top k items，求解释。
: 就是SQL表，找出top selling item什么的
: 遇到三哥，就问问real time怎么弄－ min heap max heap 都要用，足够麻烦了
: 一大堆方法，例如 KL divergence，Kolmogorov-Smirnov goodness-of-fit test, etc.
: 要求解释原理，为什么离散分布不能用KS
: 遇到三哥，就问如果KS不是用min distance而是mean distance 会怎样

c*z2014-10-20 07:10

30 楼

基本上都是分布函数未知，或者没那个美国时间折腾，所以上KS
离散分布由于tie太多，p value会偏低，对于KS stat的CI会过于乐观－但是 who
cares
KS stat确实基于max distance，我记错了；如果用mean distance会怎样？
还有一个我爱问的，就是能不能用KL或者KS或者其他什么cos之类的做k mean
clustering
客户不是上帝，老板才是上帝。
对于客户，最重要的是manage expectation，不能让干什么就干什么－否则后果你试
试就知道了
事实上，对于老板也是要manage expectation，不能让干什么就干什么－但是你要够牛
区别是前者可以用老板做肉盾，用老板的credit，后者只能用自己的credit
青岛啤酒＋1

【在 f*********2 的大作中提到】

: 分布函数已知，就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
: divergence 不满足对称性，因此不是距离。
: 分布函数未知，大样本情况下用经验分布函数近似。比较二者，KS test 离散连续通吃
: ，统计量由 maximum distance between empirical distribution functions 构造，
: 服从 Kolmogorov 分布。
: 我老板的座佑铭是“客户是上帝〃，客户让干什么就干什么。
: 青岛啤酒不错。
:
: etc.

c*z2014-10-20 07:10

31 楼

对，这种东西要学通了，确实就是一种感觉。死记硬背没什么意思，推公式也是推一次
就够了，但是对于什么时候上什么工具，必须要融会贯通。

【在 T*****u 的大作中提到】

: 你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系，
: 但更关心球感是不是好啊？

c*z2014-10-20 07:10

32 楼

要出难题我分分钟可以出，直接拿我的本行组合数学的教材就行，也不需要太多专业知
识－人家都没法抱怨我刁难
但是对我来说，面试的核心就是对方不蠢不二，不是猪一样的队友

T*u2014-10-20 07:10

33 楼

+1。我的标准是第一对行业有common sense，第二绝对不能有big ego，第三人不傻，
愿意学。我们项目里有两个人，一个学理论物理出身，一个核物理转计算机，都是米国
人，都干过辩论队，第一点没有，第二点很多，第三点确实都很聪明，结果把我害惨了
。。。

【在 c***z 的大作中提到】

: 要出难题我分分钟可以出，直接拿我的本行组合数学的教材就行，也不需要太多专业知
: 识－人家都没法抱怨我刁难
: 但是对我来说，面试的核心就是对方不蠢不二，不是猪一样的队友

T*u2014-10-20 07:10

34 楼

大牛你们有总结一下这些缩写吗？我看的很头晕。:)

f*22014-10-20 07:10

35 楼

manage expectation +10
学习了，的确如此。

够牛

【在 c***z 的大作中提到】

: 要出难题我分分钟可以出，直接拿我的本行组合数学的教材就行，也不需要太多专业知
: 识－人家都没法抱怨我刁难
: 但是对我来说，面试的核心就是对方不蠢不二，不是猪一样的队友

f*22014-10-20 07:10

36 楼

一般地，数学系的能证，物理系的能算。这样的人用好了，可以有正能量。
我总觉得心理学，尤其是人际交往那类的，比统计学和机器学习实用多了。

【在 T*****u 的大作中提到】

: +1。我的标准是第一对行业有common sense，第二绝对不能有big ego，第三人不傻，
: 愿意学。我们项目里有两个人，一个学理论物理出身，一个核物理转计算机，都是米国
: 人，都干过辩论队，第一点没有，第二点很多，第三点确实都很聪明，结果把我害惨了
: 。。。

g*o2014-10-20 07:10

37 楼

人际交往完全不用心理学好么→_→
就像组装电脑不用去学补码乘法

【在 f*********2 的大作中提到】

: 一般地，数学系的能证，物理系的能算。这样的人用好了，可以有正能量。
: 我总觉得心理学，尤其是人际交往那类的，比统计学和机器学习实用多了。

T*u2014-10-20 07:10

38 楼

有时间讲讲这俩二逼野猪队友的事。我叫着不做sales的话也没那么高要求，该做什么
事的时候拿什么样的调调就好。wave hands的场合就wave hands，有些conference上各
种新的算法结果的就瞎吹吹，哪怕精度永远不可重复，客户没交钱的时候给他希望把他
哄进来，做项目的时候要明白自己的constraint和expectation，该要更多resource的
时候要更多的resource，该trade off的时候trade off。

【在 f*********2 的大作中提到】

: 一般地，数学系的能证，物理系的能算。这样的人用好了，可以有正能量。
: 我总觉得心理学，尤其是人际交往那类的，比统计学和机器学习实用多了。

l*k2014-10-20 07:10

39 楼

这些题要是能做出来80%，再加上点金融知识，应该可以上墙街了吧。

d*12014-10-20 07:10

40 楼

Thanks

h*72014-10-20 07:10

41 楼

首先这些都是ML基础性的东西，而且是open question，没有任何刁难的意思。楼上也
有很多人说了他们都会。
其二统计和应数不是死记硬背的科目，考察的也不是死记硬背，而是有没有这方面的
sense。有些东西不懂完全没问题，但是得有这个sense去思考去阐释。
60分钟内想考察一个CS PhD，是很难的，特别是ML这种应用领域
如果面entry level或者analytics，才会问简单的分析问题

【在 d******e 的大作中提到】

: 基本都是照本宣科的东西，学过了就知道。
: 考察不出真正做modelling的能力，还不如预测下个月销量这种问题靠谱。

h*72014-10-20 07:10

42 楼

既然说到法考题，哥可以负责任说，法考题面试从来没人问你技术问题，只会针对你的
项目发问
法考题最重要的几项要求基本和技术无关

【在 d******e 的大作中提到】

: 所以说这玩意就是八股。
: 做faculty这些远远不够，做engineer这些玩意基本没用。

h*72014-10-20 07:10

43 楼

其实是寂寞了找人聊天:p
聊得入港一个不会都不要紧

【在 c***z 的大作中提到】

: 大牛，您这是找人教课还是找人解决问题：P
: 您的这些问题我都得一个个去google

f*22014-10-20 07:10

44 楼

对~~~~~头~~~~
看对眼儿，咋地都行。

【在 h*****7 的大作中提到】

: 其实是寂寞了找人聊天:p
: 聊得入港一个不会都不要紧

C*r2014-10-20 07:10

45 楼

点个赞。

【在 f*********2 的大作中提到】

: 老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
: 还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
: 典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
: 的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
: 个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
: 过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
: 二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
: 以我个人的经验，懂这些有个屁用！
: 手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
: 所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！

C*r2014-10-20 07:10

46 楼

老米没有大ego的很少啊。。。求对待大ego但眼高手低者的好方法。

【在 T*****u 的大作中提到】

: +1。我的标准是第一对行业有common sense，第二绝对不能有big ego，第三人不傻，
: 愿意学。我们项目里有两个人，一个学理论物理出身，一个核物理转计算机，都是米国
: 人，都干过辩论队，第一点没有，第二点很多，第三点确实都很聪明，结果把我害惨了
: 。。。

d*e2014-10-20 07:10

47 楼

【以下文字转载自 JobHunting 讨论区】
发信人: ISphoenix (beta3), 信区: JobHunting
标题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist，machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist，machine learning engineer面试
题总结很少，所以尽量申请了很多公司面试相关职位，想看看行业里这个方向都在问什
么。有幸去过不少地方面试，现在把那些题目整理整理（全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite)，希望能帮助在找相关工作的
同学们。
题目写的简略，请大家见谅
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
1. Given a coin you don’t know it’s fair or unfair. Throw it 6 times and
get 1 tail and 5 head. Determine whether it’s fair or not. What’s your
confidence value?
2. Given Amazon data, how to predict which users are going to be top
shoppers in this holiday season.
3. Which regression methods are you familiar? How to evaluate regression
result?
4. Write down the formula for logistic regression. How to determine the
coefficients given the data?
5. How do you evaluate regression?
For example, in this particular case:
item click-through-rate predicted rate
1 0.04 0.06
2 0.68 0.78
3 0.27 0.19
4 0.52 0.57
…
6. What’s the formula for SVM? What is decision boundary?
7. A field with unknown number of rabbits. Catch 100 rabbits and put a label
on each of them. A few days later, catch 300 rabbits and found 60 with
labels. Estimate how many rabbits are there?
8. Given 10 coins with 1 unfair coin and 9 fair coins. The unfair coin has &
#8532; prob. to be head. Now random select 1 coin and throw it 3 times. You
observe head, head, tail. What’s the probability that the selected coin is
the unfair one?
9. What’s the formula for Naive Bayesian classifier? What’s the assumption
in the formula? What kind of data is Naive Bayesian good at? What is not?
10. What is the real distribution of click-through rate of items? If you
want to build a predictor/classifier for this data, how do you do it? How do
you divide the data?
11. You have a stream of data coming in, in the format as the following:
item_id, views, clicks, time
1 100 10 2013-11-28
1 1000 350 2013-11-29
1 200 14 2013-11-30
2 127 13 2013-12-1
…
The same id are consecutive.
Click through rate = clicks / views.
On every day, I want to output the item id when its click through rate is
larger than a given threshold.
For example, at day 1, item 1’s rate is 10/100=10%, day2, its (10+350)/(100
+1000)=0.32. day3 it is (10+350+14)/(100+1000+200)=0.28.
If my threshold is 0.3, then at day 1, I don’t output. On day2 I output. On
day3, I don’t output.
11. Given a dictionary and a string. Write a function, if every word is in
the dictionary return true, otherwise return false.
12. Generate all the permutation of a string.
For example, abc, acb, cba, …
13. We want to add a new feature to our product. How to determine if people
like it?
A/B testing. How to do A/B testing? How many ways? pros and cons?
14. 44.3% vs 47.2% is it significant?
15. Design a function to calculate people’s interest to a place against the
distance to the place.
16. How to encourage people to write more reviews on Yelp? How to determine
who are likely to write reviews? How to increase the registration rate of
Yelp? What features to add for a better Yelp app? We are expanding to other
countries. Which country we should enter first?
17. What’s the difference between classification and regression?
18. Can you explain how decision tree works? How to build a decision tree
from data?
19. What is regularization in regression? Why do regularization? How to do
regularization?
20. What is gradient descent? stochastic gradient descent?
21. We have a database of . When user
inputs a product name, how to return results fast?
22. If user gives a budget value, how to find the most expensive product
under budget? Assume the data fits in memory. What data structure, or
algorithm you use to find the product quickly? Write the program for it.
23. Given yelp data, how to find top 10 restaurants in America?
24. Given a large file that we don’t know how many lines are there. It
doesn’t fit into memory. We want to sample K lines from the file uniformly.
Write a program for it.
25. How to determine if one advertisement is performing better than the
other?
26. How to evaluate classification result? What if the results are in
probability mode?
If I want to build a classifier, but the data is very unbalanced. I have a
few positive samples but a lot of negative samples. What should I do?
27. Given a lot of data, I want to random sample 1% of them. How to do it
efficiently?
28. When a new user signs up Pinterest, we want to know its interests. We
decide to show the user a few pins, 2 pins at a time. Let the user choose
which pin s/he likes. After the user clicks on one of the 2, we select
another 2 pins.
Question: how to design the system and select the pins so that we can
achieve our goal?
29. Write a function to compute sqrt(X). Write a function to compute pow(x,
n) [square root and power)
30. Given a matrix
a b c d
e f g h
i j k l
Print it in this order:
a f k
b g l
c h
d
e j
i
31. Given a matrix and an array of words, find if the words are in the
matrix. You can search the
matrix in all directions: from left to right, right to left, up to down,
down to up, or diagonally.
For example
w o r x b
h e l o v
i n d e m
then the word “world” is in the matrix.
32. Given a coordinates, and two points A and B. How many ways to go from A
to B? You can only move up or right.
For example, from (1, 1) to (5, 7), one possible way is 1,1 -> 2, 1… 5, 1 -
> 5,2 -> ..5, 7
33. In a city where there are only vertical and horizontal streets. There
are people on the cross point. These people want to meet. Please find a
cross point to minimize the cost for all the people to move.
34. Design a job search ranking algorithm on glassdoor
35. How to identify review spam?
36. Glassdoor has this kind of data about a job : (position, company,
location, salary). For example (Software Engineer, Microsoft, Seattle, $125K
). For some records, all four entires are available. But for others, the
salary is missing. Design a way to estimate salary for those records.
37. When to send emails to users in a day can get maximum click through rate?
38. Youtube has video play log like this:
Video ID, time
vid1 t1
vid2 t2
... ...
The log is super large.
Find out the top 10 played videos on youtube in a given week.
39. Write a program to copy a graph
40. A bank has this access log:
IP address, time
ip1 t1
ip2 t2
... ...
If one ip accessed K times within m seconds, it may be an attack.
Given the log, identify all IPs that may cause attack.

T*u2014-10-20 07:10

48 楼

牛。这么多背公式的，太变态了吧。

h*72014-10-20 07:10

49 楼

我出的题
简述 vc dimension 以及和 svm 关系
svm怎么实现？有没有比smo更快的？
各种kernel空间维度，怎么用
简述MAP, fisher information
简述MCMC基本类型，难点
bayesian vs frequentist pros and cons
boostrap好处，性质
手推PCA
向量求导手推
微分方程手推
简述categorical处理
牛顿法，共轭梯度，模拟退火，各类优化求解
各种图搜索
真做过ML的，上面都是小意思
没做过的，基本没可能突击出来

w*m2014-10-20 07:10

50 楼

大牛，这些问题用代码怎么实现?

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

T*u2014-10-20 07:10

51 楼

你还是考手推lanczos好啦。恍若回到了当年数值分析考试，都是手推，没有cheat
sheet，只许用一张16开演算纸。可以正反面用。

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

h*72014-10-20 07:10

52 楼

我这些都是ml
非ml不会考

h*72014-10-20 07:10

53 楼

问答题而已
coding自有其他人去花时间陪着

【在 w********m 的大作中提到】

: 大牛，这些问题用代码怎么实现?

b*h2014-10-20 07:10

54 楼

都会，大牛，你找人么？

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

h*72014-10-20 07:10

55 楼

等机会

【在 b********h 的大作中提到】

: 都会，大牛，你找人么？

d*e2014-10-20 07:10

56 楼

Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM，有啥比SMO更
快速的算法？

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

d*e2014-10-20 07:10

57 楼

好八股的面试题，呵呵。

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

h*72014-10-20 07:10

58 楼

大都是open question
没考ANN POSIX不算八股

【在 d******e 的大作中提到】

: 好八股的面试题，呵呵。

d*e2014-10-20 07:10

59 楼

基本都是照本宣科的东西，学过了就知道。
考察不出真正做modelling的能力，还不如预测下个月销量这种问题靠谱。

【在 h*****7 的大作中提到】

: 大都是open question
: 没考ANN POSIX不算八股

f*22014-10-20 07:10

60 楼

老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
以我个人的经验，懂这些有个屁用！
手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！
老子花了很长时间总结失败的面试，基本与智商无关。最关键的是情商，得会幽默着侃
晕你的考官，得有一个阳光健康的外型。
至于工业界里的数学，计算机系或物理系本科的就够了。我们组的一个白人老油条，虽
然除了玩得仍然不太熟练的PCA什么都不会，但他就有本事跟什么人都能侃到一起。这
个本事，恰恰是咱们欠缺的技能。
作为资深WSN，我想我的考题就是：你是华人吗？是就放水，不是就出个分支数未知的
高斯混合模型让你手推！！！！

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

T*u2014-10-20 07:10

61 楼

没有健康阳光的外形，有什么slide或者网上教程可以推荐吗

【在 f*********2 的大作中提到】

: 老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
: 还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
: 典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
: 的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
: 个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
: 过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
: 二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
: 以我个人的经验，懂这些有个屁用！
: 手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
: 所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！

f*22014-10-20 07:10

62 楼

每天坚持听郭德纲于谦的对口相声，以及刘宝瑞的单口。
笑的形式可以参阅金三胖，发型就不必了。
把大肚囊练掉，刮掉那唏嘘的胡子，换双好鞋，穿一身干净的衣服，放下 Bishop 的那
本烂书，从现在开始你的侃大山生涯。。。

【在 T*****u 的大作中提到】

: 没有健康阳光的外形，有什么slide或者网上教程可以推荐吗

T*u2014-10-20 07:10

63 楼

闹鬼了，我正在听郭德纲，感情是入门了。

【在 f*********2 的大作中提到】

: 每天坚持听郭德纲于谦的对口相声，以及刘宝瑞的单口。
: 笑的形式可以参阅金三胖，发型就不必了。
: 把大肚囊练掉，刮掉那唏嘘的胡子，换双好鞋，穿一身干净的衣服，放下 Bishop 的那
: 本烂书，从现在开始你的侃大山生涯。。。

c*z2014-10-20 07:10

64 楼

大牛，您这是找人教课还是找人解决问题：P
您的这些问题我都得一个个去google

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

c*z2014-10-20 07:10

65 楼

我的问题
1. 找出top k items，不要求real time
2. how to compare two distributions
3. feature generation from unstructured data
4. fundamentals of your favorite model
5. understanding of the bias variance tradeoff
6. fundamentals of gradient decent
7. what will you do if you have all the money you need
8. how do you multitask (or how to avoid it)
9. how much do you know about us

f*22014-10-20 07:10

66 楼

和你不太一样，我是面朝大海，喝瓶啤酒。
请大侠对我的回答给予指点！

什么是 top k items，求解释。
一大堆方法，例如 KL divergence，Kolmogorov-Smirnov goodness-of-fit test, etc.
这个得问专家，哪些 feature 是和问题有关的
这个能说出一大堆。一般地，好的模型的想法都是简单为美。
跷跷板呗。如果系统误差给定，Bias+Var=一个常数，一个增大，另一个就减小。
譬如找局部最小，就是每一步都朝最陡的方向跳。要保证每步都往下跳哦～
其实，梯度下降法就是 Newton-Raphson 方法的一个简化版本。
面朝大海，喝瓶啤酒。如果肚子有空间，再加碗凉皮。
客户着急哪个做哪个
用狗狗查！

【在 c***z 的大作中提到】

: 我的问题
: 1. 找出top k items，不要求real time
: 2. how to compare two distributions
: 3. feature generation from unstructured data
: 4. fundamentals of your favorite model
: 5. understanding of the bias variance tradeoff
: 6. fundamentals of gradient decent
: 7. what will you do if you have all the money you need
: 8. how do you multitask (or how to avoid it)
: 9. how much do you know about us

f*22014-10-20 07:10

67 楼

我有个更变态的问题：linear SVM of type nu-regression 和 GLM 什么关系？

【在 d******e 的大作中提到】

: Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM，有啥比SMO更
: 快速的算法？

T*u2014-10-20 07:10

68 楼

你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系，
但更关心球感是不是好啊？

【在 c***z 的大作中提到】

: 我的问题
: 1. 找出top k items，不要求real time
: 2. how to compare two distributions
: 3. feature generation from unstructured data
: 4. fundamentals of your favorite model
: 5. understanding of the bias variance tradeoff
: 6. fundamentals of gradient decent
: 7. what will you do if you have all the money you need
: 8. how do you multitask (or how to avoid it)
: 9. how much do you know about us

d*e2014-10-20 07:10

69 楼

所以说这玩意就是八股。
做faculty这些远远不够，做engineer这些玩意基本没用。

【在 f*********2 的大作中提到】

: 老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
: 还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
: 典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
: 的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
: 个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
: 过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
: 二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
: 以我个人的经验，懂这些有个屁用！
: 手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
: 所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！

d*e2014-10-20 07:10

70 楼

够BT，我连nu-SVR都没听说过。

【在 f*********2 的大作中提到】

: 我有个更变态的问题：linear SVM of type nu-regression 和 GLM 什么关系？

l*g2014-10-20 07:10

71 楼

我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟，如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了，以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification，Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是，工业界真正使用的算法，没有那么多fancy的东西，因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑，大部分都不怎么work。
或者tune了N久比传统算法好不了多少，还不稳定。
举例来说一个work的，page rank algorithm，这还是实现在真实系统里的。你要是实
现过你就知道，比起kleinberg的HITS algorithm没有什么优势，但是Google实现的好
，关键是加了很多有用的不被学术界所齿的heuristics，所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步，改善了人类的生活，请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中，I am glad to know。我去学习。btw，deep learning去年NIPS很火，技术被
google买了，那东西是彻底的刁丝翻身，NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again，The true fact is我很菜。我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我，是个好事儿，我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来，那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思，我也干这个，我就是想说，虽然不时会有一些比较
牛逼的算法出现，（比如像SVM，就是work）。但残酷的现实就是，绝大部分的
research work都
没有什么significant contribution，除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ，要去工业界，不用认为自己就牛逼得不得了，好像比没读phd
的高几等。

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推

d*e2014-10-20 07:10

72 楼

其实弄些基础知识screen掉一些人就足够了。
完全没必要搞得多fancy。

set
implement
not.
is
usually
比较
phd

【在 l****g 的大作中提到】

: 我也负责我们组ML面试, 我对你的出题很难苟同
: 你出的这些题背得怎么熟，如果我要solve一个 PB level data problem, 怎么用?
: 所以我就不拍了，以前有个贴总结的挺好我就直接贴过来吧:
: 发信人: Algorithmic (Zeal), 信区: JobHunting
: 标题: Re: 为什么你么都说现在招聘走做题路线
: 发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
: 本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
: 请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
: text retrieval system中.
: 请告诉我任意一个document retrieval model，比vector space model 或者 Okapi

c*z2014-10-20 07:10

73 楼

和你不太一样，我是面朝大海，喝瓶啤酒。
请大侠对我的回答给予指点！
指导不敢，相互切磋：）

什么是 top k items，求解释。
就是SQL表，找出top selling item什么的
遇到三哥，就问问real time怎么弄－ min heap max heap 都要用，足够麻烦了
一大堆方法，例如 KL divergence，Kolmogorov-Smirnov goodness-of-fit test, etc.
要求解释原理，为什么离散分布不能用KS
遇到三哥，就问如果KS不是用min distance而是mean distance 会怎样
这个得问专家，哪些 feature 是和问题有关的
会给一个project，比如地图上GPS点的分布
这个能说出一大堆。一般地，好的模型的想法都是简单为美。
会问细节，比如decision tree 如何split
遇到三哥问问如果decision tree randomly split会怎样
跷跷板呗。如果系统误差给定，Bias+Var=一个常数，一个增大，另一个就减小。
差不多，顺便问问lasso
譬如找局部最小，就是每一步都朝最陡的方向跳。要保证每步都往下跳哦～
其实，梯度下降法就是 Newton-Raphson 方法的一个简化版本。
差不多，顺便问问为什么有时候不收敛
三哥就让推一下logit gradient decent
面朝大海，喝瓶啤酒。如果肚子有空间，再加碗凉皮。
啤酒什么牌子的
三哥就说culture不合适，大家喝的不是一个牌子的啤酒
客户着急哪个做哪个
用户当然都着急。这个还是的自己和老板讨论优先级。
用狗狗查！
现查来不及了吧：）

【在 c***z 的大作中提到】

: 我的问题
: 1. 找出top k items，不要求real time
: 2. how to compare two distributions
: 3. feature generation from unstructured data
: 4. fundamentals of your favorite model
: 5. understanding of the bias variance tradeoff
: 6. fundamentals of gradient decent
: 7. what will you do if you have all the money you need
: 8. how do you multitask (or how to avoid it)
: 9. how much do you know about us

f*22014-10-20 07:10

74 楼

分布函数已知，就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
divergence 不满足对称性，因此不是距离。
分布函数未知，大样本情况下用经验分布函数近似。比较二者，KS test 离散连续通吃
，统计量由 maximum distance between empirical distribution functions 构造，
服从 Kolmogorov 分布。
我老板的座佑铭是“客户是上帝〃，客户让干什么就干什么。
青岛啤酒不错。

etc.

【在 c***z 的大作中提到】

: 和你不太一样，我是面朝大海，喝瓶啤酒。
: 请大侠对我的回答给予指点！
: 指导不敢，相互切磋：）
:
: 什么是 top k items，求解释。
: 就是SQL表，找出top selling item什么的
: 遇到三哥，就问问real time怎么弄－ min heap max heap 都要用，足够麻烦了
: 一大堆方法，例如 KL divergence，Kolmogorov-Smirnov goodness-of-fit test, etc.
: 要求解释原理，为什么离散分布不能用KS
: 遇到三哥，就问如果KS不是用min distance而是mean distance 会怎样

c*z2014-10-20 07:10

75 楼

基本上都是分布函数未知，或者没那个美国时间折腾，所以上KS
离散分布由于tie太多，p value会偏低，对于KS stat的CI会过于乐观－但是 who
cares
KS stat确实基于max distance，我记错了；如果用mean distance会怎样？
还有一个我爱问的，就是能不能用KL或者KS或者其他什么cos之类的做k mean
clustering
客户不是上帝，老板才是上帝。
对于客户，最重要的是manage expectation，不能让干什么就干什么－否则后果你试
试就知道了
事实上，对于老板也是要manage expectation，不能让干什么就干什么－但是你要够牛
区别是前者可以用老板做肉盾，用老板的credit，后者只能用自己的credit
青岛啤酒＋1

【在 f*********2 的大作中提到】

: 分布函数已知，就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
: divergence 不满足对称性，因此不是距离。
: 分布函数未知，大样本情况下用经验分布函数近似。比较二者，KS test 离散连续通吃
: ，统计量由 maximum distance between empirical distribution functions 构造，
: 服从 Kolmogorov 分布。
: 我老板的座佑铭是“客户是上帝〃，客户让干什么就干什么。
: 青岛啤酒不错。
:
: etc.

c*z2014-10-20 07:10

76 楼

对，这种东西要学通了，确实就是一种感觉。死记硬背没什么意思，推公式也是推一次
就够了，但是对于什么时候上什么工具，必须要融会贯通。

【在 T*****u 的大作中提到】

: 你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系，
: 但更关心球感是不是好啊？

c*z2014-10-20 07:10

77 楼

要出难题我分分钟可以出，直接拿我的本行组合数学的教材就行，也不需要太多专业知
识－人家都没法抱怨我刁难
但是对我来说，面试的核心就是对方不蠢不二，不是猪一样的队友

T*u2014-10-20 07:10

78 楼

+1。我的标准是第一对行业有common sense，第二绝对不能有big ego，第三人不傻，
愿意学。我们项目里有两个人，一个学理论物理出身，一个核物理转计算机，都是米国
人，都干过辩论队，第一点没有，第二点很多，第三点确实都很聪明，结果把我害惨了
。。。

【在 c***z 的大作中提到】

: 要出难题我分分钟可以出，直接拿我的本行组合数学的教材就行，也不需要太多专业知
: 识－人家都没法抱怨我刁难
: 但是对我来说，面试的核心就是对方不蠢不二，不是猪一样的队友

T*u2014-10-20 07:10

79 楼

大牛你们有总结一下这些缩写吗？我看的很头晕。:)

f*22014-10-20 07:10

80 楼

manage expectation +10
学习了，的确如此。

够牛

【在 c***z 的大作中提到】

: 要出难题我分分钟可以出，直接拿我的本行组合数学的教材就行，也不需要太多专业知
: 识－人家都没法抱怨我刁难
: 但是对我来说，面试的核心就是对方不蠢不二，不是猪一样的队友

f*22014-10-20 07:10

81 楼

一般地，数学系的能证，物理系的能算。这样的人用好了，可以有正能量。
我总觉得心理学，尤其是人际交往那类的，比统计学和机器学习实用多了。

【在 T*****u 的大作中提到】

: +1。我的标准是第一对行业有common sense，第二绝对不能有big ego，第三人不傻，
: 愿意学。我们项目里有两个人，一个学理论物理出身，一个核物理转计算机，都是米国
: 人，都干过辩论队，第一点没有，第二点很多，第三点确实都很聪明，结果把我害惨了
: 。。。

g*o2014-10-20 07:10

82 楼

人际交往完全不用心理学好么→_→
就像组装电脑不用去学补码乘法

【在 f*********2 的大作中提到】

: 一般地，数学系的能证，物理系的能算。这样的人用好了，可以有正能量。
: 我总觉得心理学，尤其是人际交往那类的，比统计学和机器学习实用多了。

T*u2014-10-20 07:10

83 楼

有时间讲讲这俩二逼野猪队友的事。我叫着不做sales的话也没那么高要求，该做什么
事的时候拿什么样的调调就好。wave hands的场合就wave hands，有些conference上各
种新的算法结果的就瞎吹吹，哪怕精度永远不可重复，客户没交钱的时候给他希望把他
哄进来，做项目的时候要明白自己的constraint和expectation，该要更多resource的
时候要更多的resource，该trade off的时候trade off。

【在 f*********2 的大作中提到】

: 一般地，数学系的能证，物理系的能算。这样的人用好了，可以有正能量。
: 我总觉得心理学，尤其是人际交往那类的，比统计学和机器学习实用多了。

l*k2014-10-20 07:10

84 楼

这些题要是能做出来80%，再加上点金融知识，应该可以上墙街了吧。

d*12014-10-20 07:10

85 楼

Thanks

h*72014-10-20 07:10

86 楼

首先这些都是ML基础性的东西，而且是open question，没有任何刁难的意思。楼上也
有很多人说了他们都会。
其二统计和应数不是死记硬背的科目，考察的也不是死记硬背，而是有没有这方面的
sense。有些东西不懂完全没问题，但是得有这个sense去思考去阐释。
60分钟内想考察一个CS PhD，是很难的，特别是ML这种应用领域
如果面entry level或者analytics，才会问简单的分析问题

【在 d******e 的大作中提到】

: 基本都是照本宣科的东西，学过了就知道。
: 考察不出真正做modelling的能力，还不如预测下个月销量这种问题靠谱。

h*72014-10-20 07:10

87 楼

既然说到法考题，哥可以负责任说，法考题面试从来没人问你技术问题，只会针对你的
项目发问
法考题最重要的几项要求基本和技术无关

【在 d******e 的大作中提到】

: 所以说这玩意就是八股。
: 做faculty这些远远不够，做engineer这些玩意基本没用。

h*72014-10-20 07:10

88 楼

其实是寂寞了找人聊天:p
聊得入港一个不会都不要紧

【在 c***z 的大作中提到】

: 大牛，您这是找人教课还是找人解决问题：P
: 您的这些问题我都得一个个去google

f*22014-10-20 07:10

89 楼

对~~~~~头~~~~
看对眼儿，咋地都行。

【在 h*****7 的大作中提到】

: 其实是寂寞了找人聊天:p
: 聊得入港一个不会都不要紧

C*r2014-10-20 07:10

90 楼

点个赞。

【在 f*********2 的大作中提到】

: 老大，做ML的这些都是入门要求，您所提到的这些俺都能手推。
: 还能顺着 Fisher information 侃一点 information geometry；吹吹 MCMC 的几个经
: 典算法，包括 reversible jump MCMC；大谈主观贝叶斯和客观贝叶斯，以及和频率派
: 的那些恩恩怨怨；解常微方程不敢，聊一聊它的定性与稳定性理论，像 Lyapunov的几
: 个定理还是可以的；耍矩阵是一方面，另外还懂点张量分析；微分几何和微分拓扑都学
: 过，捡捡还能继续；从 Newton 法、梯度下降法、Lagrange 乘子法（包括对偶问题、
: 二次规划）到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
: 以我个人的经验，懂这些有个屁用！
: 手推更是变态！！又不是作发考题。就是当教书匠，大牛 Ng 讲课还拿着稿呢。
: 所以，我尊重你的学识，鄙视你的几乎致人内伤的考题！！！

C*r2014-10-20 07:10

91 楼

老米没有大ego的很少啊。。。求对待大ego但眼高手低者的好方法。

【在 T*****u 的大作中提到】

: +1。我的标准是第一对行业有common sense，第二绝对不能有big ego，第三人不傻，
: 愿意学。我们项目里有两个人，一个学理论物理出身，一个核物理转计算机，都是米国
: 人，都干过辩论队，第一点没有，第二点很多，第三点确实都很聪明，结果把我害惨了
: 。。。

d*e2014-10-20 07:10

92 楼

没人问你技术问题，很大程度是因为你没什么技术... ...
BTW：我又考了下古，发现你在抱怨NIPS的圈子，我猜你NIPS要么没发过，要么最多发
个一篇半篇的... ...我觉得就不要张口闭口大谈ML的Common Sense了... ...

【在 h*****7 的大作中提到】

: 既然说到法考题，哥可以负责任说，法考题面试从来没人问你技术问题，只会针对你的
: 项目发问
: 法考题最重要的几项要求基本和技术无关

d*e2014-10-20 07:10

93 楼

考察PhD的水平，自然看他的Project的质量，和他对自己project的理解。
问这些东西完全没有用。只要正经上过Machine Learning课程的，简单复习一下就都搞
定了。根本看不出区别。

【在 h*****7 的大作中提到】

: 首先这些都是ML基础性的东西，而且是open question，没有任何刁难的意思。楼上也
: 有很多人说了他们都会。
: 其二统计和应数不是死记硬背的科目，考察的也不是死记硬背，而是有没有这方面的
: sense。有些东西不懂完全没问题，但是得有这个sense去思考去阐释。
: 60分钟内想考察一个CS PhD，是很难的，特别是ML这种应用领域
: 如果面entry level或者analytics，才会问简单的分析问题

T*u2014-10-20 07:10

94 楼

让他吹，让他作，让他死

【在 C**********r 的大作中提到】

:
: 老米没有大ego的很少啊。。。求对待大ego但眼高手低者的好方法。

e*n2014-10-20 07:10

95 楼

1. Given a coin you don’t know it’s fair or unfair. Throw it 6 times and
get 1 tail and 5 head. Determine whether it’s fair or not. What’s your
confidence value?
我的答案是：
H0: the coin is fair
Ha: the coin is unfair
significance level alpha:
alpha = P(reject H0 wrongly when we have 5 head| H0 is true)
= choose(6,1)*(1/2)^6 = 6*(0.5^6) = 0.09375
because alpha > 0.05, we do not have enough evidence to reject H0, and we
accpte H0, so the coin is fair
confidence value = 1 - alpha = 1 - 0.09375 = 0.90625
不知道对不对，求指教

d*e2014-10-20 07:10

96 楼

没人问你技术问题，很大程度是因为你没什么技术... ...
BTW：我又考了下古，发现你在抱怨NIPS的圈子，我猜你NIPS要么没发过，要么最多发
个一篇半篇的... ...我觉得就不要张口闭口大谈ML的Common Sense了... ...

【在 h*****7 的大作中提到】

: 既然说到法考题，哥可以负责任说，法考题面试从来没人问你技术问题，只会针对你的
: 项目发问
: 法考题最重要的几项要求基本和技术无关

d*e2014-10-20 07:10

97 楼

考察PhD的水平，自然看他的Project的质量，和他对自己project的理解。
问这些东西完全没有用。只要正经上过Machine Learning课程的，简单复习一下就都搞
定了。根本看不出区别。

【在 h*****7 的大作中提到】

: 首先这些都是ML基础性的东西，而且是open question，没有任何刁难的意思。楼上也
: 有很多人说了他们都会。
: 其二统计和应数不是死记硬背的科目，考察的也不是死记硬背，而是有没有这方面的
: sense。有些东西不懂完全没问题，但是得有这个sense去思考去阐释。
: 60分钟内想考察一个CS PhD，是很难的，特别是ML这种应用领域
: 如果面entry level或者analytics，才会问简单的分析问题

T*u2014-10-20 07:10

98 楼

让他吹，让他作，让他死

【在 C**********r 的大作中提到】

:
: 老米没有大ego的很少啊。。。求对待大ego但眼高手低者的好方法。

x*02014-10-20 07:10

99 楼

mark学习一下

C*Y2014-10-20 07:10

100 楼

Mark

h*d2014-10-20 07:10

101 楼

Microsoft,

【在 d***e 的大作中提到】

: 【以下文字转载自 JobHunting 讨论区】
: 发信人: ISphoenix (beta3), 信区: JobHunting
: 标题: Data scientist / Machine Learning Engineer 相关面试题
: 关键字: data scientist，machine learning
: 发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
: 去年我找工作的时候发现板上针对data scientist，machine learning engineer面试
: 题总结很少，所以尽量申请了很多公司面试相关职位，想看看行业里这个方向都在问什
: 么。有幸去过不少地方面试，现在把那些题目整理整理（全部来自Amazon, Microsoft,
: Yelp, Pinterest,
: Square, Google, Glassdoor, Groupon的电面和onsite)，希望能帮助在找相关工作的

n*72014-10-20 07:10

102 楼

作为google型选手
看到007的问题心里拔凉拔凉的
您又给了我一丝希望

【在 c***z 的大作中提到】

: 大牛，您这是找人教课还是找人解决问题：P
: 您的这些问题我都得一个个去google

n*72014-10-20 07:10

103 楼

外行请教一下用Hellinger distance如何？
我最近遇到这个问题，试过Hellinger distance，还有有chi-square statistic, 都不
太好，
最后用的非常简单的一个距离定义搞定的
没办法，数据太差，只有简单的才work，但是老板觉得很可能被问道这里

【在 f*********2 的大作中提到】

: 分布函数已知，就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
: divergence 不满足对称性，因此不是距离。
: 分布函数未知，大样本情况下用经验分布函数近似。比较二者，KS test 离散连续通吃
: ，统计量由 maximum distance between empirical distribution functions 构造，
: 服从 Kolmogorov 分布。
: 我老板的座佑铭是“客户是上帝〃，客户让干什么就干什么。
: 青岛啤酒不错。
:
: etc.

j*d2014-10-20 07:10

104 楼

超级有用感谢楼主

f*52014-10-20 07:10

105 楼

Mark~~~

j*52014-10-20 07:10

106 楼

Mark

★ 发自iPhone App: ChineseWeb 13

【在 d***e 的大作中提到】

: 【以下文字转载自 JobHunting 讨论区】
: 发信人: ISphoenix (beta3), 信区: JobHunting
: 标题: Data scientist / Machine Learning Engineer 相关面试题
: 关键字: data scientist，machine learning
: 发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
: 去年我找工作的时候发现板上针对data scientist，machine learning engineer面试
: 题总结很少，所以尽量申请了很多公司面试相关职位，想看看行业里这个方向都在问什
: 么。有幸去过不少地方面试，现在把那些题目整理整理（全部来自Amazon, Microsoft,
: Yelp, Pinterest,
: Square, Google, Glassdoor, Groupon的电面和onsite)，希望能帮助在找相关工作的

x*02014-10-20 07:10

107 楼

mark学习一下

C*Y2014-10-20 07:10

108 楼

Mark

n*72014-10-20 07:10

109 楼

作为google型选手
看到007的问题心里拔凉拔凉的
您又给了我一丝希望

【在 c***z 的大作中提到】

: 大牛，您这是找人教课还是找人解决问题：P
: 您的这些问题我都得一个个去google

n*72014-10-20 07:10

110 楼

外行请教一下用Hellinger distance如何？
我最近遇到这个问题，试过Hellinger distance，还有有chi-square statistic, 都不
太好，
最后用的非常简单的一个距离定义搞定的
没办法，数据太差，只有简单的才work，但是老板觉得很可能被问道这里

【在 f*********2 的大作中提到】

: 分布函数已知，就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
: divergence 不满足对称性，因此不是距离。
: 分布函数未知，大样本情况下用经验分布函数近似。比较二者，KS test 离散连续通吃
: ，统计量由 maximum distance between empirical distribution functions 构造，
: 服从 Kolmogorov 分布。
: 我老板的座佑铭是“客户是上帝〃，客户让干什么就干什么。
: 青岛啤酒不错。
:
: etc.

j*d2014-10-20 07:10

111 楼

超级有用感谢楼主

f*52014-10-20 07:10

112 楼

Mark~~~

j*52014-10-20 07:10

113 楼

Mark

★ 发自iPhone App: ChineseWeb 13

【在 d***e 的大作中提到】

: 【以下文字转载自 JobHunting 讨论区】
: 发信人: ISphoenix (beta3), 信区: JobHunting
: 标题: Data scientist / Machine Learning Engineer 相关面试题
: 关键字: data scientist，machine learning
: 发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
: 去年我找工作的时候发现板上针对data scientist，machine learning engineer面试
: 题总结很少，所以尽量申请了很多公司面试相关职位，想看看行业里这个方向都在问什
: 么。有幸去过不少地方面试，现在把那些题目整理整理（全部来自Amazon, Microsoft,
: Yelp, Pinterest,
: Square, Google, Glassdoor, Groupon的电面和onsite)，希望能帮助在找相关工作的

x*o2014-10-20 07:10

114 楼

大牛，好多不会啊

【在 h*****7 的大作中提到】

: 我出的题
: 简述 vc dimension 以及和 svm 关系
: svm怎么实现？有没有比smo更快的？
: 各种kernel空间维度，怎么用
: 简述MAP, fisher information
: 简述MCMC基本类型，难点
: bayesian vs frequentist pros and cons
: boostrap好处，性质
: 手推PCA
: 向量求导手推