Redian新闻
>
新鲜 A家电面经,并吐槽
avatar
新鲜 A家电面经,并吐槽# JobHunting - 待字闺中
j*g
1
是Market Analytic 这个部门的 research scientist 位置,一个阿三师太,整整问了
一个小时的modeling 问题,围绕classification 问题,具体例子要求解决给用户
display appropriate ads, number of features could be more than 10k. 我提到先
做unsupervised learning,然后try to reduce number of features. 提到用
logistic regression, naive Bayes classifier, 等。然后又聊其他统计model,如何
解决overfitting, 如何用regularization, 如何查outlier 等。。整整一个小时拿听
筒的手都整酸了。。。总体感觉马马虎虎,但应该可以继续一轮面。结果一周后被据,
应该是被三阿姨黑了吧。
新鲜经历,供大家参考。大牛如果懂上面提到的那个显示广告的问题,也请讨论讨论。
avatar
l*e
2
多谢lz分享,你已经很牛了啊,这都背黑。
我最近一直在看machine learning,但是没做过project没有直观感受, 遇到问题的时
候想不起来要用。

【在 j*****g 的大作中提到】
: 是Market Analytic 这个部门的 research scientist 位置,一个阿三师太,整整问了
: 一个小时的modeling 问题,围绕classification 问题,具体例子要求解决给用户
: display appropriate ads, number of features could be more than 10k. 我提到先
: 做unsupervised learning,然后try to reduce number of features. 提到用
: logistic regression, naive Bayes classifier, 等。然后又聊其他统计model,如何
: 解决overfitting, 如何用regularization, 如何查outlier 等。。整整一个小时拿听
: 筒的手都整酸了。。。总体感觉马马虎虎,但应该可以继续一轮面。结果一周后被据,
: 应该是被三阿姨黑了吧。
: 新鲜经历,供大家参考。大牛如果懂上面提到的那个显示广告的问题,也请讨论讨论。

avatar
d*x
3
try something like this by yourself.
http://www.kaggle.com/c/crowdflower-weather-twitter

【在 l******e 的大作中提到】
: 多谢lz分享,你已经很牛了啊,这都背黑。
: 我最近一直在看machine learning,但是没做过project没有直观感受, 遇到问题的时
: 候想不起来要用。

avatar
j*g
5
安慰下MM,大家都有这么一个过程,估计你是new graduate,慢慢来。或者你在学一个
具体 method的时候,试试搜 sample application,或者注意看reference,有时候有
实例。
经验慢慢积多了,你就会融会贯通了

【在 l******e 的大作中提到】
: 多谢lz分享,你已经很牛了啊,这都背黑。
: 我最近一直在看machine learning,但是没做过project没有直观感受, 遇到问题的时
: 候想不起来要用。

avatar
c*e
6
pat pat
avatar
l*e
7
这是个好方法,多谢mm,祝你早日拿到好offer!!

【在 j*****g 的大作中提到】
: 安慰下MM,大家都有这么一个过程,估计你是new graduate,慢慢来。或者你在学一个
: 具体 method的时候,试试搜 sample application,或者注意看reference,有时候有
: 实例。
: 经验慢慢积多了,你就会融会贯通了

avatar
h*3
8
"display appropriate ads, number of features could be more than 10k. 我提到
先做unsupervised learning,然后try to reduce number of features. "
正规做法是logistic regression+regularization,LASSO等等。naive Bayes
classifier在高维稀疏情况下是绝对不行的。从后面的讨论可以看出,你还是懂
regularization的,但是不知道如何使用。面试官后来引导你讨论一下
regularization和overfitting的问题,其实是在给你一个提示。
楼主给人的感觉是上过machine learning的课的学生,但是深度方面还远达不到
research scientist的地步,被拒是正常的。另外不知道楼主的publication如何。通
常research scientist的面试,publication不行的话,即便面得再好也有可能被拒。
不要有迫害妄想症。Move On。

【在 j*****g 的大作中提到】
: 是Market Analytic 这个部门的 research scientist 位置,一个阿三师太,整整问了
: 一个小时的modeling 问题,围绕classification 问题,具体例子要求解决给用户
: display appropriate ads, number of features could be more than 10k. 我提到先
: 做unsupervised learning,然后try to reduce number of features. 提到用
: logistic regression, naive Bayes classifier, 等。然后又聊其他统计model,如何
: 解决overfitting, 如何用regularization, 如何查outlier 等。。整整一个小时拿听
: 筒的手都整酸了。。。总体感觉马马虎虎,但应该可以继续一轮面。结果一周后被据,
: 应该是被三阿姨黑了吧。
: 新鲜经历,供大家参考。大牛如果懂上面提到的那个显示广告的问题,也请讨论讨论。

avatar
m*4
9
恩,感觉楼主并没有address high dimension的ISSUE。为什么要clustering?我觉得
这种data的label还是比较好generate的吧? 就用CTR就可以?我不是很理解用
clustering的原因。还有用了clustering你怎么address high dimension的问题?
我觉得NB还是不错的,但你没有问她feature是categorical的还是numerical的?我估
计她的data可能各种type都有,也有可能有不少missing data,我觉得用TREE做这种
quick and dirty work比较好。还有就是你要注意你这个classifier有可能label
cases不是balanced,你怎么处理?这些detail你注意到了吗?
说实话,我也没觉得被黑。这可是research scientist的职位啊。

【在 h********3 的大作中提到】
: "display appropriate ads, number of features could be more than 10k. 我提到
: 先做unsupervised learning,然后try to reduce number of features. "
: 正规做法是logistic regression+regularization,LASSO等等。naive Bayes
: classifier在高维稀疏情况下是绝对不行的。从后面的讨论可以看出,你还是懂
: regularization的,但是不知道如何使用。面试官后来引导你讨论一下
: regularization和overfitting的问题,其实是在给你一个提示。
: 楼主给人的感觉是上过machine learning的课的学生,但是深度方面还远达不到
: research scientist的地步,被拒是正常的。另外不知道楼主的publication如何。通
: 常research scientist的面试,publication不行的话,即便面得再好也有可能被拒。
: 不要有迫害妄想症。Move On。

avatar
j*g
10
多谢你的回复。你提到的深度问题确实是我的软肋,我不是CS背景,没修过ML的课。
我是OR phd,目前就是research scientist, phd 之后工作经验4年,也在大公司做过
customer segmentation. 和A家这个组做的东西其实类似,不过我的长项是graphical
models such as Bayesian networks and Markov random fields. 目前做的project
主要是probabilistic reasoning。publication 也不少,20篇吧,UAI也有几篇。
其实在高维情况下,肯定面临thin data 的问题,这个我提了。还有missing data,我
提到用average of previous samples to estimate. 还有Naive Bayes 这个,三阿姨
追问NBC的优点和缺点,我说优点是简单易执行,而且可以很容易handle 10k features
, 也不太会有 overfitting 的问题。缺点是 conditional independence assumption
在real life 是不现实的。这个应该没有答错吧。
anyway,不管有无被黑,烙印我是怕了。

【在 h********3 的大作中提到】
: "display appropriate ads, number of features could be more than 10k. 我提到
: 先做unsupervised learning,然后try to reduce number of features. "
: 正规做法是logistic regression+regularization,LASSO等等。naive Bayes
: classifier在高维稀疏情况下是绝对不行的。从后面的讨论可以看出,你还是懂
: regularization的,但是不知道如何使用。面试官后来引导你讨论一下
: regularization和overfitting的问题,其实是在给你一个提示。
: 楼主给人的感觉是上过machine learning的课的学生,但是深度方面还远达不到
: research scientist的地步,被拒是正常的。另外不知道楼主的publication如何。通
: 常research scientist的面试,publication不行的话,即便面得再好也有可能被拒。
: 不要有迫害妄想症。Move On。

avatar
j*g
11
data type 我问了,各种都有。我还专门提到要customize user background data,
etc...
后来轮到我问问题的时候,我趁机问三阿姨她们目前是怎么做的,她说用random
forest,这个我不懂,后来查了下,好像是multiple decision tree。

【在 m**********4 的大作中提到】
: 恩,感觉楼主并没有address high dimension的ISSUE。为什么要clustering?我觉得
: 这种data的label还是比较好generate的吧? 就用CTR就可以?我不是很理解用
: clustering的原因。还有用了clustering你怎么address high dimension的问题?
: 我觉得NB还是不错的,但你没有问她feature是categorical的还是numerical的?我估
: 计她的data可能各种type都有,也有可能有不少missing data,我觉得用TREE做这种
: quick and dirty work比较好。还有就是你要注意你这个classifier有可能label
: cases不是balanced,你怎么处理?这些detail你注意到了吗?
: 说实话,我也没觉得被黑。这可是research scientist的职位啊。

avatar
j*g
12
还想起来被问到的一个问题是,如果coefficients 的p-value 都不significant,该怎
么办?我不知这个到底是想问什么,糊弄过去的。
avatar
m*4
13
这个我觉得她可能想要你说multicollinearity。你查查看。解决办法还是VARIABLE
SELECTION,比如LASSO。或者RIDGE REGRESSION。 但我实在地说一下,现实生活中,
更可能是她那些FEATURES都真的不WORK,所以不SIGNIFICANT。

【在 j*****g 的大作中提到】
: 还想起来被问到的一个问题是,如果coefficients 的p-value 都不significant,该怎
: 么办?我不知这个到底是想问什么,糊弄过去的。

avatar
m*4
14
原来是PUBLICATION牛人:)恩,我同意你的说法,NB解决HIGH DIMENSION的问题还是
可以的。

graphical
features
assumption

【在 j*****g 的大作中提到】
: 多谢你的回复。你提到的深度问题确实是我的软肋,我不是CS背景,没修过ML的课。
: 我是OR phd,目前就是research scientist, phd 之后工作经验4年,也在大公司做过
: customer segmentation. 和A家这个组做的东西其实类似,不过我的长项是graphical
: models such as Bayesian networks and Markov random fields. 目前做的project
: 主要是probabilistic reasoning。publication 也不少,20篇吧,UAI也有几篇。
: 其实在高维情况下,肯定面临thin data 的问题,这个我提了。还有missing data,我
: 提到用average of previous samples to estimate. 还有Naive Bayes 这个,三阿姨
: 追问NBC的优点和缺点,我说优点是简单易执行,而且可以很容易handle 10k features
: , 也不太会有 overfitting 的问题。缺点是 conditional independence assumption
: 在real life 是不现实的。这个应该没有答错吧。

avatar
s*w
15
补充最近刚看的一点: naive bayes 是 high bias 的,所以可以 handle 很少的数据
;相应的缺点就是你给再多的 data 也没用

graphical
features
assumption

【在 j*****g 的大作中提到】
: 多谢你的回复。你提到的深度问题确实是我的软肋,我不是CS背景,没修过ML的课。
: 我是OR phd,目前就是research scientist, phd 之后工作经验4年,也在大公司做过
: customer segmentation. 和A家这个组做的东西其实类似,不过我的长项是graphical
: models such as Bayesian networks and Markov random fields. 目前做的project
: 主要是probabilistic reasoning。publication 也不少,20篇吧,UAI也有几篇。
: 其实在高维情况下,肯定面临thin data 的问题,这个我提了。还有missing data,我
: 提到用average of previous samples to estimate. 还有Naive Bayes 这个,三阿姨
: 追问NBC的优点和缺点,我说优点是简单易执行,而且可以很容易handle 10k features
: , 也不太会有 overfitting 的问题。缺点是 conditional independence assumption
: 在real life 是不现实的。这个应该没有答错吧。

avatar
s*w
16
naive bayes 做 document classification 不是很常见吗? 这个不就是高维稀疏矩
阵?

【在 h********3 的大作中提到】
: "display appropriate ads, number of features could be more than 10k. 我提到
: 先做unsupervised learning,然后try to reduce number of features. "
: 正规做法是logistic regression+regularization,LASSO等等。naive Bayes
: classifier在高维稀疏情况下是绝对不行的。从后面的讨论可以看出,你还是懂
: regularization的,但是不知道如何使用。面试官后来引导你讨论一下
: regularization和overfitting的问题,其实是在给你一个提示。
: 楼主给人的感觉是上过machine learning的课的学生,但是深度方面还远达不到
: research scientist的地步,被拒是正常的。另外不知道楼主的publication如何。通
: 常research scientist的面试,publication不行的话,即便面得再好也有可能被拒。
: 不要有迫害妄想症。Move On。

avatar
f*e
17
我觉得LZ的背景应该挺厉害的,UAI也是机器学习里面数一数二的好会议了。
是不是因为你给的答案并不是面试官想要的?我觉得工业界的人其实水平也是参差不齐
的,不像和学校的老师交流那样,你说什么,他们都能hold住。在面试的时候,如果你
的路数和面试管不太一样,交流起来可能会比较费劲。有时候揣测一下面试官的意图还
是很重要的。

graphical
features
assumption

【在 j*****g 的大作中提到】
: 多谢你的回复。你提到的深度问题确实是我的软肋,我不是CS背景,没修过ML的课。
: 我是OR phd,目前就是research scientist, phd 之后工作经验4年,也在大公司做过
: customer segmentation. 和A家这个组做的东西其实类似,不过我的长项是graphical
: models such as Bayesian networks and Markov random fields. 目前做的project
: 主要是probabilistic reasoning。publication 也不少,20篇吧,UAI也有几篇。
: 其实在高维情况下,肯定面临thin data 的问题,这个我提了。还有missing data,我
: 提到用average of previous samples to estimate. 还有Naive Bayes 这个,三阿姨
: 追问NBC的优点和缺点,我说优点是简单易执行,而且可以很容易handle 10k features
: , 也不太会有 overfitting 的问题。缺点是 conditional independence assumption
: 在real life 是不现实的。这个应该没有答错吧。

avatar
h*3
18
对。在高维稀疏数据下,你统计的条件概率会P(f|C)很不准,因为就整个数据集里面没
几个数据出现过这个f属性。所以常规统计的p(f|C)分布是不准的。
当然,你也从贝叶斯的角度对naive Bayes classifier做regularization。比如你可以
给个prior对P(f|C)。如果你的训练数据很稀疏,出现的f很少,那么训练得到p(f|C)跟
prior差别就不大,实际效果等于抛弃了这个f属性。

【在 s*w 的大作中提到】
: 补充最近刚看的一点: naive bayes 是 high bias 的,所以可以 handle 很少的数据
: ;相应的缺点就是你给再多的 data 也没用
:
: graphical
: features
: assumption

avatar
p*U
19
其实不会引导面试者的 面试官也不是好面试官阿。 我觉得lz好厉害了。
avatar
O*w
20
其实这个问题就是考你会不会random forest。对于高维大数据,random forest是业界
的首选算法。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。