b*r
2 楼
【 以下文字转载自 JobHunting 讨论区 】
发信人: badweather (bad weather), 信区: JobHunting
标 题: 一个面试题(predictive model)
发信站: BBS 未名空间站 (Thu Mar 19 00:18:31 2015, 美东)
一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0,
不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里
面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预
测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好?
我的回答是不一定:
1。error rate最低的有可能overfitting
2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我
们要看看在test data上的performance.
面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
发信人: badweather (bad weather), 信区: JobHunting
标 题: 一个面试题(predictive model)
发信站: BBS 未名空间站 (Thu Mar 19 00:18:31 2015, 美东)
一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0,
不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里
面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预
测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好?
我的回答是不一定:
1。error rate最低的有可能overfitting
2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我
们要看看在test data上的performance.
面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
H*E
4 楼
就这么几个数据,而且是binary, 问题是在问你怎么判断classification error.你该
扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
关系。
扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
关系。
b*r
8 楼
谢谢提供!很详细!
【在 H****E 的大作中提到】
: 谷歌是你的好朋友。
: http://www.damienfrancois.be/blog/files/modelperfcheatsheet.pdf
【在 H****E 的大作中提到】
: 谷歌是你的好朋友。
: http://www.damienfrancois.be/blog/files/modelperfcheatsheet.pdf
t*e
10 楼
What matters ultimately is the cost/benefit. The biggest problem with error
rate is that it's prevalance dependent. If there are many more sunny days
than raining days (or vice versa), it's not appropriate. AUC is a better
choice, but it has problems too. It probably makes sense to ask for
clarifying questions like what's the cost of misclassifying a raining day to
sunny day and vice versa, what's the benefit of correctly classifying sunny
days or rainy days? 最后就是你想最大化benefit - cost.
【在 b********r 的大作中提到】
: 谢谢提供!很详细!
rate is that it's prevalance dependent. If there are many more sunny days
than raining days (or vice versa), it's not appropriate. AUC is a better
choice, but it has problems too. It probably makes sense to ask for
clarifying questions like what's the cost of misclassifying a raining day to
sunny day and vice versa, what's the benefit of correctly classifying sunny
days or rainy days? 最后就是你想最大化benefit - cost.
【在 b********r 的大作中提到】
: 谢谢提供!很详细!
w*2
12 楼
这题考的是evaluation metrics,像precision, recall, f1之类的。给的数据是
target variable是predicted target variable。
从confusion matrix入手。分析一下根据business model,是optimize precison还是
recall。然后具体怎么做。
为什么不是accuracy,你可以说accuracy可以很高,error很低的情况可能classifier
总是predict majority。
如果又多个model,你可以比较他们的auc score, indicating how well a classifier
separate the two classes
不要担心,多面几次就好了。
target variable是predicted target variable。
从confusion matrix入手。分析一下根据business model,是optimize precison还是
recall。然后具体怎么做。
为什么不是accuracy,你可以说accuracy可以很高,error很低的情况可能classifier
总是predict majority。
如果又多个model,你可以比较他们的auc score, indicating how well a classifier
separate the two classes
不要担心,多面几次就好了。
h*h
14 楼
相关阅读
Python for Data Analysis, 2nd Edition 求分享ask for help about sas contrast statement-包子酬谢 (转载)有没有做sentiment analysis的,求思路 (转载)找工作 要个什么title比较好生物千老想转行,打听online course再来推广下picpac (转载)诚心求比较:<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="33604752475a40475a50407367727e66">[email protected]</a> vs <a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="b4f5dad5d8cdc0ddd7c7f4f3d1dbc6d3ddd5">[email protected]</a> TechWells Fargo Is Hiring Text Analytics Data Scientist贾跃亭已成魔Insight Fellowship ProgramUber DS 近期马上面请教如何恢复 jump drive 数据洛杉矶附近有哪些好的data science camp?有人愿意一期做kaggle competition吗?python IDE anaconda or pycharm?LinkedIn DA/ML SE 做哪方面的产品开发SAS certified Data scientistpycharm 和anaconda jupyter 用的不是一个python.exe file 吗?呼唤休斯敦想转DS的伙伴求推荐统计或data scientist工作 (波士顿地区)