b*r
2 楼
【 以下文字转载自 JobHunting 讨论区 】
发信人: badweather (bad weather), 信区: JobHunting
标 题: 一个面试题(predictive model)
发信站: BBS 未名空间站 (Thu Mar 19 00:18:31 2015, 美东)
一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0,
不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里
面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预
测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好?
我的回答是不一定:
1。error rate最低的有可能overfitting
2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我
们要看看在test data上的performance.
面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
发信人: badweather (bad weather), 信区: JobHunting
标 题: 一个面试题(predictive model)
发信站: BBS 未名空间站 (Thu Mar 19 00:18:31 2015, 美东)
一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0,
不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里
面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预
测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好?
我的回答是不一定:
1。error rate最低的有可能overfitting
2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我
们要看看在test data上的performance.
面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
H*E
4 楼
就这么几个数据,而且是binary, 问题是在问你怎么判断classification error.你该
扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
关系。
扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
关系。
b*r
8 楼
谢谢提供!很详细!
【在 H****E 的大作中提到】
: 谷歌是你的好朋友。
: http://www.damienfrancois.be/blog/files/modelperfcheatsheet.pdf
【在 H****E 的大作中提到】
: 谷歌是你的好朋友。
: http://www.damienfrancois.be/blog/files/modelperfcheatsheet.pdf
t*e
10 楼
What matters ultimately is the cost/benefit. The biggest problem with error
rate is that it's prevalance dependent. If there are many more sunny days
than raining days (or vice versa), it's not appropriate. AUC is a better
choice, but it has problems too. It probably makes sense to ask for
clarifying questions like what's the cost of misclassifying a raining day to
sunny day and vice versa, what's the benefit of correctly classifying sunny
days or rainy days? 最后就是你想最大化benefit - cost.
【在 b********r 的大作中提到】
: 谢谢提供!很详细!
rate is that it's prevalance dependent. If there are many more sunny days
than raining days (or vice versa), it's not appropriate. AUC is a better
choice, but it has problems too. It probably makes sense to ask for
clarifying questions like what's the cost of misclassifying a raining day to
sunny day and vice versa, what's the benefit of correctly classifying sunny
days or rainy days? 最后就是你想最大化benefit - cost.
【在 b********r 的大作中提到】
: 谢谢提供!很详细!
w*2
12 楼
这题考的是evaluation metrics,像precision, recall, f1之类的。给的数据是
target variable是predicted target variable。
从confusion matrix入手。分析一下根据business model,是optimize precison还是
recall。然后具体怎么做。
为什么不是accuracy,你可以说accuracy可以很高,error很低的情况可能classifier
总是predict majority。
如果又多个model,你可以比较他们的auc score, indicating how well a classifier
separate the two classes
不要担心,多面几次就好了。
target variable是predicted target variable。
从confusion matrix入手。分析一下根据business model,是optimize precison还是
recall。然后具体怎么做。
为什么不是accuracy,你可以说accuracy可以很高,error很低的情况可能classifier
总是predict majority。
如果又多个model,你可以比较他们的auc score, indicating how well a classifier
separate the two classes
不要担心,多面几次就好了。
h*h
14 楼
相关阅读
求问一个线性模型的题目求reviewer 机会一个关于big data 系统架构的设计问题should I go for a cs or stats degree?学Scala有前途吗?做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)也许这个问题有点模糊。如何设计建立一个Hadoop Cluster?都应该从哪些角度考虑?请问学习 d3.js 有什么好的参考资料吗?各位,如果让你们海龟南方一线的话,你们大概要什么价格?聚类问题请教急请Senior Statistic Analyst如何对付Background Check and References?!请问想找data scientist 工作应该怎么开始准备OPT extension问题Java Cross-Site-Scripting problem请教一道题目 (转载)急求walmart ecommerce data scientist intern面经即将回国,整理这几年下来不少东西,出售生活用品,家具物理MS转行 求推荐转行求建议,求真相