Redian新闻
>
一个面试题(predictive model) (转载)
avatar
b*r
2
【 以下文字转载自 JobHunting 讨论区 】
发信人: badweather (bad weather), 信区: JobHunting
标 题: 一个面试题(predictive model)
发信站: BBS 未名空间站 (Thu Mar 19 00:18:31 2015, 美东)
一家公司的面试题目:一个数据表格,只有两列,一列是表示实际天气情况(下雨-0,
不下雨-1),另一列是表示预测天气情况。表格一共365行,每行代表一天。从表格里
面我们可以得到error rate(预测错误的天数除以365)。现在问,有几种不同的方法预
测天气,我们能得到不同的error rate,问是不是error rate最低的方法最好?
我的回答是不一定:
1。error rate最低的有可能overfitting
2.这只是trainning data的fitting,如果用于实际预测,所选择的方法不一定最好,我
们要看看在test data上的performance.
面试官好像不是特别满意我的答案,而且告诉我没有另外的data,这怎么回答?
avatar
p*9
3
We plan to go to Hawaii or Europe. :)

【在 z*u 的大作中提到】
: 如题
avatar
H*E
4
就这么几个数据,而且是binary, 问题是在问你怎么判断classification error.你该
扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
关系。
avatar
b*r
5
谢谢!有理!

【在 H****E 的大作中提到】
: 就这么几个数据,而且是binary, 问题是在问你怎么判断classification error.你该
: 扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
: 关系。

avatar
z*9
6
type i&II error 怎么说?求明示!谢谢!

【在 H****E 的大作中提到】
: 就这么几个数据,而且是binary, 问题是在问你怎么判断classification error.你该
: 扯一些type i &II error, 或者confusion matrix之类的比较靠铺,和model fit没毛
: 关系。

avatar
f*y
9
面试官想问的估计是:precision,recall, ROC and gains chart.
这些都是吧error rate更好的参数或者图。

【在 b********r 的大作中提到】
: 谢谢提供!很详细!
avatar
t*e
10
What matters ultimately is the cost/benefit. The biggest problem with error
rate is that it's prevalance dependent. If there are many more sunny days
than raining days (or vice versa), it's not appropriate. AUC is a better
choice, but it has problems too. It probably makes sense to ask for
clarifying questions like what's the cost of misclassifying a raining day to
sunny day and vice versa, what's the benefit of correctly classifying sunny
days or rainy days? 最后就是你想最大化benefit - cost.

【在 b********r 的大作中提到】
: 谢谢提供!很详细!
avatar
a*9
11
很基础的问题啊 比如有可能是非常unbalancd的数据 比如下雨天只占非常小的比例 那
这个用总体的error rate做指标就很不好了 auc之类的可以避免一下

【在 b********r 的大作中提到】
: 谢谢提供!很详细!
avatar
w*2
12
这题考的是evaluation metrics,像precision, recall, f1之类的。给的数据是
target variable是predicted target variable。
从confusion matrix入手。分析一下根据business model,是optimize precison还是
recall。然后具体怎么做。
为什么不是accuracy,你可以说accuracy可以很高,error很低的情况可能classifier
总是predict majority。
如果又多个model,你可以比较他们的auc score, indicating how well a classifier
separate the two classes
不要担心,多面几次就好了。
avatar
c*h
13
同意!

【在 f*****y 的大作中提到】
: 面试官想问的估计是:precision,recall, ROC and gains chart.
: 这些都是吧error rate更好的参数或者图。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。