Redian新闻
>
用10-fold cross-validation 之后怎么挑Model?
avatar
用10-fold cross-validation 之后怎么挑Model?# DataSciences - 数据科学
t*i
1
一个不大的数据,十几万个record, 一百个变量,用random forest作 binary
classification
因为有over-fitting, 决定用 10-fold cross-validation
做完之后,有十个 random forest Models
下一步 怎么做?
之后 是挑 validation error (on its set-aside 10th hold-out set) 最小的那个
Model吗?(需要一个final model 放进 production system)
Thanks!
avatar
T*u
2
kfold不是这么用的吧。。。如果你这10个model parameters有很大不同,就不是挑哪
个cherry的问题,而是你对这个model有多少信心的问题。大概可以理解成posterior
distribution。
avatar
h*3
3
Model Selection上来说,可以就这样用。挑个总共error最小的就行了。
楼上说的是一个confidence的估计。大概的意思是,你跑10个fold,可以得到10个
testing error。那么这10个error值,构成一个distribution。如果这个distribution
的varaince很大,那么说明你这个model不够consistent,跟随机的差不多,那么就没
意义了。

【在 T*****u 的大作中提到】
: kfold不是这么用的吧。。。如果你这10个model parameters有很大不同,就不是挑哪
: 个cherry的问题,而是你对这个model有多少信心的问题。大概可以理解成posterior
: distribution。

avatar
T*u
4
想想也不矛盾,多谢分享。

distribution

【在 h********3 的大作中提到】
: Model Selection上来说,可以就这样用。挑个总共error最小的就行了。
: 楼上说的是一个confidence的估计。大概的意思是,你跑10个fold,可以得到10个
: testing error。那么这10个error值,构成一个distribution。如果这个distribution
: 的varaince很大,那么说明你这个model不够consistent,跟随机的差不多,那么就没
: 意义了。

avatar
c*z
5
I could do a feature selection first
avatar
d*y
6

用cross validation 选 Random Forest感觉怪怪的
In random forests, there is no need for cross-validation or a separate test
set to get an unbiased estimate of the test set error. It is estimated
internally, during the run
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

【在 t*****i 的大作中提到】
: 一个不大的数据,十几万个record, 一百个变量,用random forest作 binary
: classification
: 因为有over-fitting, 决定用 10-fold cross-validation
: 做完之后,有十个 random forest Models
: 下一步 怎么做?
: 之后 是挑 validation error (on its set-aside 10th hold-out set) 最小的那个
: Model吗?(需要一个final model 放进 production system)
: Thanks!

avatar
l*s
7
这是用来挑feature的而不是model的
avatar
b*o
8
You don't need cross-validation for random forest. OOB is somehow similar to
CV in spirit.
I suspect you confuse training error with OOB error when you say the model
over fits. Try to compare OOB error with test error, and see whether they
are similar.

【在 t*****i 的大作中提到】
: 一个不大的数据,十几万个record, 一百个变量,用random forest作 binary
: classification
: 因为有over-fitting, 决定用 10-fold cross-validation
: 做完之后,有十个 random forest Models
: 下一步 怎么做?
: 之后 是挑 validation error (on its set-aside 10th hold-out set) 最小的那个
: Model吗?(需要一个final model 放进 production system)
: Thanks!

avatar
B*6
9
random forest什么的ensemble method应该是不容易overfit的
avatar
h*7
10
nod
smart training, boosting这些趣头也都是一个原理

【在 B*******6 的大作中提到】
: random forest什么的ensemble method应该是不容易overfit的
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。