Redian新闻
>
问题:用VIF做feature selection
avatar
问题:用VIF做feature selection# DataSciences - 数据科学
s*k
1
反正我是挺羡慕的,财富颜值俱全。不过我更羡慕奶茶mm,毕竟那么年轻就嫁一商界大
佬,几辈子都吃穿不愁了!
avatar
M*e
2
有个问题是怎么用VIF做feature selection.
有上千个feature,要求是最后的logistic regression model的feature VIF要小于2.
想了解一下大家用VIF做feature selection的过程。
1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的
VIF,不断循环直到最后余下的feature VIF<2.
2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的,
然后重新计算余下feature的VIF.
因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉
的feature里有本该留下的,结果一刀切都去掉了。
一般大家都怎么做的呢?
求助,多谢
avatar
m*r
3
不明白为什么很多人忌讳vif, 其实大一点没什么。
avatar
w*H
4
我认为取决于用的是什么模型。如果是linear regression,VIF太大模型不稳定。如果
是其他某些模型,比如naive bayes, 影响可能小一点。

【在 m******r 的大作中提到】
: 不明白为什么很多人忌讳vif, 其实大一点没什么。
avatar
m*r
5
楼主说的是2. 不知道谁想出来的这个数。 要我说,谁想出这个数,那就说明谁已经有
主意了,就按谁的方法做 大家都开心。

【在 w******H 的大作中提到】
: 我认为取决于用的是什么模型。如果是linear regression,VIF太大模型不稳定。如果
: 是其他某些模型,比如naive bayes, 影响可能小一点。

avatar
m*n
6
方法2不行。假设有10个x,其中x1和x2高度相关,99%,VIF_i=1/(1-R_i^2).方法2会
同时剔除x1和x2。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。