问题:用VIF做feature selection# DataSciences - 数据科学s*k2016-12-12 08:121 楼反正我是挺羡慕的,财富颜值俱全。不过我更羡慕奶茶mm,毕竟那么年轻就嫁一商界大佬,几辈子都吃穿不愁了!
M*e2016-12-12 08:122 楼有个问题是怎么用VIF做feature selection.有上千个feature,要求是最后的logistic regression model的feature VIF要小于2.想了解一下大家用VIF做feature selection的过程。1. 是stepwise的方式,每次去掉有最大VIF的feature,然后重新计算余下feature的VIF,不断循环直到最后余下的feature VIF<2.2. 是分几步,先去掉VIF>100的,然后重新计算余下feature的VIF,再去掉VIF>10的,然后重新计算余下feature的VIF.因为数据量比较大,1的办法太耗时,所以在用2的办法。但是risk就是在VIF>100去掉的feature里有本该留下的,结果一刀切都去掉了。一般大家都怎么做的呢?求助,多谢
w*H2016-12-12 08:124 楼我认为取决于用的是什么模型。如果是linear regression,VIF太大模型不稳定。如果是其他某些模型,比如naive bayes, 影响可能小一点。【在 m******r 的大作中提到】: 不明白为什么很多人忌讳vif, 其实大一点没什么。
m*r2016-12-12 08:125 楼楼主说的是2. 不知道谁想出来的这个数。 要我说,谁想出这个数,那就说明谁已经有主意了,就按谁的方法做 大家都开心。【在 w******H 的大作中提到】: 我认为取决于用的是什么模型。如果是linear regression,VIF太大模型不稳定。如果: 是其他某些模型,比如naive bayes, 影响可能小一点。