怎么处理categorical variable有很多个level的# DataSciences - 数据科学m*n2016-03-01 08:031 楼直接做出那么多个dummy?比如50个州那是相当于引进了很多个变量吧这会overfit的吧?
s*h2016-03-01 08:033 楼数据够大就不用担心。regularization就是派这个用处的。用标准的train,validate,test流程可以控制overfit【在 m******n 的大作中提到】: 直接做出那么多个dummy?比如50个州: 那是相当于引进了很多个变量吧: 这会overfit的吧?
s*h2016-03-01 08:034 楼hash?比如按hash function a,搞出3个categories比如按hash function b,搞出3个categories这样总共就是6个额外的变量,而不是50个?
N*N2016-03-01 08:035 楼fyihttp://www.willmcginnis.com/2016/02/24/beyond-one-hot-sklearn-t【在 m******n 的大作中提到】: 直接做出那么多个dummy?比如50个州: 那是相当于引进了很多个变量吧: 这会overfit的吧?
g*e2016-03-01 08:036 楼Try to standardize the data and use group average as a predictor instead ofdummy. This will make the model more robust.【在 m******n 的大作中提到】: 直接做出那么多个dummy?比如50个州: 那是相当于引进了很多个变量吧: 这会overfit的吧?