Redian新闻
>
怎么处理categorical variable有很多个level的
avatar
怎么处理categorical variable有很多个level的# DataSciences - 数据科学
m*n
1
直接做出那么多个dummy?比如50个州
那是相当于引进了很多个变量吧
这会overfit的吧?
avatar
t*g
2
大概可以做个grouping,就是把很多category group到一起,在nlp里面有个比较常用
的方法是one hot encoding
avatar
s*h
3
数据够大就不用担心。
regularization就是派这个用处的。
用标准的train,validate,test流程可以控制overfit

【在 m******n 的大作中提到】
: 直接做出那么多个dummy?比如50个州
: 那是相当于引进了很多个变量吧
: 这会overfit的吧?

avatar
s*h
4
hash?
比如按hash function a,搞出3个categories
比如按hash function b,搞出3个categories
这样总共就是6个额外的变量,而不是50个?
avatar
g*e
6
Try to standardize the data and use group average as a predictor instead of
dummy. This will make the model more robust.

【在 m******n 的大作中提到】
: 直接做出那么多个dummy?比如50个州
: 那是相当于引进了很多个变量吧
: 这会overfit的吧?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。