请教大家一个做feature的问题# DataSciences - 数据科学
s*0
1 楼
现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
_ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
呢?
还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
一个。可是这样的问题如何通过算法来实现呢?
公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
_ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
呢?
还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
一个。可是这样的问题如何通过算法来实现呢?