Redian新闻
>
请教大家一个做feature的问题
avatar
请教大家一个做feature的问题# DataSciences - 数据科学
s*0
1
现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
_ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
呢?
还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
一个。可是这样的问题如何通过算法来实现呢?
avatar
E*g
2
query类似的名字,
或者match之后,直接把manxxxger等都改成manager
先unique title看一下大概的pattern

is

【在 s********0 的大作中提到】
: 现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
: 公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
: 会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
: _ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
: 会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
: manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
: 实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
: 呢?
: 还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
: 一个。可是这样的问题如何通过算法来实现呢?

avatar
s*0
3
谢谢你的回复!有的时候问题还要稍复杂一点儿,比如两个title是一个意思,比如HM
和hiring manager,但是这样就比较难用match找到。

【在 E*********g 的大作中提到】
: query类似的名字,
: 或者match之后,直接把manxxxger等都改成manager
: 先unique title看一下大概的pattern
:
: is

avatar
n*3
4
简单的 做个dictionary
or 直接 NLP

HM

【在 s********0 的大作中提到】
: 谢谢你的回复!有的时候问题还要稍复杂一点儿,比如两个title是一个意思,比如HM
: 和hiring manager,但是这样就比较难用match找到。

avatar
E*g
5
对啊,只有几千个,加一个column就好
又不是几百万个

【在 n*****3 的大作中提到】
: 简单的 做个dictionary
: or 直接 NLP
:
: HM

avatar
l*s
6
关于这些title问题
1. 用edit distance等方法合并同类项
2. 上网找个常用title缩写,自己弄个hash
3. 跑个histogram啥的,找出那些个看上去很奇怪的,往往就是某些写错的或者缩写的
title。手工加入hash
4. 麻烦些,弄个Naive Bayes,加入上下文信息弄个classifier,然后online
learning啊EM啊,最后自动判断合并同类项。
5. 找外面的Vendor。他们有些公司特别擅长做这个。
avatar
s*0
7
非常感谢楼上几位的回复!那么除了合并一些level之外,对于这类问题还有没有别的
建议呢?现在做了一些diagnosis的工作,发现用glmnet的方法,即使penalty = 0,
training 和 testing的error仍然都非常的高,似乎模型有严重的under fitting。
Random Forest也试过,结果也不好。
avatar
E*g
8
如果假设不成立, 再怎么调数据也没有用啊
你能预测出超过20%, 你就了不起了
avatar
G*n
9
这个问题很难啊,就是数据预处理, 但没有什么好办法。找找相关资料吧,看看怎么
cluster level 的。或者做个语意网络。

is

【在 s********0 的大作中提到】
: 现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
: 公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
: 会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
: _ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
: 会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
: manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
: 实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
: 呢?
: 还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
: 一个。可是这样的问题如何通过算法来实现呢?

avatar
h*d
10

is

【在 s********0 的大作中提到】
: 现在有一个survey,上面要填写一些个人信息比如姓名等,还要填写当前工作title,
: 公司类型等等,然后根据这个表格做feature,再做machine learning预测这个人会不
: 会买某产品。一个办法是做很多的dummy variable,比如把title 变成is_manager, is
: _ceo等,可问题是这个title很可能有上千种,而且还有很多人填写错误等问题,所以
: 会有很多的dummy variable做出来,并且大多数都出现得非常少 (比如manager写错成
: manger可能只有一个人写错)。dummy variable做出来之后,用glmnet来预测的效果其
: 实很差,比直接用logistic regression做的还差。请问大家遇到这个问题是怎么做的
: 呢?
: 还有一个想法是把title的一些level给合并成一个,比如把manager 和 manger合并成
: 一个。可是这样的问题如何通过算法来实现呢?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。