Redian新闻
>
老生常谈,民科问应该如何处理分类(categorical)变量?
avatar
老生常谈,民科问应该如何处理分类(categorical)变量?# Programming - 葵花宝典
d*4
1
中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不
认识)。这样的公司是不是有问题啊?
旁边的白人也给我说他已经resign了。
avatar
m*r
2
其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些
迷惑(尤其最近学R),所以上来问问。
比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量
? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起
。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过
这种方法完全依靠经验,不科学。
one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot
_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还
是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:
54个州选一个州
54个州选两个州
...
54个州选27个州
这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。
当然, 这是个天文数字。
一个折中方法,就是凭经验,把54个州合并成10个大州, 然后遍历所有组合:
10选1
10选2
...
10选5
这样一共要算10+45+120+210+252 = 637 种组合。 我研究了一下R里面的流行软件,
rpart, rf, 包括xgb, 似乎都不支持我说的功能,采用的都是用10选1的方法。
反正我觉得不够科学,不知大家平时怎么处理的。
avatar
d*g
3
迪斯尼还有人辞职?多少人的梦想位置啊。
你不正好问问你旁边的人什么原因吗?

【在 d********4 的大作中提到】
: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不
: 认识)。这样的公司是不是有问题啊?
: 旁边的白人也给我说他已经resign了。

avatar
g*t
4
你的问题没说清楚。多年前在GM我写过一个软件整理汽车
反馈回来的轮胎气压情况。用的是邮政编码。
avatar
d*4
5
我不在Disney上班,呵呵
不过我知道Disney对员工也特别小气,很多人跳槽。
我不好意思问。

【在 d**********g 的大作中提到】
: 迪斯尼还有人辞职?多少人的梦想位置啊。
: 你不正好问问你旁边的人什么原因吗?

avatar
m*r
6
你也在gm干过 ?我做过他们不少打酱油项目。
我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。
其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:
销售金额
邮编,
客户ID,
性别,
年龄,
职业,
收入,
爱好,
婚否,
有没有孩子,
买房租房,
车型(客车货车经济车豪华车),
车品牌,
几驱
几缸
手动自动
等等
建个销量预测的模型。 我的问题是如何处理邮编这个变量。
1.老方法, 根据经验合并。东部可以合并成一个大区。 因为通用在东部烧了不少钱,
和dealer关系很好 广告方面更是舍得花钱, 你如果开日本车,过来试新车,就白给你
钱。 西部销量也不少 主要是皮卡,又便宜又皮实。
2.如果每个邮编设个哑变量,显然不现实。
问: 应该怎么办?

【在 g****t 的大作中提到】
: 你的问题没说清楚。多年前在GM我写过一个软件整理汽车
: 反馈回来的轮胎气压情况。用的是邮政编码。

avatar
d*g
7
如果有身份问题, 只要公司办身份爽快,不要计较太多。

【在 d********4 的大作中提到】
: 我不在Disney上班,呵呵
: 不过我知道Disney对员工也特别小气,很多人跳槽。
: 我不好意思问。

avatar
w*g
8
哈哈, 我现在就在GM做零时工。
我觉得楼主已经想得很明白了,应该没啥更好的办法了。
这个比赛里有state column,或许对你有启发
https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081

【在 m******r 的大作中提到】
: 你也在gm干过 ?我做过他们不少打酱油项目。
: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。
: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:
: 销售金额
: 邮编,
: 客户ID,
: 性别,
: 年龄,
: 职业,
: 收入,

avatar
d*4
9
公司给办H1B,不过不知道绿卡怎么样。
不过pay的一般,难道没有身份之前,只能忍气吞声吗?

【在 d**********g 的大作中提到】
: 如果有身份问题, 只要公司办身份爽快,不要计较太多。
avatar
m*r
10
那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
方实在太偏,我肯定投奔去了。
anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
avatar
I*a
11
效益不好裁员的时候,公司不留老员工,只留高绩效的员工。
跳槽的原因或者是低绩效担心被裁,或者是高绩效觉得不公。
avatar
g*t
12
我说的是超过十年以前的事情。怎么成了和你一个单位了。
“多年前”三个字没看到吗


: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便
说。

: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果
不是地

: 方实在太偏,我肯定投奔去了。

: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'
的问题

: 。



【在 m******r 的大作中提到】
: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
: 方实在太偏,我肯定投奔去了。
: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
: 。

avatar
c*g
13
turn over 高的公司,绝对有问题。

【在 d********4 的大作中提到】
: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不
: 认识)。这样的公司是不是有问题啊?
: 旁边的白人也给我说他已经resign了。

avatar
g*t
14
按东西南北分还是按温度地带分
拿少量数据学习出来看看哪个分类好


: 你也在gm干过 ?我做过他们不少打酱油项目。

: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原
贴。

: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:

: 销售金额

: 邮编,

: 客户ID,

: 性别,

: 年龄,

: 职业,

: 收入,



【在 m******r 的大作中提到】
: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。
: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地
: 方实在太偏,我肯定投奔去了。
: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题
: 。

avatar
d*4
15
怎么才能知道公司效益好不好呀? 没有上市的公司。
我感觉是待遇不好,management不好,大家才跳槽的。

【在 I***a 的大作中提到】
: 效益不好裁员的时候,公司不留老员工,只留高绩效的员工。
: 跳槽的原因或者是低绩效担心被裁,或者是高绩效觉得不公。

avatar
g*t
16
你不会是在RMB building 吧!


: 哈哈, 我现在就在GM做零时工。

: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。

: 这个比赛里有state column,或许对你有启发

: https://www.kaggle.com/c/springleaf-marketing-response/discussion/
17081



【在 w***g 的大作中提到】
: 哈哈, 我现在就在GM做零时工。
: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。
: 这个比赛里有state column,或许对你有启发
: https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081

avatar
c*g
17
待遇不好,management 不好,这还不是问题呀?

【在 d********4 的大作中提到】
: 怎么才能知道公司效益好不好呀? 没有上市的公司。
: 我感觉是待遇不好,management不好,大家才跳槽的。

avatar
m*r
18
我没去过他们总部的大楼。 我当时再个小公司,后来被收购,和通用算是长期合作伙
伴吧,接手了不少他们junk project.
通用不错的公司, 福利高待遇好 人人不干活。

【在 g****t 的大作中提到】
: 你不会是在RMB building 吧!
:
:
: 哈哈, 我现在就在GM做零时工。
:
: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。
:
: 这个比赛里有state column,或许对你有启发
:
: https://www.kaggle.com/c/springleaf-marketing-response/discussion/
: 17081
:

avatar
d*4
19
都是问题。
有没有可能一开始待遇(pay)不好,工作几年涨的会快一些啊?

【在 c****g 的大作中提到】
: 待遇不好,management 不好,这还不是问题呀?
avatar
l*u
20
也许,跳槽的人,就是嫌涨的不快?

【在 d********4 的大作中提到】
: 都是问题。
: 有没有可能一开始待遇(pay)不好,工作几年涨的会快一些啊?

avatar
d*4
21
恩,涨的不快的人看来太多了。
另外公司给的base太低了,这个也是原因。

【在 l*********u 的大作中提到】
: 也许,跳槽的人,就是嫌涨的不快?
avatar
N*N
22
去glassdoor看看?

【在 d********4 的大作中提到】
: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不
: 认识)。这样的公司是不是有问题啊?
: 旁边的白人也给我说他已经resign了。

avatar
L*Y
23
自己的跟着跳槽了?

【在 N**N 的大作中提到】
: 去glassdoor看看?
avatar
g*e
24
你们公司效益如何?跑路的人是各个部门都有,还是集中在某个部门或产品线?跑的人
都是什么级别的,在公司几年了?

【在 d********4 的大作中提到】
: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不
: 认识)。这样的公司是不是有问题啊?
: 旁边的白人也给我说他已经resign了。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。