老生常谈,民科问应该如何处理分类(categorical)变量?# Programming - 葵花宝典d*42017-09-30 07:091 楼中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不认识)。这样的公司是不是有问题啊?旁边的白人也给我说他已经resign了。
m*r2017-09-30 07:092 楼其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些迷惑(尤其最近学R),所以上来问问。比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过这种方法完全依靠经验,不科学。one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:54个州选一个州54个州选两个州...54个州选27个州这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。当然, 这是个天文数字。一个折中方法,就是凭经验,把54个州合并成10个大州, 然后遍历所有组合:10选110选2...10选5这样一共要算10+45+120+210+252 = 637 种组合。 我研究了一下R里面的流行软件,rpart, rf, 包括xgb, 似乎都不支持我说的功能,采用的都是用10选1的方法。反正我觉得不够科学,不知大家平时怎么处理的。
d*g2017-09-30 07:093 楼迪斯尼还有人辞职?多少人的梦想位置啊。你不正好问问你旁边的人什么原因吗?【在 d********4 的大作中提到】: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不: 认识)。这样的公司是不是有问题啊?: 旁边的白人也给我说他已经resign了。
d*42017-09-30 07:095 楼我不在Disney上班,呵呵不过我知道Disney对员工也特别小气,很多人跳槽。我不好意思问。【在 d**********g 的大作中提到】: 迪斯尼还有人辞职?多少人的梦想位置啊。: 你不正好问问你旁边的人什么原因吗?
m*r2017-09-30 07:096 楼你也在gm干过 ?我做过他们不少打酱油项目。我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:销售金额邮编,客户ID,性别,年龄,职业,收入,爱好,婚否,有没有孩子,买房租房,车型(客车货车经济车豪华车),车品牌,几驱几缸手动自动等等建个销量预测的模型。 我的问题是如何处理邮编这个变量。1.老方法, 根据经验合并。东部可以合并成一个大区。 因为通用在东部烧了不少钱,和dealer关系很好 广告方面更是舍得花钱, 你如果开日本车,过来试新车,就白给你钱。 西部销量也不少 主要是皮卡,又便宜又皮实。2.如果每个邮编设个哑变量,显然不现实。问: 应该怎么办?【在 g****t 的大作中提到】: 你的问题没说清楚。多年前在GM我写过一个软件整理汽车: 反馈回来的轮胎气压情况。用的是邮政编码。
d*g2017-09-30 07:097 楼如果有身份问题, 只要公司办身份爽快,不要计较太多。【在 d********4 的大作中提到】: 我不在Disney上班,呵呵: 不过我知道Disney对员工也特别小气,很多人跳槽。: 我不好意思问。
w*g2017-09-30 07:098 楼哈哈, 我现在就在GM做零时工。我觉得楼主已经想得很明白了,应该没啥更好的办法了。这个比赛里有state column,或许对你有启发https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081【在 m******r 的大作中提到】: 你也在gm干过 ?我做过他们不少打酱油项目。: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:: 销售金额: 邮编,: 客户ID,: 性别,: 年龄,: 职业,: 收入,
d*42017-09-30 07:099 楼公司给办H1B,不过不知道绿卡怎么样。不过pay的一般,难道没有身份之前,只能忍气吞声吗?【在 d**********g 的大作中提到】: 如果有身份问题, 只要公司办身份爽快,不要计较太多。
m*r2017-09-30 07:0910 楼那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地方实在太偏,我肯定投奔去了。anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题。
g*t2017-09-30 07:0912 楼我说的是超过十年以前的事情。怎么成了和你一个单位了。“多年前”三个字没看到吗: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地: 方实在太偏,我肯定投奔去了。: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题: 。【在 m******r 的大作中提到】: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地: 方实在太偏,我肯定投奔去了。: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题: 。
c*g2017-09-30 07:0913 楼turn over 高的公司,绝对有问题。【在 d********4 的大作中提到】: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不: 认识)。这样的公司是不是有问题啊?: 旁边的白人也给我说他已经resign了。
g*t2017-09-30 07:0914 楼按东西南北分还是按温度地带分拿少量数据学习出来看看哪个分类好: 你也在gm干过 ?我做过他们不少打酱油项目。: 我自认为我的表达能力不错,如果有人跟帖说我问题本身没说清楚,我就修改原贴。: 其实可以拿邮编说我的问题。 比如有一组关于通用汽车销售的数据,变量如下:: 销售金额: 邮编,: 客户ID,: 性别,: 年龄,: 职业,: 收入,【在 m******r 的大作中提到】: 那大家都是同一个单位了喽? 不过提醒一下工作单位这种,最好公共论坛不便说。: 我知道当地有一家专门给F做市场的公司, 求贤若渴,组里都是中国人。 如果不是地: 方实在太偏,我肯定投奔去了。: anyway, 我是一直觉得应该有个好办法,来解决类似'哪个州谁该和哪个州合并'的问题: 。
d*42017-09-30 07:0915 楼怎么才能知道公司效益好不好呀? 没有上市的公司。我感觉是待遇不好,management不好,大家才跳槽的。【在 I***a 的大作中提到】: 效益不好裁员的时候,公司不留老员工,只留高绩效的员工。: 跳槽的原因或者是低绩效担心被裁,或者是高绩效觉得不公。
g*t2017-09-30 07:0916 楼你不会是在RMB building 吧!: 哈哈, 我现在就在GM做零时工。: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。: 这个比赛里有state column,或许对你有启发: https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081【在 w***g 的大作中提到】: 哈哈, 我现在就在GM做零时工。: 我觉得楼主已经想得很明白了,应该没啥更好的办法了。: 这个比赛里有state column,或许对你有启发: https://www.kaggle.com/c/springleaf-marketing-response/discussion/17081
c*g2017-09-30 07:0917 楼待遇不好,management 不好,这还不是问题呀?【在 d********4 的大作中提到】: 怎么才能知道公司效益好不好呀? 没有上市的公司。: 我感觉是待遇不好,management不好,大家才跳槽的。
m*r2017-09-30 07:0918 楼我没去过他们总部的大楼。 我当时再个小公司,后来被收购,和通用算是长期合作伙伴吧,接手了不少他们junk project.通用不错的公司, 福利高待遇好 人人不干活。【在 g****t 的大作中提到】: 你不会是在RMB building 吧!: : : 哈哈, 我现在就在GM做零时工。: : 我觉得楼主已经想得很明白了,应该没啥更好的办法了。: : 这个比赛里有state column,或许对你有启发: : https://www.kaggle.com/c/springleaf-marketing-response/discussion/: 17081:
d*42017-09-30 07:0919 楼都是问题。有没有可能一开始待遇(pay)不好,工作几年涨的会快一些啊?【在 c****g 的大作中提到】: 待遇不好,management 不好,这还不是问题呀?
N*N2017-09-30 07:0922 楼去glassdoor看看?【在 d********4 的大作中提到】: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不: 认识)。这样的公司是不是有问题啊?: 旁边的白人也给我说他已经resign了。
g*e2017-09-30 07:0924 楼你们公司效益如何?跑路的人是各个部门都有,还是集中在某个部门或产品线?跑的人都是什么级别的,在公司几年了?【在 d********4 的大作中提到】: 中型公司,位置好,每周都有人resign (因为会收到email想大家告别,虽然我可能不: 认识)。这样的公司是不是有问题啊?: 旁边的白人也给我说他已经resign了。