n*n
2 楼
I changed job while keep my PD from my previous company. my pd will be
current in Jan 2012. but new company has not started perm yet.
1. can I hold my pd after Jan 2012 ? if yes, how long?
2. can I submit 485 immediately after 140 approved ?
current in Jan 2012. but new company has not started perm yet.
1. can I hold my pd after Jan 2012 ? if yes, how long?
2. can I submit 485 immediately after 140 approved ?
g*u
3 楼
打算 lightgbm or xgboost
有几个 categorical features 有5000个不同的值。 这种怎么encode ?
谢谢
另外一般说high cardinality categorical features 多少个算是high?
thx
有几个 categorical features 有5000个不同的值。 这种怎么encode ?
谢谢
另外一般说high cardinality categorical features 多少个算是high?
thx
s*3
4 楼
很多公司都这么干 即使是也不奇怪
n*s
5 楼
yes. no limit.
You need to relink 140 (your new 140 has 2012 PD). then if PD is still
current, then yes.
【在 n********n 的大作中提到】
: I changed job while keep my PD from my previous company. my pd will be
: current in Jan 2012. but new company has not started perm yet.
: 1. can I hold my pd after Jan 2012 ? if yes, how long?
: 2. can I submit 485 immediately after 140 approved ?
h*o
7 楼
阿三国也很多吧。。。
g*e
9 楼
有可能
咖喱口音太难忍受了
而且电话线路比voip电话卡差很多
咖喱口音太难忍受了
而且电话线路比voip电话卡差很多
f*r
10 楼
binary encoding是一个值得一试的办法。类似的还有hashing trick。
除此之外,google "supervised ratio" 和 "weight of evidence",把categorical变
成numerical。
还有就是看level distribution,如果是几个major level和一大堆minor level,
minor level数量小过某个阈值,比如总feature数乘十这种,也可以考虑合并minor
level。
除此之外,google "supervised ratio" 和 "weight of evidence",把categorical变
成numerical。
还有就是看level distribution,如果是几个major level和一大堆minor level,
minor level数量小过某个阈值,比如总feature数乘十这种,也可以考虑合并minor
level。
g*u
11 楼
binary 应该不适合tree 类型的分类器吧 。素以首先排除
flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
为numerical的了。 吧所有很小的 都轨到一类
因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
小于某个值的都归到 一个数值。
wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
word2vec适合这种tree类型的 分类器吗?
thx
flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
为numerical的了。 吧所有很小的 都轨到一类
因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
小于某个值的都归到 一个数值。
wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
word2vec适合这种tree类型的 分类器吗?
thx
m*r
12 楼
什么叫做binary encoding ? 比如我一个变量有8层, 分别代表8个州,NY,CA,TX,NY,
etc
然后你用3个变量做binary encoding?? 000, 001, 010,110,... 111 ??
看起来不太对劲吧?
etc
然后你用3个变量做binary encoding?? 000, 001, 010,110,... 111 ??
看起来不太对劲吧?
f*r
13 楼
binary和传统的dummy code都不适合决策树类型的分类器,因为把寻找最优分岔的问题
限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
的。
xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
似度或者可替代度。这个概念也可以用在其他有co-occurrance的feature上,不仅限于
NLP。用这个方法做feature转换需要有语料集或者co-occurrance matrix来做训练。不
是所有high cardinality问题都适合
【在 g*******u 的大作中提到】
: binary 应该不适合tree 类型的分类器吧 。素以首先排除
: flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
: 为numerical的了。 吧所有很小的 都轨到一类
: 因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
: 小于某个值的都归到 一个数值。
: wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
: word2vec适合这种tree类型的 分类器吗?
: thx
限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
的。
xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
似度或者可替代度。这个概念也可以用在其他有co-occurrance的feature上,不仅限于
NLP。用这个方法做feature转换需要有语料集或者co-occurrance matrix来做训练。不
是所有high cardinality问题都适合
【在 g*******u 的大作中提到】
: binary 应该不适合tree 类型的分类器吧 。素以首先排除
: flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
: 为numerical的了。 吧所有很小的 都轨到一类
: 因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
: 小于某个值的都归到 一个数值。
: wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
: word2vec适合这种tree类型的 分类器吗?
: thx
S*s
15 楼
一般不是都会做个fe把high cardinal的category转成numerical的feature么?
【在 f*********r 的大作中提到】
: binary和传统的dummy code都不适合决策树类型的分类器,因为把寻找最优分岔的问题
: 限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
: cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
: 之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
: 做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
: cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
: 的。
: xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
: word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
: 布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
【在 f*********r 的大作中提到】
: binary和传统的dummy code都不适合决策树类型的分类器,因为把寻找最优分岔的问题
: 限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
: cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
: 之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
: 做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
: cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
: 的。
: xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
: word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
: 布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
m*o
16 楼
word2vec除非你的inputs是有context的概念,一个 input前后跟着其它input,有
temporal dependency,才可能用上。binary encoding效果肯定不如1hot,但是是一个
好的starting point。feature engineering从来都是一个反复有反复的过程。但是一
切反复都要有个起点。
【在 g*******u 的大作中提到】
: binary 应该不适合tree 类型的分类器吧 。素以首先排除
: flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
: 为numerical的了。 吧所有很小的 都轨到一类
: 因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
: 小于某个值的都归到 一个数值。
: wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
: word2vec适合这种tree类型的 分类器吗?
: thx
temporal dependency,才可能用上。binary encoding效果肯定不如1hot,但是是一个
好的starting point。feature engineering从来都是一个反复有反复的过程。但是一
切反复都要有个起点。
【在 g*******u 的大作中提到】
: binary 应该不适合tree 类型的分类器吧 。素以首先排除
: flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
: 为numerical的了。 吧所有很小的 都轨到一类
: 因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
: 小于某个值的都归到 一个数值。
: wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
: word2vec适合这种tree类型的 分类器吗?
: thx
相关阅读
我的方案解决了抢票和查询的scale问题再见好虫关于抢票鸡的 scale out.net mvc & web api 架构 求建议和意见??ZhaoCe or ZhaoKuo?java fluent api 底层是怎么实现的?TicketMap里的link list没有sort避免零除的条件判断大过节的,这个搅屎棍也不让人安静请教老魏一个问题大家别着急古得霸团队憋大招了clojurescript 一年回顾客户端给你们算了再说说 12306如果古霸走了,以后就由我来没事就损你吧请老魏给出一个简单的文字解释开始折腾DPDK+mTCP奉劝一句那些动不动就谈架构的傻逼,谨言慎行Scott Meyers 'retires from C++'作为赌约发起人和见证人,说一下赌约进程