Redian新闻
>
大家对于有很多value的categorical feature都怎么处理?
avatar
大家对于有很多value的categorical feature都怎么处理?# DataSciences - 数据科学
x*6
1
转换成binary vector?
这样的话多几个这种feature岂不是就很高维了?
avatar
d*m
2
feature hashing减少维度
avatar
x*6
3
Thank you
avatar
c*u
4
刚刚学到, One-hot encoding, 转换成sparse vector, 然后再把sparse vector给hash
avatar
d*m
5
看样子我们上的是同一门课啊。。。
CS190 on edx?

hash

【在 c***u 的大作中提到】
: 刚刚学到, One-hot encoding, 转换成sparse vector, 然后再把sparse vector给hash
: 了

avatar
r*w
6
我在上这门。
因为没接触过hash,问一个基本问题:用这个hash的话,是不是有很多features就进入
到同一个bucket里面了?这样的话,是不是有一定的几率使结果不准确(就是,用裸的
features的话,这些features是不同的,但是hash的话,有些会被当做相同的)?

【在 d**m 的大作中提到】
: 看样子我们上的是同一门课啊。。。
: CS190 on edx?
:
: hash

avatar
O*y
7
借这个楼搭个顺风车问个问题,PCA(lab5 里面用到)是不是主要用来做数据的预处理
(减少data dimension)用,比如用pca生成图像观察data的特征发现outlier等,然后
用新生成的reduced dimension feature去做modeling去预测?那最后model的分析解释
parameters也是建立在new feature上,谢谢。
我是新手,多谢指教。
avatar
d*m
8
我也没接触过,但你说的是对的,hash后的features可能引入了一些本来数据中不存在
的关系
比如A和B都被扔到一个bucket里,那么同时具有AB两个feature就是2,而单独的A或B就
是1
所以这种方法只用在很多feature都是0的情况下才好用吧

【在 r***w 的大作中提到】
: 我在上这门。
: 因为没接触过hash,问一个基本问题:用这个hash的话,是不是有很多features就进入
: 到同一个bucket里面了?这样的话,是不是有一定的几率使结果不准确(就是,用裸的
: features的话,这些features是不同的,但是hash的话,有些会被当做相同的)?

avatar
s*h
9
这个只能说是一个折中方案吧。

hash

【在 c***u 的大作中提到】
: 刚刚学到, One-hot encoding, 转换成sparse vector, 然后再把sparse vector给hash
: 了

avatar
h*d
10


【在 x*****6 的大作中提到】
: 转换成binary vector?
: 这样的话多几个这种feature岂不是就很高维了?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。