大家对于有很多value的categorical feature都怎么处理?# DataSciences - 数据科学x*62015-07-24 07:071 楼转换成binary vector?这样的话多几个这种feature岂不是就很高维了?
d*m2015-07-24 07:075 楼看样子我们上的是同一门课啊。。。CS190 on edx?hash【在 c***u 的大作中提到】: 刚刚学到, One-hot encoding, 转换成sparse vector, 然后再把sparse vector给hash: 了
r*w2015-07-24 07:076 楼我在上这门。因为没接触过hash,问一个基本问题:用这个hash的话,是不是有很多features就进入到同一个bucket里面了?这样的话,是不是有一定的几率使结果不准确(就是,用裸的features的话,这些features是不同的,但是hash的话,有些会被当做相同的)?【在 d**m 的大作中提到】: 看样子我们上的是同一门课啊。。。: CS190 on edx?: : hash
O*y2015-07-24 07:077 楼借这个楼搭个顺风车问个问题,PCA(lab5 里面用到)是不是主要用来做数据的预处理(减少data dimension)用,比如用pca生成图像观察data的特征发现outlier等,然后用新生成的reduced dimension feature去做modeling去预测?那最后model的分析解释parameters也是建立在new feature上,谢谢。我是新手,多谢指教。
d*m2015-07-24 07:078 楼我也没接触过,但你说的是对的,hash后的features可能引入了一些本来数据中不存在的关系比如A和B都被扔到一个bucket里,那么同时具有AB两个feature就是2,而单独的A或B就是1所以这种方法只用在很多feature都是0的情况下才好用吧【在 r***w 的大作中提到】: 我在上这门。: 因为没接触过hash,问一个基本问题:用这个hash的话,是不是有很多features就进入: 到同一个bucket里面了?这样的话,是不是有一定的几率使结果不准确(就是,用裸的: features的话,这些features是不同的,但是hash的话,有些会被当做相同的)?
s*h2015-07-24 07:079 楼这个只能说是一个折中方案吧。hash【在 c***u 的大作中提到】: 刚刚学到, One-hot encoding, 转换成sparse vector, 然后再把sparse vector给hash: 了