问个feature selection的问题 - 未名空间MITBBS历史存档

问个feature selection的问题# DataSciences - 数据科学

v*72015-03-31 07:03

1 楼

近日，数十名债主在#郭文贵纽约住所前示威，举牌抗议，讨要欠款。郭文贵龟缩躲避。
https://youtu.be/xh01-QSN9XU

s*l2015-03-31 07:03

2 楼

曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
，周作人的很多散文是值得一读的。
我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
，民俗是他的散文中的一个永恒主题。
读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
生境界的追求和对人情人性的思考。
从20年代的《北京的茶食》到60年代的《南北的点心》，美食在周作人的笔下已经成为
一种生活方式和生命形态的象征。《北京的茶食》从一位日本作家感叹 “东京的茶食
点的点心都不好吃了”写起，周作人想起的是“德川时代江户的二百五十年的繁华”及
其流风，这显然是一个学者的联想和感受，普通的点心成了“特殊的有滋味的东西”
。在北京买不到好吃的点心，这种遗憾

o*l2015-03-31 07:03

3 楼

挺好的一张图，一条鱼骚扰一只乌龟，另一只乌龟来帮忙，但是水面的反光太强烈了，
请教专家，这张图水面的反光是否可以去掉。多谢了！

d*42015-03-31 07:03

4 楼

一次面试被问到如果一个data set有5万个feature,怎么选择？
我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
量少的feature的。
大家谈谈？

wh2015-03-31 07:03

5 楼

沙发。
这个算是应征文吧？要不要在题目里放个“2009征文”？

【在 s******l 的大作中提到】

: 曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
: 散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
: ，周作人的很多散文是值得一读的。
: 我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
: 《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
: 《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
: 九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
: ，民俗是他的散文中的一个永恒主题。
: 读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
: 生境界的追求和对人情人性的思考。

l*s2015-03-31 07:03

6 楼

原图在lab模式下的b channel能很好得把主题和水面反光分开，见附件的图。可以利用
b channel调整对比让黑白更分明，然后作为原图的selection把主题抠出来，抠图完了
剩下的就是各种色彩明度对比度调整了。

【在 o*****l 的大作中提到】

: 挺好的一张图，一条鱼骚扰一只乌龟，另一只乌龟来帮忙，但是水面的反光太强烈了，
: 请教专家，这张图水面的反光是否可以去掉。多谢了！

d*e2015-03-31 07:03

7 楼

面试官没见识，5万个feature根本不算个事儿。
不过他应该是想问，feature数量已经超现有计算能力的情况。
这时候需要用更简单的方法，比如regression的话就做marginal correlation的
screening；两类Classification的话，可以做t-test。

【在 d******4 的大作中提到】

: 一次面试被问到如果一个data set有5万个feature,怎么选择？
: 我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
: 量少的feature的。
: 大家谈谈？

n*o2015-03-31 07:03

8 楼

上大学时在午睡前经常翻翻他的散文集，记得是黄皮的，好几本。
看到讲浙东民俗，童谣时很亲切。以前我们在浙版还讨论过“栗栗斑斑，。。。”。

【在 s******l 的大作中提到】

: 曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
: 散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
: ，周作人的很多散文是值得一读的。
: 我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
: 《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
: 《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
: 九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
: ，民俗是他的散文中的一个永恒主题。
: 读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
: 生境界的追求和对人情人性的思考。

l*s2015-03-31 07:03

9 楼

按上面的方法稍微调整了一下。。有时间的话你可以把色彩和抠图的细节处理得更好

【在 o*****l 的大作中提到】

: 挺好的一张图，一条鱼骚扰一只乌龟，另一只乌龟来帮忙，但是水面的反光太强烈了，
: 请教专家，这张图水面的反光是否可以去掉。多谢了！

d*42015-03-31 07:03

10 楼

你的意思是用简单标准逐个筛选？

【在 d******e 的大作中提到】

: 面试官没见识，5万个feature根本不算个事儿。
: 不过他应该是想问，feature数量已经超现有计算能力的情况。
: 这时候需要用更简单的方法，比如regression的话就做marginal correlation的
: screening；两类Classification的话，可以做t-test。

l*i2015-03-31 07:03

11 楼

以前出于政治宣传的需要，很多人都被低调处理了。

【在 s******l 的大作中提到】

: 曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
: 散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
: ，周作人的很多散文是值得一读的。
: 我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
: 《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
: 《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
: 九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
: ，民俗是他的散文中的一个永恒主题。
: 读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
: 生境界的追求和对人情人性的思考。

o*l2015-03-31 07:03

12 楼

多谢多谢，学习了。

d*e2015-03-31 07:03

13 楼

嗯。

【在 d******4 的大作中提到】

: 你的意思是用简单标准逐个筛选？

s*a2015-03-31 07:03

14 楼

一定要顶sandy的文章，我是你最大的粉丝。

【在 s******l 的大作中提到】

: 曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
: 散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
: ，周作人的很多散文是值得一读的。
: 我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
: 《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
: 《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
: 九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
: ，民俗是他的散文中的一个永恒主题。
: 读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
: 生境界的追求和对人情人性的思考。

o*l2015-03-31 07:03

15 楼

挺好的一张图，一条鱼骚扰一只乌龟，另一只乌龟来帮忙，但是水面的反光太强烈了，
请教专家，这张图水面的反光是否可以去掉。多谢了！

T*u2015-03-31 07:03

16 楼

太多的话那就用filter，不用wrapper。

l*i2015-03-31 07:03

17 楼

粉丝没有大小只有粗细吧

【在 s**a 的大作中提到】

: 一定要顶sandy的文章，我是你最大的粉丝。

l*s2015-03-31 07:03

18 楼

原图在lab模式下的b channel能很好得把主题和水面反光分开，见附件的图。可以利用
b channel调整对比让黑白更分明，然后作为原图的selection把主题抠出来，抠图完了
剩下的就是各种色彩明度对比度调整了。

【在 o*****l 的大作中提到】

: 挺好的一张图，一条鱼骚扰一只乌龟，另一只乌龟来帮忙，但是水面的反光太强烈了，
: 请教专家，这张图水面的反光是否可以去掉。多谢了！

T*u2015-03-31 07:03

19 楼

如果都是weak feature怎么办

s*a2015-03-31 07:03

20 楼

翻译错了看来，我是你最大的扇子，乐子是你最粗的粉丝。

【在 l****i 的大作中提到】

: 粉丝没有大小只有粗细吧

l*s2015-03-31 07:03

21 楼

按上面的方法稍微调整了一下。。有时间的话你可以把色彩和抠图的细节处理得更好

【在 o*****l 的大作中提到】

: 挺好的一张图，一条鱼骚扰一只乌龟，另一只乌龟来帮忙，但是水面的反光太强烈了，
: 请教专家，这张图水面的反光是否可以去掉。多谢了！

n*32015-03-31 07:03

22 楼

我也想知道 LASSO／elastctnet以外的方法。。。。。
先 cluster highly correlated variables？

【在 d******4 的大作中提到】

: 一次面试被问到如果一个data set有5万个feature,怎么选择？
: 我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
: 量少的feature的。
: 大家谈谈？

M*N2015-03-31 07:03

23 楼

笑死

【在 s**a 的大作中提到】

: 翻译错了看来，我是你最大的扇子，乐子是你最粗的粉丝。

o*l2015-03-31 07:03

24 楼

多谢多谢，学习了。

Z*02015-03-31 07:03

25 楼

PCA, SVD...?

s*l2015-03-31 07:03

26 楼

好，加了

【在 wh 的大作中提到】

: 沙发。
: 这个算是应征文吧？要不要在题目里放个“2009征文”？

H*92015-03-31 07:03

27 楼

好像没看到处理后的图片啊

n*32015-03-31 07:03

28 楼

these are hard to interpret the result

【在 Z**0 的大作中提到】

: PCA, SVD...?

s*l2015-03-31 07:03

29 楼

真的阿？我好像很少看到你阿，呵呵

【在 s**a 的大作中提到】

: 一定要顶sandy的文章，我是你最大的粉丝。

T*u2015-03-31 07:03

30 楼

这个要算死吧。15k长度的data算头几个pca，几百个数据而已，要算好几好几分钟。

【在 Z**0 的大作中提到】

: PCA, SVD...?

s*l2015-03-31 07:03

31 楼

哈哈

【在 s**a 的大作中提到】

: 翻译错了看来，我是你最大的扇子，乐子是你最粗的粉丝。

t*e2015-03-31 07:03

32 楼

feature selection 一般分两类： filtering based and wrapper/embedded based.
forward stepwise 对5万个features 因为计算时间就可以淘汰了，lasso 为什么不行
？面试官说不行是因为计算时间还是因为选出来的feature predictive performance
差？ R 里面的glmnet package 用坐标下降，50k feature 应该挺快的。至于
predictive performance更没有绝对的了, 都是dataset dependent. 如果面试官懂的
话，他应该听说过no free lunch theorem. 也许他希望你说用filtering based
methods like correlation, mutual info, etc?

【在 d******4 的大作中提到】

: 一次面试被问到如果一个data set有5万个feature,怎么选择？
: 我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
: 量少的feature的。
: 大家谈谈？

s*a2015-03-31 07:03

33 楼

常去潜水，偶尔致意。
多亏你到这里发文章，给我一个表白的机会，哈哈。

【在 s******l 的大作中提到】

: 真的阿？我好像很少看到你阿，呵呵

t*e2015-03-31 07:03

34 楼

They are not really feature selection methods, but dimension reduction
methods. If you mean using loadings of PCA to do feature selection, the
biggest cons are that it's an unsupervised method, which most likely will
give inferior predictive performance.

【在 Z**0 的大作中提到】

: PCA, SVD...?

s*l2015-03-31 07:03

35 楼

呵呵，谢谢

【在 s**a 的大作中提到】

: 常去潜水，偶尔致意。
: 多亏你到这里发文章，给我一个表白的机会，哈哈。

s*w2015-03-31 07:03

36 楼

看别人用　lasso 从 240k feature 里面选
http://fastml.com/large-scale-l1-feature-selection-with-vowpal-

【在 d******4 的大作中提到】

: 一次面试被问到如果一个data set有5万个feature,怎么选择？
: 我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
: 量少的feature的。
: 大家谈谈？

s*l2015-03-31 07:03

37 楼

本来想分成两次发的，有点长，看着累，不过参加征文还是发在一篇里比较好，呵呵

【在 wh 的大作中提到】

: 沙发。
: 这个算是应征文吧？要不要在题目里放个“2009征文”？

s*w2015-03-31 07:03

38 楼

请展开讲下　filtering based methods like correlation, mutual info, etc?
难道是算　feature pairwise computation of correlation/mmi，　然后
thresholding 扔掉其中一些?

【在 t*****e 的大作中提到】

: feature selection 一般分两类： filtering based and wrapper/embedded based.
: forward stepwise 对5万个features 因为计算时间就可以淘汰了，lasso 为什么不行
: ？面试官说不行是因为计算时间还是因为选出来的feature predictive performance
: 差？ R 里面的glmnet package 用坐标下降，50k feature 应该挺快的。至于
: predictive performance更没有绝对的了, 都是dataset dependent. 如果面试官懂的
: 话，他应该听说过no free lunch theorem. 也许他希望你说用filtering based
: methods like correlation, mutual info, etc?

s*l2015-03-31 07:03

39 楼

友情提示，我那边正在发包子：）

【在 s**a 的大作中提到】

: 常去潜水，偶尔致意。
: 多亏你到这里发文章，给我一个表白的机会，哈哈。

s*w2015-03-31 07:03

40 楼

上网查了下，估计这个面试官想听: hashing

【在 t*****e 的大作中提到】

: feature selection 一般分两类： filtering based and wrapper/embedded based.
: forward stepwise 对5万个features 因为计算时间就可以淘汰了，lasso 为什么不行
: ？面试官说不行是因为计算时间还是因为选出来的feature predictive performance
: 差？ R 里面的glmnet package 用坐标下降，50k feature 应该挺快的。至于
: predictive performance更没有绝对的了, 都是dataset dependent. 如果面试官懂的
: 话，他应该听说过no free lunch theorem. 也许他希望你说用filtering based
: methods like correlation, mutual info, etc?

s*a2015-03-31 07:03

41 楼

吃到吃到，节日快乐。

【在 s******l 的大作中提到】

: 友情提示，我那边正在发包子：）

f*y2015-03-31 07:03

42 楼

大牛能不能展开讲讲？hashing用在feature selection还是第一次听说。

【在 s*w 的大作中提到】

: 上网查了下，估计这个面试官想听: hashing

s*l2015-03-31 07:03

43 楼

you 2 ：）

【在 s**a 的大作中提到】

: 吃到吃到，节日快乐。

c*z2015-03-31 07:03

44 楼

Lasso should work.
Maybe try deep learning methods for data compression, e.g. Autoencoders,
Restricted Boltzmann Machines

【在 d******4 的大作中提到】

: 一次面试被问到如果一个data set有5万个feature,怎么选择？
: 我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
: 量少的feature的。
: 大家谈谈？

wh2015-03-31 07:03

45 楼

写鬼的这一段是很好玩，的确很有看透生死、生死和谐的感觉。

【在 s******l 的大作中提到】

: 曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
: 散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
: ，周作人的很多散文是值得一读的。
: 我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
: 《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
: 《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
: 九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
: ，民俗是他的散文中的一个永恒主题。
: 读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
: 生境界的追求和对人情人性的思考。

d*e2015-03-31 07:03

46 楼

直接把高维数据直接用hash转成低维。一些特定的应用会比较有效，比如大量的binary
data，可以直接hash成低维连续数据。

【在 f*****y 的大作中提到】

: 大牛能不能展开讲讲？hashing用在feature selection还是第一次听说。

wh2015-03-31 07:03

47 楼

哇真的啊！说具体点呀，为何而粉？

【在 s**a 的大作中提到】

: 一定要顶sandy的文章，我是你最大的粉丝。

g*o2015-03-31 07:03

48 楼

如果不是binary，也太不靠谱了。。

binary

【在 d******e 的大作中提到】

: 直接把高维数据直接用hash转成低维。一些特定的应用会比较有效，比如大量的binary
: data，可以直接hash成低维连续数据。

wh2015-03-31 07:03

49 楼

嗯，我也记得你们讨论。我就很少知道什么民谣。倒是东北版有个人贴的那种乱七八糟
的“谁放的臭屁”之类我知道。

【在 n****o 的大作中提到】

: 上大学时在午睡前经常翻翻他的散文集，记得是黄皮的，好几本。
: 看到讲浙东民俗，童谣时很亲切。以前我们在浙版还讨论过“栗栗斑斑，。。。”。

t*e2015-03-31 07:03

50 楼

Calculate the correlation/mi/.. (whatever metric you want) between each
covariate and response variable, then pick top several to build your
predictive model. You can do thresholding too.

【在 s*w 的大作中提到】

: 请展开讲下　filtering based methods like correlation, mutual info, etc?
: 难道是算　feature pairwise computation of correlation/mmi，　然后
: thresholding 扔掉其中一些?

wh2015-03-31 07:03

51 楼

哎你是哪里人啊？

【在 s******l 的大作中提到】

: 曾经对周作人很反感，一提到他就想到汉奸两个字。直到有一次听了钱理群关于周作人
: 散文的讲座，非常精彩，对他的文章产生了兴趣，读了一段时间之后感觉抛开政治不说
: ，周作人的很多散文是值得一读的。
: 我发现周作人的很多散文中都有关于民俗的描写，比如《故乡的野菜》《北京的茶食》
: 《南北的点心》《喝茶》《谈酒》《关于目连戏》《村里的戏班子》《水里的东西》
: 《关于祭神迎会》《鬼念佛》《小孩的歌》《俗谚的背景》《儿歌中的吃食》《冬至九
: 九歌》《端午节》《爆竹》《墟集与庙会》等等，可以说，周作人一辈子都在写民俗
: ，民俗是他的散文中的一个永恒主题。
: 读这些散文，我们得到的不止是关于民俗风物的知识，更能体会到作者对自然和谐的人
: 生境界的追求和对人情人性的思考。

n*32015-03-31 07:03

52 楼

hash 这种 approach
真是打开眼界，不管work or not
真是燥快猛

【在 g*****o 的大作中提到】

: 如果不是binary，也太不靠谱了。。
:
: binary

wh2015-03-31 07:03

53 楼

嗯。不过我还是看不太进周作人梁实秋林语堂的文章，他们的文章比较精致，讲很多食
色，都是很细腻优雅的调子，我看得浮光掠影，看完就忘。不过林语堂的中国人我看得
还是哈哈大笑的。书的最后引用什么小尼姑的诗词，什么只顾眼下，火烧火燎，好像马
上要去私奔，这个看得我笑坏了。

【在 l****i 的大作中提到】

: 以前出于政治宣传的需要，很多人都被低调处理了。

n*32015-03-31 07:03

54 楼

我们也这么做，
但很多时候 pick one from a kind which
reduce the performance a lot

【在 t*****e 的大作中提到】

: Calculate the correlation/mi/.. (whatever metric you want) between each
: covariate and response variable, then pick top several to build your
: predictive model. You can do thresholding too.

s*l2015-03-31 07:03

55 楼

sasa是GG还是MM？

【在 wh 的大作中提到】

: 哇真的啊！说具体点呀，为何而粉？

g*o2015-03-31 07:03

56 楼

忽然想起了那个笑话, 说交配插到尿道里→_→

【在 n*****3 的大作中提到】

: hash 这种 approach
: 真是打开眼界，不管work or not
: 真是燥快猛

s*l2015-03-31 07:03

57 楼

湖南：）

【在 wh 的大作中提到】

: 哎你是哪里人啊？

T*u2015-03-31 07:03

58 楼

希望大牛能指点一下，feature selection都是在training的时候进行，除非JIT的
sensor，都是选一次的，和性能比起来，速度应该不是决定性因素，所以不太明白出题
人问的是什么。另外把filter和wrapper结合起来也许能折中。

s*l2015-03-31 07:03

59 楼

阿？为啥要万念俱灰阿，不懂

t*e2015-03-31 07:03

60 楼

大牛不敢当。For high dimensional data, most likely people needs to do
performance estimation by cross validation. If feature selection is honest
and nested in cross validation, wrapper 要算死的（当然看什么样的wrapper)。
当然如果你认为算几天到一个星期都不是事，那另当别论。另外，对high dimensional
data, 就直接上filter 吧，速度是一方面，另外wrapper 很容易overfit (当然你如
果是专家，知道怎么regularize/control/penalize, 另当别论）

【在 T*****u 的大作中提到】

: 希望大牛能指点一下，feature selection都是在training的时候进行，除非JIT的
: sensor，都是选一次的，和性能比起来，速度应该不是决定性因素，所以不太明白出题
: 人问的是什么。另外把filter和wrapper结合起来也许能折中。

wh2015-03-31 07:03

61 楼

哇湖南哪里？我去过湖南中南部几个地方，长沙衡山等等。

【在 s******l 的大作中提到】

: 湖南：）

T*u2015-03-31 07:03

62 楼

明白，多谢。再问一下，feature selection一般多长时间算是可以容忍的？

dimensional

【在 t*****e 的大作中提到】

: 大牛不敢当。For high dimensional data, most likely people needs to do
: performance estimation by cross validation. If feature selection is honest
: and nested in cross validation, wrapper 要算死的（当然看什么样的wrapper)。
: 当然如果你认为算几天到一个星期都不是事，那另当别论。另外，对high dimensional
: data, 就直接上filter 吧，速度是一方面，另外wrapper 很容易overfit (当然你如
: 果是专家，知道怎么regularize/control/penalize, 另当别论）

s*l2015-03-31 07:03

63 楼

湖南邵阳。你是哪里人？

【在 wh 的大作中提到】

: 哇湖南哪里？我去过湖南中南部几个地方，长沙衡山等等。

d*e2015-03-31 07:03

64 楼

binary是最简单的，可以有效的避免碰撞，可以理论证明。
不是binary一样可以做，只要合理就行。

【在 g*****o 的大作中提到】

: 如果不是binary，也太不靠谱了。。
:
: binary

wh2015-03-31 07:03

65 楼

噢，我去过湘潭衡阳好像没去邵阳。听着也像革命根据地似的。呀湘妹子漂亮。尤其南
边山里的。呵呵。我是江浙的。

【在 s******l 的大作中提到】

: 湖南邵阳。你是哪里人？

t*e2015-03-31 07:03

66 楼

这个没有一定吧。我用惯了filtering, 所以都很快。wrapper以前用过，算一次N个小
时，要是在加cross validation, 就太慢了。

【在 T*****u 的大作中提到】

: 明白，多谢。再问一下，feature selection一般多长时间算是可以容忍的？
:
: dimensional

s*l2015-03-31 07:03

67 楼

江浙出才子文豪：）

【在 wh 的大作中提到】

: 噢，我去过湘潭衡阳好像没去邵阳。听着也像革命根据地似的。呀湘妹子漂亮。尤其南
: 边山里的。呵呵。我是江浙的。

T*u2015-03-31 07:03

68 楼

我写过一个genetic algorithm给人用，纯属自己要写一个的目的，最少三天三夜，用
的就是上边的说辞。现在想必他是恨死我了。阿弥陀佛。

【在 t*****e 的大作中提到】

: 这个没有一定吧。我用惯了filtering, 所以都很快。wrapper以前用过，算一次N个小
: 时，要是在加cross validation, 就太慢了。

s*n2015-03-31 07:03

69 楼

orz乐乐

【在 l****i 的大作中提到】

: 粉丝没有大小只有粗细吧

n*32015-03-31 07:03

70 楼

what is the size of the datasets and what tools/envirment you use for it?
N个小时 is a lot for just wrapper..

【在 t*****e 的大作中提到】

: 这个没有一定吧。我用惯了filtering, 所以都很快。wrapper以前用过，算一次N个小
: 时，要是在加cross validation, 就太慢了。

w*22015-03-31 07:03

71 楼

lasso速度可能比较慢，而且可能stuck at local optima。
可以考虑一下用random forest classifier的feature importance帮你选。

c*12015-03-31 07:03

72 楼

您说的方法我也用过。有意思的是，feature importance里有几个很靠前的variable是
之前被我用bivariate test(就是对每个feature和repsone单独做test）给filter掉了
。不太清楚该怎么解决这种conflict

【在 w**2 的大作中提到】

: lasso速度可能比较慢，而且可能stuck at local optima。
: 可以考虑一下用random forest classifier的feature importance帮你选。

d*e2015-03-31 07:03

73 楼

"lasso可能stuck at local optima... .."
你还真是个熊孩子... ...

【在 w**2 的大作中提到】

: lasso速度可能比较慢，而且可能stuck at local optima。
: 可以考虑一下用random forest classifier的feature importance帮你选。

h*d2015-03-31 07:03

74 楼

【在 d******4 的大作中提到】

: 一次面试被问到如果一个data set有5万个feature,怎么选择？
: 我回到说lasso，forward stepwise之类常规方法，面试官说不行，说这些都是对付数
: 量少的feature的。
: 大家谈谈？