如何证明某个feature 没用, 分组的分布和 总体分布相同# DataSciences - 数据科学
p*g
1 楼
比如我有10000个数据, 一个feature是categorical 的,
有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
的mean, stdev。
能不能说这个feature对总体分布没影响, 或者是没用的feature。
另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?
有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
的mean, stdev。
能不能说这个feature对总体分布没影响, 或者是没用的feature。
另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?