Redian新闻
>
如何证明某个feature 没用, 分组的分布和 总体分布相同
avatar
如何证明某个feature 没用, 分组的分布和 总体分布相同# DataSciences - 数据科学
p*g
1
比如我有10000个数据, 一个feature是categorical 的,
有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
的mean, stdev。
能不能说这个feature对总体分布没影响, 或者是没用的feature。
另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?
avatar
l*n
2
这个和sample size,confidence level有关
最简单做个histogram看看差的多不多,严格点做个test

【在 p*********g 的大作中提到】
: 比如我有10000个数据, 一个feature是categorical 的,
: 有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
: 的mean, stdev。
: 能不能说这个feature对总体分布没影响, 或者是没用的feature。
: 另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?

avatar
p*g
3
其实我就是想问问做哪个test,
怎么做

【在 l******n 的大作中提到】
: 这个和sample size,confidence level有关
: 最简单做个histogram看看差的多不多,严格点做个test

avatar
n*3
4
你已经 用 mean sDV
那就 2 or more sample ttest

【在 p*********g 的大作中提到】
: 其实我就是想问问做哪个test,
: 怎么做

avatar
T*u
5
如果只是想看看痛不痛就是看看他们是不是从一个分布里采样的,很多test都可以,比
如说permutation test,但是可能需要做些改动扩展到多维。
avatar
n*3
6
agree
非参的话
km test 什么的都行

【在 T*****u 的大作中提到】
: 如果只是想看看痛不痛就是看看他们是不是从一个分布里采样的,很多test都可以,比
: 如说permutation test,但是可能需要做些改动扩展到多维。

avatar
j*3
7
我也有个问题想问,一会我总结一下,下班发上来,请lz也帮忙看看
avatar
h*d
8


【在 p*********g 的大作中提到】
: 比如我有10000个数据, 一个feature是categorical 的,
: 有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
: 的mean, stdev。
: 能不能说这个feature对总体分布没影响, 或者是没用的feature。
: 另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。