请问xgboost训练需要保持不同类别样本数尽量一致吗？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

请问xgboost训练需要保持不同类别样本数尽量一致吗？

请问xgboost训练需要保持不同类别样本数尽量一致吗？# Programming - 葵花宝典

k*a2018-01-30 08:01

1 楼

他好像大学本来学的编剧，并非导演。

g*u2018-01-30 08:01

2 楼

需要保持不同类别训练样本数目 balanced吗？还是无所谓？
thx

N*r2018-01-30 08:01

3 楼

xgboost内部有对样本的平衡
但每种样本不能太少，至少得到统计显著吧

【在 g*******u 的大作中提到】

: 需要保持不同类别训练样本数目 balanced吗？还是无所谓？
: thx

M*02018-01-30 08:01

4 楼

1. 调参
http://xgboost.readthedocs.io/en/latest/how_to/param_tuning.html
2. 对数据up/down-sampling进行预处理

m*r2018-01-30 08:01

5 楼

response rate 就算很低，比如1% 我觉着做不做平衡问题不大。你做了平衡, 虽说
可以增加一些性能, 比如敏感度。但根客户解释起来，比较困难。比如average
response rate 是一个百分点, 某客户得分百分之二或者千分之八，市场部的大妈
可以马上做决定。
如果你搞平衡了，各打五十大板以后，同样的客户得分.85, 你让市场部大妈怎么做决
定呢?