求教 xgboost train error 非常小，咋回事 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

求教 xgboost train error 非常小，咋回事

求教 xgboost train error 非常小，咋回事# Programming - 葵花宝典

b*p2017-12-15 08:12

1 楼

g*u2017-12-15 08:12

2 楼

features dim 大概有60
做多类分类
总共有训练样本10，000 测试样本2000
iteration set 1000
训练样本从1000 逐渐增加到10，000， train error 一直是 0 .。。
test error 在样本增加到7000左右的时候变很小
其他还可以解释.
这个training error 随着样本增加都不变而且一直是 0.
哪里可能出问题？谢谢

w*22017-12-15 08:12

3 楼

has home button

【在 b*p 的大作中提到】

: ??

w*g2017-12-15 08:12

4 楼

xgb就是train error很小的。你把树深度缩小点能有改进。

：features dim 大概有60
：做多类分类

g*u2017-12-15 08:12

5 楼

多谢大神指点，那就说问题不大呗？现在树深 10. 三类问题。看到train error 0 怕
给老板到最后闹乌龙。
另外感觉 xgboost 也基本不需要调参数啊。。。。也就是树的深度调节一下，循环
次数调节一下
eta 大部分情况 0.1 or 0.08就很好用。其他也基本不需要调节啊。

【在 w***g 的大作中提到】

: xgb就是train error很小的。你把树深度缩小点能有改进。
:
: ：features dim 大概有60
: ：做多类分类

w*g2017-12-15 08:12

6 楼

树深10那绝对太深了。我用xgb做了不少东西啦，树深从没超过3。

【在 g*******u 的大作中提到】

: 多谢大神指点，那就说问题不大呗？现在树深 10. 三类问题。看到train error 0 怕
: 给老板到最后闹乌龙。
: 另外感觉 xgboost 也基本不需要调参数啊。。。。也就是树的深度调节一下，循环
: 次数调节一下
: eta 大部分情况 0.1 or 0.08就很好用。其他也基本不需要调节啊。

m*r2017-12-15 08:12

7 楼

xgb参数挺多的，好像5,6个都不止。

g*u2017-12-15 08:12

8 楼

哪几个比较重要需要调节？谢谢

【在 m******r 的大作中提到】

: xgb参数挺多的，好像5,6个都不止。

g*u2017-12-15 08:12

9 楼

看来 overfit了，但是在测试机上效果还可以啊。。。这怎么办？
深度深， training error 0，测试data 结果还不错，只有精度 99%。
我试试浅点3，4 之类的？但是那样test 结果就差了，精度 96%。
这怎么算？

【在 w***g 的大作中提到】

: 树深10那绝对太深了。我用xgb做了不少东西啦，树深从没超过3。

n*g2017-12-15 08:12

10 楼

魏老师威武！
哈哈问个初级问题这model 咋储存的？如果是linear regression 那么好办存个
weights array w1 w2 ... 就好
这种树模型是咋存到memory里的？
不好意思钱老转行基础知识不扎实
[在 wdong (万事休) 的大作中提到：]
:树深10那绝对太深了。我用xgb做了不少东西啦，树深从没超过3。

m*r2017-12-15 08:12

11 楼

你要是用R的话，可以把模型dump成为txt文件或json文件，得到的无非是一堆树，每
个树无非是if, else 其实挺简单的。预测的时候，每一颗树对一个observation计算
一下，比如200棵树，你就有200个值（概率），自己求个平均。
我上回碰到个问题：明明模型训练时我看有比如200个iteration, dump出来的树有201
棵，没想出来怎么回事，也许你可以看看。

【在 n******g 的大作中提到】

: 魏老师威武！
: 哈哈问个初级问题这model 咋储存的？如果是linear regression 那么好办存个
: weights array w1 w2 ... 就好
: 这种树模型是咋存到memory里的？
: 不好意思钱老转行基础知识不扎实
: [在 wdong (万事休) 的大作中提到：]
: :树深10那绝对太深了。我用xgb做了不少东西啦，树深从没超过3。

n*g2017-12-15 08:12

12 楼

理解点了你说的挺好大概是一堆Boolean 函数？
[在 magliner (magliner) 的大作中提到：]
:你要是用R的话，可以把模型dump成为txt文件或json文件，得到的无非是一堆树，每
:个树无非是if, else 其实挺简单的。预测的时候，每一颗树对一个observation计
算一下，比如200棵树，你就有200个值（概率），自己求个平均。
:我上回碰到个问题：明明模型训练时我看有比如200个iteration, dump出来的树有
201棵，没想出来怎么回事，也许你可以看看。

w*g2017-12-15 08:12

13 楼

可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
不过test如果到了0.99了，也没必要再折腾了。
一般就是training accuracy >> test accuracy时要尝试减小树的深度，增加
regularization。一直减/加到test accuracy不再升高为止。

【在 g*******u 的大作中提到】

g*u2017-12-15 08:12

14 楼

是啊
有尝试了下
深度减少到3，4 的时候精度是 98%多点吧之前算错了
但是10的时候可以到 99%
之前觉得犹豫也是因为虽然觉得可能overfit 但是 testdata上比较好。
不过很好的经验了记下了
另外我这个问题要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计调整阈值以后 sensitivity 每升一点点， specificity 就会下降很多。。

【在 w***g 的大作中提到】

: 可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
: 不过test如果到了0.99了，也没必要再折腾了。
: 一般就是training accuracy >> test accuracy时要尝试减小树的深度，增加
: regularization。一直减/加到test accuracy不再升高为止。

h*e2017-12-15 08:12

15 楼

试试调class weight吧

【在 g*******u 的大作中提到】

: 是啊
: 有尝试了下
: 深度减少到3，4 的时候精度是 98%多点吧之前算错了
: 但是10的时候可以到 99%
: 之前觉得犹豫也是因为虽然觉得可能overfit 但是 testdata上比较好。
: 不过很好的经验了记下了
: 另外我这个问题要做到 sensitivity 接近 100% specificity最好 95%以上
: 现在 sensitivity 98.5% specificity 99.2%
: sensitivity 还差距很大的。
: 估计调整阈值以后 sensitivity 每升一点点， specificity 就会下降很多。。

w*g2017-12-15 08:12

16 楼

见识新东西啦

【在 g*******u 的大作中提到】

g*u2017-12-15 08:12

17 楼

我每类别样本数目基本平均需要调节class weight吗？

【在 h**********e 的大作中提到】

: 试试调class weight吧

g*u2017-12-15 08:12

18 楼

是不是只要在test 数据上误差小（或者说只要test误差和train误差比较小就可以？
）就不用管 train 上 error 很小很小的问题？

【在 w***g 的大作中提到】

: 见识新东西啦

w*g2017-12-15 08:12

19 楼

是的。

【在 g*******u 的大作中提到】

: 是不是只要在test 数据上误差小（或者说只要test误差和train误差比较小就可以？
: ）就不用管 train 上 error 很小很小的问题？

L*82017-12-15 08:12

20 楼

overfit是个伪概念
数据本身如果没有啥噪声使劲fit就行了

【在 g*******u 的大作中提到】

: 看来 overfit了，但是在测试机上效果还可以啊。。。这怎么办？
: 深度深， training error 0，测试data 结果还不错，只有精度 99%。
: 我试试浅点3，4 之类的？但是那样test 结果就差了，精度 96%。
: 这怎么算？

h*e2017-12-15 08:12

21 楼

你每类样本数目虽然平均
但你对每类的准确度要求不是不一样吗

【在 g*******u 的大作中提到】

: 我每类别样本数目基本平均需要调节class weight吗？

g*u2017-12-15 08:12

22 楼

没调过这个参数啊不知道咋用啊。。。。
简单说几句？
thx

【在 h**********e 的大作中提到】

: 你每类样本数目虽然平均
: 但你对每类的准确度要求不是不一样吗