g*u
2 楼
features dim 大概有60
做多类分类
总共有训练样本10,000 测试样本2000
iteration set 1000
训练样本从1000 逐渐增加到10,000, train error 一直是 0 .。。
test error 在样本增加到7000左右的时候 变很小
其他还可以解释.
这个training error 随着样本增加 都不变 而且一直是 0.
哪里可能出问题?谢谢
做多类分类
总共有训练样本10,000 测试样本2000
iteration set 1000
训练样本从1000 逐渐增加到10,000, train error 一直是 0 .。。
test error 在样本增加到7000左右的时候 变很小
其他还可以解释.
这个training error 随着样本增加 都不变 而且一直是 0.
哪里可能出问题?谢谢
w*g
4 楼
xgb就是train error很小的。你把树深度缩小点能有改进。
:features dim 大概有60
:做多类分类
:features dim 大概有60
:做多类分类
m*r
7 楼
xgb参数挺多的,好像5,6个都不止。
n*g
10 楼
魏老师威武!
哈哈问个初级问题 这model 咋储存的?如果是linear regression 那么好办 存个
weights array w1 w2 ... 就好
这种树模型是咋存到memory里的?
不好意思钱老转行 基础知识不扎实
[在 wdong (万事休) 的大作中提到:]
:树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。
哈哈问个初级问题 这model 咋储存的?如果是linear regression 那么好办 存个
weights array w1 w2 ... 就好
这种树模型是咋存到memory里的?
不好意思钱老转行 基础知识不扎实
[在 wdong (万事休) 的大作中提到:]
:树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。
m*r
11 楼
你要是用R的话,可以把模型dump成为txt文件或json文件,得到的无非是一堆树, 每
个树无非是if, else 其实挺简单的。 预测的时候,每一颗树对一个observation计算
一下,比如200棵树,你就有200个值(概率),自己求个平均。
我上回碰到个问题: 明明模型训练时我看有比如200个iteration, dump出来的树有201
棵,没想出来怎么回事,也许你可以看看。
【在 n******g 的大作中提到】
: 魏老师威武!
: 哈哈问个初级问题 这model 咋储存的?如果是linear regression 那么好办 存个
: weights array w1 w2 ... 就好
: 这种树模型是咋存到memory里的?
: 不好意思钱老转行 基础知识不扎实
: [在 wdong (万事休) 的大作中提到:]
: :树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。
个树无非是if, else 其实挺简单的。 预测的时候,每一颗树对一个observation计算
一下,比如200棵树,你就有200个值(概率),自己求个平均。
我上回碰到个问题: 明明模型训练时我看有比如200个iteration, dump出来的树有201
棵,没想出来怎么回事,也许你可以看看。
【在 n******g 的大作中提到】
: 魏老师威武!
: 哈哈问个初级问题 这model 咋储存的?如果是linear regression 那么好办 存个
: weights array w1 w2 ... 就好
: 这种树模型是咋存到memory里的?
: 不好意思钱老转行 基础知识不扎实
: [在 wdong (万事休) 的大作中提到:]
: :树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。
n*g
12 楼
理解点了 你说的挺好 大概是一堆Boolean 函数?
[在 magliner (magliner) 的大作中提到:]
:你要是用R的话,可以把模型dump成为txt文件或json文件,得到的无非是一堆树, 每
:个树无非是if, else 其实挺简单的。 预测的时候,每一颗树对一个observation计
算一下,比如200棵树,你就有200个值(概率),自己求个平均。
:我上回碰到个问题: 明明模型训练时我看有比如200个iteration, dump出来的树有
201棵,没想出来怎么回事,也许你可以看看。
[在 magliner (magliner) 的大作中提到:]
:你要是用R的话,可以把模型dump成为txt文件或json文件,得到的无非是一堆树, 每
:个树无非是if, else 其实挺简单的。 预测的时候,每一颗树对一个observation计
算一下,比如200棵树,你就有200个值(概率),自己求个平均。
:我上回碰到个问题: 明明模型训练时我看有比如200个iteration, dump出来的树有
201棵,没想出来怎么回事,也许你可以看看。
w*g
13 楼
可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
不过test如果到了0.99了,也没必要再折腾了。
一般就是training accuracy >> test accuracy时要尝试减小树的深度,增加
regularization。 一直减/加到test accuracy不再升高为止。
【在 g*******u 的大作中提到】
: 多谢大神指点, 那就说问题不大呗?现在树深 10. 三类问题。看到train error 0 怕
: 给老板到最后闹乌龙。
: 另外感觉 xgboost 也基本不需要调参数啊。。。。也就是树的深度调节一下, 循环
: 次数调节一下
: eta 大部分情况 0.1 or 0.08就很好用。其他 也基本不需要调节啊。
不过test如果到了0.99了,也没必要再折腾了。
一般就是training accuracy >> test accuracy时要尝试减小树的深度,增加
regularization。 一直减/加到test accuracy不再升高为止。
【在 g*******u 的大作中提到】
: 多谢大神指点, 那就说问题不大呗?现在树深 10. 三类问题。看到train error 0 怕
: 给老板到最后闹乌龙。
: 另外感觉 xgboost 也基本不需要调参数啊。。。。也就是树的深度调节一下, 循环
: 次数调节一下
: eta 大部分情况 0.1 or 0.08就很好用。其他 也基本不需要调节啊。
g*u
14 楼
是啊
有尝试了下
深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
但是10的 时候 可以到 99%
之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
不过很好的 经验了 记下了
另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
【在 w***g 的大作中提到】
: 可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
: 不过test如果到了0.99了,也没必要再折腾了。
: 一般就是training accuracy >> test accuracy时要尝试减小树的深度,增加
: regularization。 一直减/加到test accuracy不再升高为止。
有尝试了下
深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
但是10的 时候 可以到 99%
之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
不过很好的 经验了 记下了
另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
【在 w***g 的大作中提到】
: 可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
: 不过test如果到了0.99了,也没必要再折腾了。
: 一般就是training accuracy >> test accuracy时要尝试减小树的深度,增加
: regularization。 一直减/加到test accuracy不再升高为止。
h*e
15 楼
试试调class weight吧
【在 g*******u 的大作中提到】
: 是啊
: 有尝试了下
: 深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
: 但是10的 时候 可以到 99%
: 之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
: 不过很好的 经验了 记下了
: 另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
: 现在 sensitivity 98.5% specificity 99.2%
: sensitivity 还差距很大的。
: 估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
【在 g*******u 的大作中提到】
: 是啊
: 有尝试了下
: 深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
: 但是10的 时候 可以到 99%
: 之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
: 不过很好的 经验了 记下了
: 另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
: 现在 sensitivity 98.5% specificity 99.2%
: sensitivity 还差距很大的。
: 估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
w*g
16 楼
见识新东西啦
【在 g*******u 的大作中提到】
: 是啊
: 有尝试了下
: 深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
: 但是10的 时候 可以到 99%
: 之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
: 不过很好的 经验了 记下了
: 另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
: 现在 sensitivity 98.5% specificity 99.2%
: sensitivity 还差距很大的。
: 估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
【在 g*******u 的大作中提到】
: 是啊
: 有尝试了下
: 深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
: 但是10的 时候 可以到 99%
: 之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
: 不过很好的 经验了 记下了
: 另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
: 现在 sensitivity 98.5% specificity 99.2%
: sensitivity 还差距很大的。
: 估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
相关阅读
那本 C++书比较好啊?Go什么时候可能支持Generic?Linus Torvalds因内核注解标点格式发飙 solidot teikaei 21小时54分钟前 Linus Torvalds在Linux内核邮件开发者列表上再次发飙,将部分程序员偏爱的代码注解标点格式称为“脑残”。他强烈反对的注解格式类似:/* This is disgusting drug-induced * crap, and should die */(具体见下图) http://static.cnbetacdn.com/article/2016/0713/00a2039be872980.png 和/* This is also very nasty * and visually unbalanced */ 他个人支持的格式类似: /* This is a comment */ 和 /* * This is also a comment, but it can now be cleanly * split over multiple lines */搞个pokemon go中国版再挖一个语言坑:scala流年不顺gcc编译选项 -lpthread vs -pthread有人用过Postgres 中 FDW模型吗?请教一下大家对于职业发展的一些看法先进生产力来了【考古】windows设计的真的比linux好?软件公司一般允许把程序拷贝回家看吗?说说数据科学家这个职业关于Capital One的online test天方夜谭C++11里list迭代器判空仍然知道具体的list对象吗?问个问题,关于隐藏实现细节, C plusplusreact is total crapOAuth 是不是个大烂玩意而我想用ehcache存一些临时数据,怎么处理多线程比较好?streamwriter and filestream