E*e
2 楼
我利用空余时间做了下risk modeling。 之所以做,就是想用来构成投资建议。 比如
,开个户, 然后用自己的模型来选notes。
lending club的noets 有22% default rate,挺高的啊。 自己的模型能到AUC 0.702,
就是最简单的logistic regression。 random forest 和boosting 要低点。当然这个
跟没有细调参数有关。 不过还是想用logistic regression, 其他的方法只是作为个
参考。
同时也试着做了个kaggle的give me some credit。 目前logistic regression 可以到
0.8602. 这个比最好的0.8637要低点。 不够考虑模型的简单性, 结果也不错,对吧。
一个体会,就是数据预处理很重要。前段时间看到有人说道feature engineering,很
是赞同。简单处理数据,只能得到0.8, 但是用了feature engineering后就可以到0.
86.
开这个帖子就是想跟大家交流交流。 我在想lending club的数据是不是可以还能提高
点。 0.7不是很好, 最好可以上0.75. 那这样的预测才比较可靠。
谢谢。
,开个户, 然后用自己的模型来选notes。
lending club的noets 有22% default rate,挺高的啊。 自己的模型能到AUC 0.702,
就是最简单的logistic regression。 random forest 和boosting 要低点。当然这个
跟没有细调参数有关。 不过还是想用logistic regression, 其他的方法只是作为个
参考。
同时也试着做了个kaggle的give me some credit。 目前logistic regression 可以到
0.8602. 这个比最好的0.8637要低点。 不够考虑模型的简单性, 结果也不错,对吧。
一个体会,就是数据预处理很重要。前段时间看到有人说道feature engineering,很
是赞同。简单处理数据,只能得到0.8, 但是用了feature engineering后就可以到0.
86.
开这个帖子就是想跟大家交流交流。 我在想lending club的数据是不是可以还能提高
点。 0.7不是很好, 最好可以上0.75. 那这样的预测才比较可靠。
谢谢。
s*r
3 楼
HW,TIFFANY
或是定制一枚最实惠
或是定制一枚最实惠
l*j
4 楼
关于evaluation,想知道这个model的target variable是啥,是一个分类问题,还是
regression?比如是预测default rate还是收益啥的。
那么相应的选什么作为metrics就很重要,比如AUC、GINI、F1等
再就是是不是balance的,如果0 1分类中1只占1%,那么很高的AUC也不一定说明这个
model值得信赖,比如全都标成0.
这个项目还是很值得一做的,要相信,lending club的model也是他们的model团队搞出
来的,要有信心赛过他们
regression?比如是预测default rate还是收益啥的。
那么相应的选什么作为metrics就很重要,比如AUC、GINI、F1等
再就是是不是balance的,如果0 1分类中1只占1%,那么很高的AUC也不一定说明这个
model值得信赖,比如全都标成0.
这个项目还是很值得一做的,要相信,lending club的model也是他们的model团队搞出
来的,要有信心赛过他们
E*e
5 楼
这是一个regression 问题, 预测的是default概率。 22%的default rate 是从loan的
历史数据里得到的charge off 的百分比。 也就是说10个人里,最终有2个人charge
off。 考虑到note是收的利息是10-20%( 得比信用卡低个5-10%吧).22%的charge off
还是比较高的。 最近lending club 又提高了利息。
risk modeling 吧,还是AUC比较常用。 说实话, 没有一个metric 能适用普遍情况。
【在 l***j 的大作中提到】
: 关于evaluation,想知道这个model的target variable是啥,是一个分类问题,还是
: regression?比如是预测default rate还是收益啥的。
: 那么相应的选什么作为metrics就很重要,比如AUC、GINI、F1等
: 再就是是不是balance的,如果0 1分类中1只占1%,那么很高的AUC也不一定说明这个
: model值得信赖,比如全都标成0.
: 这个项目还是很值得一做的,要相信,lending club的model也是他们的model团队搞出
: 来的,要有信心赛过他们
历史数据里得到的charge off 的百分比。 也就是说10个人里,最终有2个人charge
off。 考虑到note是收的利息是10-20%( 得比信用卡低个5-10%吧).22%的charge off
还是比较高的。 最近lending club 又提高了利息。
risk modeling 吧,还是AUC比较常用。 说实话, 没有一个metric 能适用普遍情况。
【在 l***j 的大作中提到】
: 关于evaluation,想知道这个model的target variable是啥,是一个分类问题,还是
: regression?比如是预测default rate还是收益啥的。
: 那么相应的选什么作为metrics就很重要,比如AUC、GINI、F1等
: 再就是是不是balance的,如果0 1分类中1只占1%,那么很高的AUC也不一定说明这个
: model值得信赖,比如全都标成0.
: 这个项目还是很值得一做的,要相信,lending club的model也是他们的model团队搞出
: 来的,要有信心赛过他们
l*n
6 楼
不知道你们注意到lc的collection charge没有,30%。我都怀疑lc会不会作假骗钱。最
简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和申
请贷款的分那30%collection charge.
off
。
【在 E**********e 的大作中提到】
: 这是一个regression 问题, 预测的是default概率。 22%的default rate 是从loan的
: 历史数据里得到的charge off 的百分比。 也就是说10个人里,最终有2个人charge
: off。 考虑到note是收的利息是10-20%( 得比信用卡低个5-10%吧).22%的charge off
: 还是比较高的。 最近lending club 又提高了利息。
: risk modeling 吧,还是AUC比较常用。 说实话, 没有一个metric 能适用普遍情况。
简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和申
请贷款的分那30%collection charge.
off
。
【在 E**********e 的大作中提到】
: 这是一个regression 问题, 预测的是default概率。 22%的default rate 是从loan的
: 历史数据里得到的charge off 的百分比。 也就是说10个人里,最终有2个人charge
: off。 考虑到note是收的利息是10-20%( 得比信用卡低个5-10%吧).22%的charge off
: 还是比较高的。 最近lending club 又提高了利息。
: risk modeling 吧,还是AUC比较常用。 说实话, 没有一个metric 能适用普遍情况。
E*e
7 楼
这个不会吧。要是真的,那要出大事情的。
:不知道你们注意到lc的collection charge没有,30%。我都怀疑lc会不会作假骗钱。
最简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和
申请贷款的分那30%collection charge.
:
:不知道你们注意到lc的collection charge没有,30%。我都怀疑lc会不会作假骗钱。
最简单的就是找人贷款,比如36个月,第二年开始不付钱,然后lc collect,最后lc和
申请贷款的分那30%collection charge.
:
相关阅读
Grailsfeature selection的方法求教分享今年看到的最好的文章请推荐一个 优化和模拟的 Excel add-ins 软件来个技术问题求FB面试的一些经验有没有这样的软件?DS 现在是有大泡泡吗?PRML书上附录697页的矩阵求导是不是写错了?年底招人?j2ee的人现在都转行搞big data,ml了?SF-based startup hiring a data scientist关于startup专利申请我想说一句access自动化数据转移到hive上,大家看看这个过程可行不有人面过square吗?Book Club--Hadoop Activity #4刚电面一个,fail了寻找一起做kaggle competition的小伙伴狗狗内推(请BZ置顶)如何获取网页数据?