f*d
2 楼
像netflix,dropbox,还有telecom公司,以及基于SaaS的公司都是subscription based,
用模型来预测subscription renewal的肯定都在做吧,大家都在用什么方法?
我只能想到最基本的,以按月续订为例子,create a collection of usage metrics,
and aggregate onto monthly level.每个用户都有一个renew flag作为dependent
variable,然后用个logistic regression,或者什么tree ensemble啊,neural
network之类建个model。那么问题来了,training data怎么建?我的回答是take
several snapshots from historical data, and combine together.但是这也不能保
证这个sample representative of the scoring population.还有一个问题就是同一个
用户可能被抽到多次(比如出现在一月的snapshot里,又出现在二月的snapshot里),
这样数据的独立性又被质疑。总之,面试官肯定是想听到更sophisticated的方法。
回来以后google了下,也没找到什么,看到有用hidden markov chain的,仿佛很高端
,没太看明白。版上牛人多,请不吝赐教,也造福以后碰到类似问题的童鞋们。
用模型来预测subscription renewal的肯定都在做吧,大家都在用什么方法?
我只能想到最基本的,以按月续订为例子,create a collection of usage metrics,
and aggregate onto monthly level.每个用户都有一个renew flag作为dependent
variable,然后用个logistic regression,或者什么tree ensemble啊,neural
network之类建个model。那么问题来了,training data怎么建?我的回答是take
several snapshots from historical data, and combine together.但是这也不能保
证这个sample representative of the scoring population.还有一个问题就是同一个
用户可能被抽到多次(比如出现在一月的snapshot里,又出现在二月的snapshot里),
这样数据的独立性又被质疑。总之,面试官肯定是想听到更sophisticated的方法。
回来以后google了下,也没找到什么,看到有用hidden markov chain的,仿佛很高端
,没太看明白。版上牛人多,请不吝赐教,也造福以后碰到类似问题的童鞋们。
f*d
3 楼
对了,还是这个model的问题,也被问到了time varying covariates,比如第一个星期
非常活跃,之后就很少登陆,这种变量在aggregate之后是没法体现的,但同时又是非
常重要的predictor。咋办?
我说derive some variables to represent the behavioral change, for example,
the delta between Week2 and Week1, etc.感觉不理想。现在想想,是不是应该每个
用户有好几行数据,像longitudinal那样建model啊?但这样的话scoring的时候该咋办
?
非常活跃,之后就很少登陆,这种变量在aggregate之后是没法体现的,但同时又是非
常重要的predictor。咋办?
我说derive some variables to represent the behavioral change, for example,
the delta between Week2 and Week1, etc.感觉不理想。现在想想,是不是应该每个
用户有好几行数据,像longitudinal那样建model啊?但这样的话scoring的时候该咋办
?
a*n
4 楼
听上去有点像是银行里做的retention model。
就用logistic regression就行了。training data把每个账单上的所有信息都记录下来
,可以加上些别的有的没有,比如你说的什么登陆频率。(btw,登陆频率,你用time
since last login, time since 2nd last login, etc...这样像你提到的那个人就是
比如,200天,201天,203天,etc...实战中用time since last login应该就够了,最
多加个time since 2nd last login)
然后这些货,以及他们的aggregation, transformation,统统扔到model里。什么
univariate analysis, cluster analysis, stepwise logistic regression,统统用
上,就出来model啦。这里题外话已经,我非常反对把某个变量在时间1和时间2的差放
入model。原因是,这个差和dependent variable肯定不是单调的,所以说不定会对
model反而起副作用。
model要分segment,可以根据屌丝/高富帅分,可以根据产品分(乞丐版9.99/月还是高
富帅白富美终极套餐999/月),可以根据marketing渠道分(主动来订阅/我们发了无数
平信外加给rebate才来定的),etc...
based,
,
【在 f*******d 的大作中提到】
: 像netflix,dropbox,还有telecom公司,以及基于SaaS的公司都是subscription based,
: 用模型来预测subscription renewal的肯定都在做吧,大家都在用什么方法?
: 我只能想到最基本的,以按月续订为例子,create a collection of usage metrics,
: and aggregate onto monthly level.每个用户都有一个renew flag作为dependent
: variable,然后用个logistic regression,或者什么tree ensemble啊,neural
: network之类建个model。那么问题来了,training data怎么建?我的回答是take
: several snapshots from historical data, and combine together.但是这也不能保
: 证这个sample representative of the scoring population.还有一个问题就是同一个
: 用户可能被抽到多次(比如出现在一月的snapshot里,又出现在二月的snapshot里),
: 这样数据的独立性又被质疑。总之,面试官肯定是想听到更sophisticated的方法。
就用logistic regression就行了。training data把每个账单上的所有信息都记录下来
,可以加上些别的有的没有,比如你说的什么登陆频率。(btw,登陆频率,你用time
since last login, time since 2nd last login, etc...这样像你提到的那个人就是
比如,200天,201天,203天,etc...实战中用time since last login应该就够了,最
多加个time since 2nd last login)
然后这些货,以及他们的aggregation, transformation,统统扔到model里。什么
univariate analysis, cluster analysis, stepwise logistic regression,统统用
上,就出来model啦。这里题外话已经,我非常反对把某个变量在时间1和时间2的差放
入model。原因是,这个差和dependent variable肯定不是单调的,所以说不定会对
model反而起副作用。
model要分segment,可以根据屌丝/高富帅分,可以根据产品分(乞丐版9.99/月还是高
富帅白富美终极套餐999/月),可以根据marketing渠道分(主动来订阅/我们发了无数
平信外加给rebate才来定的),etc...
based,
,
【在 f*******d 的大作中提到】
: 像netflix,dropbox,还有telecom公司,以及基于SaaS的公司都是subscription based,
: 用模型来预测subscription renewal的肯定都在做吧,大家都在用什么方法?
: 我只能想到最基本的,以按月续订为例子,create a collection of usage metrics,
: and aggregate onto monthly level.每个用户都有一个renew flag作为dependent
: variable,然后用个logistic regression,或者什么tree ensemble啊,neural
: network之类建个model。那么问题来了,training data怎么建?我的回答是take
: several snapshots from historical data, and combine together.但是这也不能保
: 证这个sample representative of the scoring population.还有一个问题就是同一个
: 用户可能被抽到多次(比如出现在一月的snapshot里,又出现在二月的snapshot里),
: 这样数据的独立性又被质疑。总之,面试官肯定是想听到更sophisticated的方法。
f*d
5 楼
感激!这个time since last login很有用啊。还有segment也是,他们的确有不同的
model针对不同的用户群。
还是training set的问题,请问要怎样sample?比如我有1 million用户,他们每天的
activity都在log里,很多人已经renew了十几二十次(每月renew一次),难道我要把
他们全放到training里?怎样保证training和scoring的data是相近的呢?
time
【在 a******n 的大作中提到】
: 听上去有点像是银行里做的retention model。
: 就用logistic regression就行了。training data把每个账单上的所有信息都记录下来
: ,可以加上些别的有的没有,比如你说的什么登陆频率。(btw,登陆频率,你用time
: since last login, time since 2nd last login, etc...这样像你提到的那个人就是
: 比如,200天,201天,203天,etc...实战中用time since last login应该就够了,最
: 多加个time since 2nd last login)
: 然后这些货,以及他们的aggregation, transformation,统统扔到model里。什么
: univariate analysis, cluster analysis, stepwise logistic regression,统统用
: 上,就出来model啦。这里题外话已经,我非常反对把某个变量在时间1和时间2的差放
: 入model。原因是,这个差和dependent variable肯定不是单调的,所以说不定会对
model针对不同的用户群。
还是training set的问题,请问要怎样sample?比如我有1 million用户,他们每天的
activity都在log里,很多人已经renew了十几二十次(每月renew一次),难道我要把
他们全放到training里?怎样保证training和scoring的data是相近的呢?
time
【在 a******n 的大作中提到】
: 听上去有点像是银行里做的retention model。
: 就用logistic regression就行了。training data把每个账单上的所有信息都记录下来
: ,可以加上些别的有的没有,比如你说的什么登陆频率。(btw,登陆频率,你用time
: since last login, time since 2nd last login, etc...这样像你提到的那个人就是
: 比如,200天,201天,203天,etc...实战中用time since last login应该就够了,最
: 多加个time since 2nd last login)
: 然后这些货,以及他们的aggregation, transformation,统统扔到model里。什么
: univariate analysis, cluster analysis, stepwise logistic regression,统统用
: 上,就出来model啦。这里题外话已经,我非常反对把某个变量在时间1和时间2的差放
: 入model。原因是,这个差和dependent variable肯定不是单调的,所以说不定会对
c*z
6 楼
for renewals, maybe consider RFM - recency, frequency and money - as
features
actually unless the product changes a lot, you can simply fit a curve,
either Bass model or Fader model, at either the user level or aggregated
level
if the product changes a lot, the best approach I know is to use experiment,
e.g. bandit algorithms
【在 f*******d 的大作中提到】
: 感激!这个time since last login很有用啊。还有segment也是,他们的确有不同的
: model针对不同的用户群。
: 还是training set的问题,请问要怎样sample?比如我有1 million用户,他们每天的
: activity都在log里,很多人已经renew了十几二十次(每月renew一次),难道我要把
: 他们全放到training里?怎样保证training和scoring的data是相近的呢?
:
: time
features
actually unless the product changes a lot, you can simply fit a curve,
either Bass model or Fader model, at either the user level or aggregated
level
if the product changes a lot, the best approach I know is to use experiment,
e.g. bandit algorithms
【在 f*******d 的大作中提到】
: 感激!这个time since last login很有用啊。还有segment也是,他们的确有不同的
: model针对不同的用户群。
: 还是training set的问题,请问要怎样sample?比如我有1 million用户,他们每天的
: activity都在log里,很多人已经renew了十几二十次(每月renew一次),难道我要把
: 他们全放到training里?怎样保证training和scoring的data是相近的呢?
:
: time
f*d
7 楼
Thank you! I googled Fader's paper - it's pretty informative.
experiment,
【在 c***z 的大作中提到】
: for renewals, maybe consider RFM - recency, frequency and money - as
: features
: actually unless the product changes a lot, you can simply fit a curve,
: either Bass model or Fader model, at either the user level or aggregated
: level
: if the product changes a lot, the best approach I know is to use experiment,
: e.g. bandit algorithms
experiment,
【在 c***z 的大作中提到】
: for renewals, maybe consider RFM - recency, frequency and money - as
: features
: actually unless the product changes a lot, you can simply fit a curve,
: either Bass model or Fader model, at either the user level or aggregated
: level
: if the product changes a lot, the best approach I know is to use experiment,
: e.g. bandit algorithms
s*n
8 楼
Did something similar before. Basically just using movie window to take
multiple snapshot for each user, and realign the dataset to train with your
favorite binary classifier. I added some transient profile (demographics etc
) to characterize the state of the user.
To get fancier you could cut up the customer spending distribution to
multiple tier and estimate with a multinomial/multiclass distribution. Also
you could derive the ergotic/equilibrium distribution with the state-
transition probability matrix, assuming first-order Markov chain.
【在 f*******d 的大作中提到】
: Thank you! I googled Fader's paper - it's pretty informative.
:
: experiment,
multiple snapshot for each user, and realign the dataset to train with your
favorite binary classifier. I added some transient profile (demographics etc
) to characterize the state of the user.
To get fancier you could cut up the customer spending distribution to
multiple tier and estimate with a multinomial/multiclass distribution. Also
you could derive the ergotic/equilibrium distribution with the state-
transition probability matrix, assuming first-order Markov chain.
【在 f*******d 的大作中提到】
: Thank you! I googled Fader's paper - it's pretty informative.
:
: experiment,
相关阅读
R编程(RDeveloper)俱乐部: 提供R编程,R高性能算法,R统计分析(转载)请问哪里可以下载到所有在美国发表的书籍的数据有关clustering借道同问,big data/data science到底是什么?CS出国读研,英语不好,学校差的话怎么样?eBay 裁人, 招人, 到底哪一个更真? (转载)求教:data privacy in data analytics有什么学习资料吗?新年要招人了做事要有原则和底线----评花大价钱买培训课程事件 (转载)有人考虑过kaggle上这个预测CTR的题目么?关于统计专业毕业生在美国找工作的一些建议如何用python读取大数据小硕求refer求FB Data Scientist面经这些老土学生花大价钱买盗版课程,几年未找到工作大家电话面试都怎么准备的啊哪里可以找到DS的面试题?Vincent Granville这哥们真的是对统计有意见啊。。。基于SharePoint site的文件处理《求助》Capital One Data scientist -Preliminary Quiz