Redian新闻
>
借版面问个machine learning的问题
avatar
借版面问个machine learning的问题# DataSciences - 数据科学
s*h
1
已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
是专业(文科,理科,工科)
预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
用什么model最合适?
多谢。
avatar
j*g
2
I don't think this is enough to build a model. Which company are you working
for, I don't think you can get anything out of this limited resource

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

avatar
s*h
3
In general,这个是不太靠谱。
不过,这是一道面试题,可能刚好这些数据能找到些关系。
所以给了这么一组数据,要求的就是利用这些条件。还要判断哪些factor的影响更大。
好些年没弄过Machine Learning的东西了,比较了解的也就是神经网络/遗传算法之类
的。都用不上。
这个好像是要用连续变量的bayes network,或者logisic regression,或者HMM?

working

【在 j*******g 的大作中提到】
: I don't think this is enough to build a model. Which company are you working
: for, I don't think you can get anything out of this limited resource

avatar
j*g
4
听上去好像他们要用regression的方法啊 具体怎么实现regression 就有很多种办法了
… 我的意思是也许该想想这样的公司 他们有足够的resource来让你解决问题吗

【在 s****h 的大作中提到】
: In general,这个是不太靠谱。
: 不过,这是一道面试题,可能刚好这些数据能找到些关系。
: 所以给了这么一组数据,要求的就是利用这些条件。还要判断哪些factor的影响更大。
: 好些年没弄过Machine Learning的东西了,比较了解的也就是神经网络/遗传算法之类
: 的。都用不上。
: 这个好像是要用连续变量的bayes network,或者logisic regression,或者HMM?
:
: working

avatar
s*h
5
我把变量的需要预测的东西名字换了。
他们给的是几组数据,每组数据都有几个连续变量,几个离散变量,做classifier分类。
所有的数据都是已经分好类的。他们要求的是用这些数据做training set,找出分类的
方法。
没有给test set,也许他们自己有test set,拿面试者的结果去test结果好不好。呵呵。

【在 j*******g 的大作中提到】
: 听上去好像他们要用regression的方法啊 具体怎么实现regression 就有很多种办法了
: … 我的意思是也许该想想这样的公司 他们有足够的resource来让你解决问题吗

avatar
h*7
6
用CART的变种

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

avatar
h*3
7
一般来说,用logistic regression配合regularization有比较好的效果。
http://en.wikipedia.org/wiki/Multinomial_logistic_regression

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

avatar
B*6
8
我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 
p<=1. 是这样的吗?

【在 h********3 的大作中提到】
: 一般来说,用logistic regression配合regularization有比较好的效果。
: http://en.wikipedia.org/wiki/Multinomial_logistic_regression

avatar
m*r
9
最基本的 logistic regression 应该是可以的
或者NN也是可以的
实际中应该和几种模型比较看看哪个更好预测吧?
avatar
j*g
10
I found this very helpful to me when I try to understand Lp ball
http://www.stanford.edu/~montanar/RESEARCH/FILEPAP/MMLP.pdf

160;

【在 B*******6 的大作中提到】
: 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
: feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 
: p<=1. 是这样的吗?

avatar
c*z
11
maybe you can also consider survival analysis, since there might be time
censoring in your data
avatar
h*3
12
可以从Bayesian Learning的角度去看。
regularization就是加了一个prior。
而L1就是Laplace distribution的prior,L2是Normal distribution的prior。
Lp里面,p越大, prior distribution越圆滑(看看密度分布图就知道了)。
如果只是为了做feature selection,一般流行的做法是L1,也就是LASSO,因为
Lapalce distribution很尖,这样得到的coefficient没那么圆滑或者模凌两可。

160;

【在 B*******6 的大作中提到】
: 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
: feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 
: p<=1. 是这样的吗?

avatar
B*6
13
数学上我大概知道个意思。
实际应用上我的感觉是信号处理用L2比较多, feature selection尤其是text用L1或者
以下的比较多, L infinite的我没有经验, 在什么方面会用到L infinite呢?

【在 h********3 的大作中提到】
: 可以从Bayesian Learning的角度去看。
: regularization就是加了一个prior。
: 而L1就是Laplace distribution的prior,L2是Normal distribution的prior。
: Lp里面,p越大, prior distribution越圆滑(看看密度分布图就知道了)。
: 如果只是为了做feature selection,一般流行的做法是L1,也就是LASSO,因为
: Lapalce distribution很尖,这样得到的coefficient没那么圆滑或者模凌两可。
:
: 160;

avatar
r*d
14
decision tree, random forest 都很切题,而且能知道哪些predictors最有效,
multinomial model(就是那个prior选狄理克雷分布的model)(multi-class
logistic regression是不是同一个model?)请大牛科普。
neural network (sorry i should say deep learning:) 也很切题,就是那个判断数字
0-9 hand writing的model
虽然这里predictors有实数有离散,但肯定不是问题

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

avatar
t*h
15
any classifier would make sense. try logistic regression 4 example

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。