Redian新闻
>
请问这样的数据应该用什么样的模型适合。
avatar
请问这样的数据应该用什么样的模型适合。# DataSciences - 数据科学
a*e
1
我想建立一个模型, 需要预测量是一个工程的实际花费.
自变量的类型包括以下几种类型
1) 连续变量
2)一些 binary 变量, (0, 1)
3) 一些 categorical变量,   比如 (0, 100, 100.1, 81.94); 这里有一些
categorical变量应该是存在内在order的
请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗? 一般还有
什么比较好的 可以试。
avatar
a*e
3
非常感谢, 资料很有用。
另外还有一个问题, 数据量大概有300个记录, 每个记录可能会有两百个 feature。
显然很多feature会被扔掉从domain knowledge的角度。 但仍然可能会保有100个左右
的feature。 从统计的角度可以 stepwise的选, 但还有什么办法呢。 基于经验来说
, 对于300个记录这样的数据量, 一般多少feature(可能包括高阶)对于回归模型
合适。

【在 c***z 的大作中提到】
: take a look
: http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc
: you can definitely try OLS, if the assumptions are met (or roughly met)
: plot the data to see outliers, truncations, correlations, etc

avatar
c*z
4
1. ridge or lasso
2. PCA if your clients know math
try glmnet in R
avatar
T*u
5
我会试试tree
avatar
P*6
6
如果用glmnet的话, 好像有elastic net. 它比lasso会保留更多的变量
无论lasso or elastic net, they are biased. 如果你的features小于100的话,AIC
and BIC for generally linear regression may be also OK.

【在 T*****u 的大作中提到】
: 我会试试tree
avatar
a*e
7
请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
avatar
n*3
8
all these shrinkage approach are biased with penalized term.
it is all about optimization with Bias-variance tradeoff

【在 a********e 的大作中提到】
: 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
avatar
a*z
9
try PCA or clustering first.
avatar
P*6
10
就是预测的期望值和实际值会有偏差,但是可能本身的自我误差比较小,所以high
dimension features反而可能比较准。就是上面有人提到的trade-off.

【在 a********e 的大作中提到】
: 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
avatar
a*r
11
IBM Modeler can to do auto model selection

【在 a********e 的大作中提到】
: 我想建立一个模型, 需要预测量是一个工程的实际花费.
: 自变量的类型包括以下几种类型
: 1) 连续变量
: 2)一些 binary 变量, (0, 1)
: 3) 一些 categorical变量,   比如 (0, 100, 100.1, 81.94); 这里有一些
: categorical变量应该是存在内在order的
: 请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗? 一般还有
: 什么比较好的 可以试。

avatar
h*7
12
elastic net介于ridge和lasso之间
总体来说我倾向lasso选,ridge测
毕竟这两个可以用概率论解释,更加analytical,parameter也少一些
avatar
T*u
13
讲讲lasso选和ridge测的关系好吗

【在 h*****7 的大作中提到】
: elastic net介于ridge和lasso之间
: 总体来说我倾向lasso选,ridge测
: 毕竟这两个可以用概率论解释,更加analytical,parameter也少一些

avatar
h*7
14
对高维而言,lasso是拥有convex解的最sparse的方法,能在闭合解状态下最大限度的
选出优质feature,对应贝叶斯的超高斯先验。
这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
性抑制overfitting。简言之就是用bias换variance,还不是NP hard。
ridge应用于预测,对应于高斯先验,均衡bias和variance的表现是多年证实的。选定
feature了,用ridge做预测,睡的香!

【在 T*****u 的大作中提到】
: 讲讲lasso选和ridge测的关系好吗
avatar
T*u
15
多谢!有啥阅读材料推荐一下吗?

【在 h*****7 的大作中提到】
: 对高维而言,lasso是拥有convex解的最sparse的方法,能在闭合解状态下最大限度的
: 选出优质feature,对应贝叶斯的超高斯先验。
: 这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
: 性抑制overfitting。简言之就是用bias换variance,还不是NP hard。
: ridge应用于预测,对应于高斯先验,均衡bias和variance的表现是多年证实的。选定
: feature了,用ridge做预测,睡的香!

avatar
h*7
16
这些都是我个人的理解
其实看lasso文章就好

【在 T*****u 的大作中提到】
: 多谢!有啥阅读材料推荐一下吗?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。