Redian新闻
>
建模过程中对于outlier的处理问题
avatar
建模过程中对于outlier的处理问题# DataSciences - 数据科学
a*e
1
一个数据集存在一些outlier (或者说和其他数据点比较不同), 在对这个数据集建
立预测模型(比如 用回归分析)的时候应该如何处理这些outlier? 当然可以把这些
outlier分离出来不要。 但假如希望这个模型能够包含这些outlier的话,应该怎么办
。一般哪些模型能够比较好的容忍这些outlier。
avatar
c*h
2
search for robust regression by Rousseeuw
avatar
T*u
3
有些regression,比如说quantile regression,就不是特别敏感。
avatar
a*g
4
有些时候可以做一些变化,比如log什么的就可以把outlier很好的fit到
avatar
Y*a
5
“这个模型能够包含这些outlier”这句话该怎么理解?
1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
impact。
线性模型里,一个y-direction的outlier可以 completely screw your model up
3. outlier的来源是什么?是不是valid input。
人为因素,还是系统因素。
人为因素,不建议保留,而且要implement一套自动识别机制
系统因素,建议保留,并建立一套自动处理这些数据的程序。
4. 个人感觉:比较不能接受为了outlier而更改模型的做法。

【在 a********e 的大作中提到】
: 一个数据集存在一些outlier (或者说和其他数据点比较不同), 在对这个数据集建
: 立预测模型(比如 用回归分析)的时候应该如何处理这些outlier? 当然可以把这些
: outlier分离出来不要。 但假如希望这个模型能够包含这些outlier的话,应该怎么办
: 。一般哪些模型能够比较好的容忍这些outlier。

avatar
h*7
6
+1

【在 T*****u 的大作中提到】
: 有些regression,比如说quantile regression,就不是特别敏感。
avatar
a*e
7
这组数据是对应不同工程的cost, 大部分是小工程(两百到三百个), 有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。 问题是如何才能建立
一个统一的模型同时抓住大小工程。

【在 Y****a 的大作中提到】
: “这个模型能够包含这些outlier”这句话该怎么理解?
: 1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
: 2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
: 这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
: impact。
: 线性模型里,一个y-direction的outlier可以 completely screw your model up
: 3. outlier的来源是什么?是不是valid input。
: 人为因素,还是系统因素。
: 人为因素,不建议保留,而且要implement一套自动识别机制
: 系统因素,建议保留,并建立一套自动处理这些数据的程序。

avatar
a*e
8
这组数据是对应不同工程的cost, 大部分是小工程(两百到三百个), 有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。 问题是如何才能建立
一个统一的模型同时抓住大小工程。

【在 Y****a 的大作中提到】
: “这个模型能够包含这些outlier”这句话该怎么理解?
: 1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
: 2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
: 这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
: impact。
: 线性模型里,一个y-direction的outlier可以 completely screw your model up
: 3. outlier的来源是什么?是不是valid input。
: 人为因素,还是系统因素。
: 人为因素,不建议保留,而且要implement一套自动识别机制
: 系统因素,建议保留,并建立一套自动处理这些数据的程序。

avatar
Y*a
9
那你这个实际上是两个population
可以引入一个indicater,0表示小项目,1表示大项目,然后根据你对数据的理解,在
模型中加入线性或interaction项。
avatar
T*u
10
大的小的各建一个,加一个triage的开关,给分流到不同的model
或者
大的小的各建一个,搞一个logistic function或者spline或者类似在output把两个
model给粘起来
或者
用一个model,但是给大的小的加不同的weight,不过没看到非需要用同一个model的必要
或者
类似3,resample,balance一下数据,一个model一言堂还是民主制度随你
或者
类似1,搞一个jit,或者local model或者nonparametric,每次见到input先找几个类
似的,随时建模,随时出结果
或者
类似1和4,用rbf kernel,几百个点而已
再或者
直接上svm,看运气吧
对你的数据很多可能都不make sense,只能希望启发一下思路
avatar
c*z
11
做两个模型+1
avatar
i*a
12
LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?

【在 c***z 的大作中提到】
: 做两个模型+1
avatar
c*z
13
那就用dummy吧
不过这是数据的问题,模型能帮到的很小

【在 i**********a 的大作中提到】
: LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
avatar
T*u
14
我有两哥们,一个是某校统计系的教授,一个是某校某专业的某学生。后者做实验一共
测了三个点,帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
了,但一个点要花多少时间和钱啊。你做偏science还是工程?

【在 i**********a 的大作中提到】
: LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
avatar
a*e
15
偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?

【在 T*****u 的大作中提到】
: 我有两哥们,一个是某校统计系的教授,一个是某校某专业的某学生。后者做实验一共
: 测了三个点,帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
: 了,但一个点要花多少时间和钱啊。你做偏science还是工程?

avatar
T*u
16
工程的话最开始的model差点也无所谓了。先把practice建立起来,再慢慢优化。一步
到位对于做工程也并不很现实,所以期望值不要太高。不是最好的model,but it is
the best up to date known to our knowledge,and there are optimization plans
and paths leading to next levels.

【在 a********e 的大作中提到】
: 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
avatar
c*z
17
simulation?

【在 a********e 的大作中提到】
: 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。