avatar
万佛,问个统计问题# PhotoGear - 摄影器材
a*n
1
在水木清华上也看到这个眼癌宝宝的捐款信息,但是马上就有热心家长出来警告这个儿
童希望基金会了,他们专门找一些得了绝症的长得漂亮可爱的宝宝,力劝家长找各种办
法治疗,倾家荡产,然后在各大网站宣传,捐了款完全不透明,不知道花到哪里去了,
最后小孩没了,家长也非常痛苦。大家要小心。
avatar
d*u
2
假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。
所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连
续变量)等。
如何选择正确方法分析三类消费者某些变量之间是否有显著差异?
做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次……
三组数据之间对不同变量两两做卡方检验?
多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同?
老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不
及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的
,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?
多谢!
avatar
b*6
4
avatar
a*n
5
这个水木清华孩子版的帖子:大家千万不要给盈利的伪慈善捐款呀:
发信人: linlanxiang (鲜血梅花), 信区: Children
标 题: 请大家警惕“儿童希望”组织的筹款信息
发信站: 水木社区 (Wed Feb 2 09:50:59 2011), 站内
今天看到十大上的帖子,心里很难受。
这么久时间了,这个组织越来越猖狂,还是一成不变的煽情,一成不变地借一些几乎不
能治愈的绝症孩子进行炒作和敛财。
她们会鼓动孩子家长治疗到底,最后大多数情况下,都是孩子在极端痛苦中去世,家长
生活在巨大的悲痛中,还要面临倾家荡产的局面。此时,在摇篮网上只化作一句“某某
宝宝化作天使”。
她们在“摇篮网”上的募捐中,不收奶粉,不收衣物,只收钱,而且,从不公布善款去
向。
组织负责人张雯有美国背景,兼做让美国无资质家庭领养中国孩子的生意,一个孩子收
费10W+美元。
如果大家有心,还能记得去年的天津无肛女婴炒作事件。在这次事件中,她们颠倒黑白
,利用媒体,隐瞒孩子真实病情,给孩子家庭造成了毁灭性的打击。现在,孩子已经去
世,她们依然煽动舆论,说是家长坚持不予治疗导致,其心可诛。
在此我诚恳地希望各位妈妈们,在善良之余,千万擦亮眼睛。
儿童希望,人在做,天在看,人不收你,老天也要收你!
avatar
d*u
6
这不是坑……
严肃的学术问题!
avatar
m*i
7
这些利用孩子的病来敛财的人,难道就不害怕举头三尺有神明吗?

【在 a***n 的大作中提到】
: 这个水木清华孩子版的帖子:大家千万不要给盈利的伪慈善捐款呀:
: 发信人: linlanxiang (鲜血梅花), 信区: Children
: 标 题: 请大家警惕“儿童希望”组织的筹款信息
: 发信站: 水木社区 (Wed Feb 2 09:50:59 2011), 站内
: 今天看到十大上的帖子,心里很难受。
: 这么久时间了,这个组织越来越猖狂,还是一成不变的煽情,一成不变地借一些几乎不
: 能治愈的绝症孩子进行炒作和敛财。
: 她们会鼓动孩子家长治疗到底,最后大多数情况下,都是孩子在极端痛苦中去世,家长
: 生活在巨大的悲痛中,还要面临倾家荡产的局面。此时,在摇篮网上只化作一句“某某
: 宝宝化作天使”。

avatar
b*r
8
这个 做linear regression拟合啊
avatar
m*a
9
还有那些拐卖儿童的,唉。

【在 m****i 的大作中提到】
: 这些利用孩子的病来敛财的人,难道就不害怕举头三尺有神明吗?
avatar
d*u
10
dependent variable?
independent variables?

【在 b****r 的大作中提到】
: 这个 做linear regression拟合啊
avatar
h*7
11
这个指责,只有一个家长这么说么?如果是,这个指责可靠么?
不要耽误一个孩子的幸福!
avatar
n*n
12
我觉得:
不妨先只考虑 C+,N+两种相机
可以用 Logistic Regression
然后 那些Covariates (e.g. 性别,年龄,高富帅,etc)
都可以test看是不是significant
然后以Odds Ratio来interpret;
现在有 C+,N+,S+三种相机
自然可以用
Multiple Logistic Regression
要是还有P+, O+
也可以一样Handle
avatar
a*n
13
看看天涯的大讨论吧,看看大家对这个儿童基金会人肉的结果把,你们就会知道了,他
们从国际儿童领养赚钱起家,贩了多少中国孩子到美国来啊,现在已经是从俄罗斯到各
种小国家都搞得风生水起了。然后又把原先的儿基会的壳接过来,摇身一变成为慈善组
织了。。。唉,那个无肛婴儿的事情在国内闹得挺大的,大家去天涯看一下就知道了。
avatar
d*u
14
恩,我原来的做法是,logit regression 比较A和非A用户,用odds ratio来解释
现在要把非A用户细化为B和C的话,打算是做multiple regression,但是想知道有没有
其他方法更好一些
avatar
n*n
16
楼主不好意思 说错了
推广形式的logistic regression应该叫
Multinomial logistic regression
(自从学了从来没用过)
高富帅对应参数就能interprete成
A/C的Odds Ratio

B/C的Odds Ratio
avatar
d*u
17
哎,我连二元逻辑回归都是自己瞎做的……

【在 n*********n 的大作中提到】
: 楼主不好意思 说错了
: 推广形式的logistic regression应该叫
: Multinomial logistic regression
: (自从学了从来没用过)
: 高富帅对应参数就能interprete成
: A/C的Odds Ratio
: 和
: B/C的Odds Ratio

avatar
b*r
19
那些年龄,收入啥的变量,你觉得他们互相dependent或者independent,都有办法说出
道理啊
看类似论文大家比较通用的方法吧

【在 d*********u 的大作中提到】
: dependent variable?
: independent variables?

avatar
m*o
20
这种GROUP MEMBERSHIP的统计研究方法很多,做起来也不太难。
但是你列的这些PREDICTOR未必有又显著性的INFLUENCE,即便有结果的解释也相当不易
,任何推断统计方法的ASSUMPTION都是很多的,达不达的到是个大问题,能否有CAUSAL
RELATIONSHIP就更是个疑问了。
没法严格设计实验的人的行为的统计研究其实是很难搞,做生物或者工程统计就好多了。
avatar
d*u
21
多谢,当初上统计时候教授就推荐过UCLA的这个页面……俺好好学习去……
PS,原来你是用R的啊……

【在 n*********n 的大作中提到】
: 有Example/Tutorial:
: http://www.ats.ucla.edu/stat/r/dae/mlogit.htm

avatar
n*m
22
propensity score matching是解决treatment的self-selection bias的,就是说你选
择吃不吃药和你的疗效是有关联的,和买相机有啥关系?
这就是classification的问题,machine learning里很多方法, 统计里multinomial
regression。
你有data吗?

【在 d*********u 的大作中提到】
: 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。
: 所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连
: 续变量)等。
: 如何选择正确方法分析三类消费者某些变量之间是否有显著差异?
: 做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次……
: 三组数据之间对不同变量两两做卡方检验?
: 多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同?
: 老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不
: 及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的
: ,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?

avatar
d*u
23
恩,有data,20K+的case,比例就是我说的比例,变量10+ 大部分为dumb variable,
有几个连续变量

【在 n*******m 的大作中提到】
: propensity score matching是解决treatment的self-selection bias的,就是说你选
: 择吃不吃药和你的疗效是有关联的,和买相机有啥关系?
: 这就是classification的问题,machine learning里很多方法, 统计里multinomial
: regression。
: 你有data吗?

avatar
d*u
24
你一说俺有点明白了,我这统计就是二把刀,很多时候知其然不知其所以然,模型拿来
套用,原理却不求甚解……

【在 n*******m 的大作中提到】
: propensity score matching是解决treatment的self-selection bias的,就是说你选
: 择吃不吃药和你的疗效是有关联的,和买相机有啥关系?
: 这就是classification的问题,machine learning里很多方法, 统计里multinomial
: regression。
: 你有data吗?

avatar
n*m
25
这个数据量足够了,不用太担心是不是正态分布的问题,都渐进了。先看看有多少
missing value,然后检查一下你的变量是不是太skew,是的话log transform一下。然
后上multinomial regression, 个人认为比multnomial logistic regression好解释。
用stata比较方便。
其实你也可以考虑用MANOVA,又叫做discriminant function analysis。

【在 d*********u 的大作中提到】
: 恩,有data,20K+的case,比例就是我说的比例,变量10+ 大部分为dumb variable,
: 有几个连续变量

avatar
n*m
26
大家都是这样,现学现用,慢慢就会了。

【在 d*********u 的大作中提到】
: 你一说俺有点明白了,我这统计就是二把刀,很多时候知其然不知其所以然,模型拿来
: 套用,原理却不求甚解……

avatar
d*u
27
我还是有点不太明白的是:用multinomial regression的话,dependent variable是什
么呢?multinomial logistical regression的dependent variable好理解,就是组别1
,2,3; multinomial regression 用啥?
变量skew也还好,不是很变态,我做二元logit regression的时候比较过log前后结果
,基本没有什么区别。
MANOVA和ANOVA原来就没学好,不太想用……哎

【在 n*******m 的大作中提到】
: 这个数据量足够了,不用太担心是不是正态分布的问题,都渐进了。先看看有多少
: missing value,然后检查一下你的变量是不是太skew,是的话log transform一下。然
: 后上multinomial regression, 个人认为比multnomial logistic regression好解释。
: 用stata比较方便。
: 其实你也可以考虑用MANOVA,又叫做discriminant function analysis。

avatar
n*m
28
multinomial regression的dv也是1,2,3,只不过link function是normal
distribution的cdf,multinomial logistic regression的link是logit。stata里应该
可以选用哪一个。我记得在解释coefficient时,normal比logit方便。
http://www.ats.ucla.edu/stat/dae/
这里有multinomial logistic regression和manova的例子,我没找到multinomial
regression的例子。要不你就用logit吧。
一般来说log transform的作用是扩大iv的值域,这样你的估计的置信区间会比较窄,
更精确。你看看每个参数估计的方差有变化吗?
其实multinomial regression和manova用哪一个还是取决于你关心的问题,就好比
linear regression和anova是一回事,但是侧重点不同。这个几句话解释不清,我也很
久没用manova了,得翻翻书先,呵呵。
有个问题:你的数据是随机抽样的吗?这里可能会有bias啊。

别1

【在 d*********u 的大作中提到】
: 我还是有点不太明白的是:用multinomial regression的话,dependent variable是什
: 么呢?multinomial logistical regression的dependent variable好理解,就是组别1
: ,2,3; multinomial regression 用啥?
: 变量skew也还好,不是很变态,我做二元logit regression的时候比较过log前后结果
: ,基本没有什么区别。
: MANOVA和ANOVA原来就没学好,不太想用……哎

avatar
G*Y
29
一对一对的比。
你有多少人呀。

【在 d*********u 的大作中提到】
: 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。
: 所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连
: 续变量)等。
: 如何选择正确方法分析三类消费者某些变量之间是否有显著差异?
: 做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次……
: 三组数据之间对不同变量两两做卡方检验?
: 多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同?
: 老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不
: 及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的
: ,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?

avatar
d*u
30
不是抽样数据,算population数据了,比如某一州所有的DSLR消费者数据。

【在 n*******m 的大作中提到】
: multinomial regression的dv也是1,2,3,只不过link function是normal
: distribution的cdf,multinomial logistic regression的link是logit。stata里应该
: 可以选用哪一个。我记得在解释coefficient时,normal比logit方便。
: http://www.ats.ucla.edu/stat/dae/
: 这里有multinomial logistic regression和manova的例子,我没找到multinomial
: regression的例子。要不你就用logit吧。
: 一般来说log transform的作用是扩大iv的值域,这样你的估计的置信区间会比较窄,
: 更精确。你看看每个参数估计的方差有变化吗?
: 其实multinomial regression和manova用哪一个还是取决于你关心的问题,就好比
: linear regression和anova是一回事,但是侧重点不同。这个几句话解释不清,我也很

avatar
d*u
31
这个不太现实,因为一对一的match方法比较难做,GIS可能是比较好的方法,但是这个
涉及到一定区域的竞争程度,我暂时不考虑这些因素,一是技术手段的问题,一是数据
availability的问题

【在 G**Y 的大作中提到】
: 一对一对的比。
: 你有多少人呀。

avatar
G*Y
32
我是说C家跟N家比,再跟另一家比。
logistic regression搞定。

【在 d*********u 的大作中提到】
: 这个不太现实,因为一对一的match方法比较难做,GIS可能是比较好的方法,但是这个
: 涉及到一定区域的竞争程度,我暂时不考虑这些因素,一是技术手段的问题,一是数据
: availability的问题

avatar
d*u
33
恩,也可以试试,到时候看看和直接做多元回归有没有区别……

【在 G**Y 的大作中提到】
: 我是说C家跟N家比,再跟另一家比。
: logistic regression搞定。

avatar
T*n
34
挺典型的discrete choice题目
用multinomial logit就可以了
stata或者R的教程youtube上都有,比如这个
http://www.youtube.com/watch?v=F1Zj7W_z8yk

【在 d*********u 的大作中提到】
: 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。
: 所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连
: 续变量)等。
: 如何选择正确方法分析三类消费者某些变量之间是否有显著差异?
: 做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次……
: 三组数据之间对不同变量两两做卡方检验?
: 多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同?
: 老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不
: 及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的
: ,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?

avatar
w*3
35
我想知道你是从哪儿搞到的数据。。。

【在 d*********u 的大作中提到】
: 恩,有data,20K+的case,比例就是我说的比例,变量10+ 大部分为dumb variable,
: 有几个连续变量

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。