无所不在的方差分析
本文选自《中国统计》2022年第4期文章,原文已获出版社和作者授权。
如果要从统计学中选出一项技术,应用最广,分布最多,最为大众熟知,那么非它莫属,这就是方差分析
方差分析的主角
方差分析是统计学中常用的方法,它在统计中的很多地方或明或暗地出现。在试验设计中有它,在回归分析中有它,在因果推断中有它,在时间序列分析中有它,在聚类分析中还有它。由于方差分析的表现形式很多,所以在实际领域,它的应用成功案例多得数不胜数。虽然名字叫做方差分析,但均值却是方差分析的主角,方差分析的目的往往是判定若干总体均值是否相等。
对于多个正态随机变量,以均值为中心,以标准差的某个倍数为半径,做一个线段。如果这些正态分布均值不相等,则只要标准差足够小,这些线段就会互相不搭界。反过来,如果这些线段不搭界,就可以判断这些均值不同,这就是基本的方差分析的思想。其中的倍数是由检验水平决定的,检验水平越小,则倍数越大。当取检验水平为0.10时,倍数为1.65,当检验水平为0.05时倍数是1.96,当检验水平为0.01时倍数为2.58,当检验水平为0.0026时,倍数为3. 可以看出,当倍数增加时,检验水平下降非常快。
两个或者多个正态总体的比较
两个正态总体均值的比较是方差分析思想最初的来源。如果两组样本分布来自两个正态总体,则两个样本均值的方差随着样本量而成比例缩小,从而以总体均值为中心,以标准差的倍数为半径的线段就可以把两个正态总体区分开来,这样就可以构造出检验的方法。在方差未知时可以通过估计量来替代它们。对多个正态总体的情形,道理是类似的。两个或者多个正态总体均值的比较问题,可以对应到实际中的很多问题。当考虑一个变量对另外一个连续变量是否有影响的时候就可以使用这样的方法。例如,不同厂家生产的轮胎平均耐磨程度是否相同,不同品种的水稻平均亩产量相同,不同地区青少年的平均身高是否相同,男女专注力平均时长是否相同,不同类止痛药的平均作用时长是否相同,不同年龄段人上网平均时间是否有差异等等。第一个变量一般是离散变量,如果不是离散变量,则需要进行离散化处理,比如按照年龄段把人分为婴幼儿、少年、青年、中年和老年。
方差分析中的一个基本公式是平方和分解公式,也叫方差分解公式。待考察指标总的离差平方和分解为组内平方和与组间平方和。组内平方和表示随机误差或者其它未考虑的因素带来的指标变化,组件平方和表示因素本身变化引起的指标变化。方差分解公式在不同的地方以不同形式出现,但其本质是一样的。
试验设计中的方差分析
试验设计以探讨最佳配方、最佳工艺和最佳生产条件为主要目的。考虑的影响因素包括单因素,双因素和多因素。如果是单因素,则方法与上面介绍所说的正态分布均值的比较相类似。如果是双因素,则要针对两个离散变量的所有搭配进行至少一次试验。还要根据试验是否重复来确定模型的复杂程度。如果可以重复试验,则可分析平方效应和交互效应。如果不能重复试验,则只能分析一次项。如果因素个数多于两个,则需要根据正交试验设计方法精心安排试验,这样不必试验所有的条件组合则就可以做方差分析,进而可以比较因素水平对应的指标均值,最终选出最优工艺或者最佳配方。
回归模型中的方差分析
回归模型是用来刻画变量之间相关关系的模型。在回归分析建模的过程中,方差分析起到重要作用。利用方差分析进行回归模型的拟合优度检验,判断所用模型是否合适。回归模型通常表示为自变量的函数与随机误差之和。如果一个模型是有效的,则意味着函数的变化幅度至少应该大于随机误差的变化幅度。由于模型是根据数据估计出来的,所以这样的结论需要方差分析给出。
回归的方差分析方法也是基于方差分解公式的。这时方差分解公式的表现形式与上面内容有所不同。但本质是相同的,就是指标的总变化可以表示成因素不同带来的变化与误差造成的变化。
地理信息学的方差分析
地理信息学中常常分析某种元素是否有聚集性或者是否有空间分布匀质性,这种方法常用来探测矿产或者分析有毒有害物质的分布。这也需要进行方差分析,分析不同地点指标量均值是否相等。但由于很多时候地理上的指标量是无法重复,所以其模型假设以及统计方法会有所不同。一般都会有方差齐性假设,以及两点指标之间的相关性随两点距离变远而逐渐下降。但无论怎样,方差分析的思想仍然是适用的。
平方和分解公式的一般化
我们看到,平方和分解公式在方差分析中起到了核心的作用。但方差分解公式在各种具体情形下表现形式并不相同,有没有一个统一的模式在里面呐。我们说这种统一的模式是存在的。在一般性的相关关系中,平方和分解公式的本质是任何一个指标的方差都可以分解为给定因素时指标条件均值的方差加上条件方差的均值,这是具有一般性的结论。这对回归模型和试验设计中的平方和分解公式都是有效的。
产品质量改进中的方差分析
除了产品研制阶段可以用到试验设计和方差分析外,产品生产过程中质量改进也是可以运用方差分析解决。如果在生产过程中发现产品不尽人意,有时质量好,有时质量差,而根本原因被淹没在众多因素和随机误差中。要区分可控因素引起的质量变化和随机误差引起的质量变化,则需要用到方差分析。只有找到质量不稳定的原因,才能采取措施加以解决,获得可靠的产品。
因果推断中的方差分析
因果推断是当前智能科学最关心的问题之一。如何判定原因和结果在不同的情形下有不同的模型和不同的方法。如果因素A变化因素B也随之变化,但因素A不变化时,因素B也不变化,则基本上可以判定A是B的原因。但由于它们都可以是随机变量,因此可以通过它们的各种方差来度量这种变化。可以使用方差分解公式分析出来的两个量来表示。条件期望的方差表示因素A变化给因素B带来的变化,条件方差的期望表示因素A不变时,因素B变动的量。两个量的相对值则可以描述它们之间的因果关系的强弱。
生物医学中的方差分析
方差分析在生物医学中用途非常大也非常广。比较不同治疗方法,比较不同药物,分析群体异质性反应,找寻最佳治疗方案,发现疾病相关基因,构建精准医疗等等问题都可以运用方差分析方法验证或者发现因素对疾病的作用。
其它应用
在本文最后,我们列出某中文电子数据库针对方差分析查询后排在前面的十五篇文章的题目,来显示方差分析应用范围的广度和深度。我们做了粗略的归类。
经济学:方面资产组合与资本市场的均值方差分析,单因素方差分析在不同行业工资水平的应用;生态学:马尾松毛虫灾情指数的方差分析周期外推预报,生态学区组试验设计方差分析,湖泊水质时空变化特征识别的贝叶斯方差分析方法;工业:离心泵叶片数抗汽蚀性双因素方差分析数值模拟,基于方差分析法的飞机乘客座椅IFE舒适性设计研究,注气增产对煤层突出危险性的方差分析,基于方差分析的2450MHz微波消融温度场仿真模型参数研究,原子核结合能的协方差分析,定量描述法结合方差分析在橙子酱感官评定中的应用;教育:基于多因素方差分析的教学效果研究,教师自身因素对学生评教影响的多因素方差分析;其它:基于情景意识量表和方差分析的高原驾驶人情景意识特征分析,低强度卧位体操对维持性血液透析患者透析充分性的重复测量方差分析。
总结
这些文献反映了当今应用领域对方差分析技术的依赖程度。这种情况出现的原因是由于现实世界中很多的相关关系被淹没在随机性中。使得我们直接很难看出哪些变换是本质的,哪些变化是随机因素造成的。而方差分析技术恰好能够起到去粗取精去伪存真的作用。
作者简介
房祥忠教授 在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
编辑|赵霖琳
微信扫码关注该文公众号作者