【科学中的统计】1. 描述性统计简介:使用均值、中位数、标准差
内容概要
什么是描述性统计?
平均数与中位数
标准差
正态分布
正态分布的早期历史
正态分布的进一步发展
正态分布的特征
使用统计操作
如何计算均值
如何计算中位数
如何计算标准差
在科学中使用描述性统计
示例问题1
示例问题2
非正态分布
你知道么?
关键概念
平均值、中位数和标准差等基本统计运算可帮助科学家快速总结数据集的主要特征。
正态分布是一种概率分布,其中观察到任何特定值的概率均匀分布在数据集的均值附近。在许多科学应用中,实验测量中的统计误差和总体内的自然变异近似为正态分布。
标准差用于衡量数据集的“分布”,即数据集中单个值与平均值的差异程度。这种数据的“传播”有助于科学家总结数据集或总体中有多少变化。
平均数:61
中位数:63
标准差:12
什么是描述性统计?
平均数与中位数
出于平均数和中位数的计算方式差异,平均数往往对异常值更敏感,这些值与大多数其他值差很多。在上面的例子(图1)中,中位数比平均数略微接近等级分布的中间。错过考试并得分为0的4名学生(异常值)与班上其他学生分数相差很多,由此降低了平均数。然而,中位数并没有太大变化,因为与班上的学生总数相比,错过考试的学生太少了。
【考考自己】平均数的另一种说法是什么?
a.平均值。
b.中位数
标准差
标准差衡量数据集中各个测量值与平均数的差异程度。换句话说,它给出了数据集中变化或分散的度量。通常,数据集中的大多数值都位于一个范围内,该范围包含低于和高于均值的一个标准差。在上面的例子中,标准差是12,大多数考试成绩(200名学生中有 161 名)在考试中的得分在49到73分之间。如果考试成绩的变化更大,标准差会更大。相反,如果变化较小,则标准差会更小。例如,让我们考虑两个不同班级的学生获得的考试成绩(图 2)。
在第一个班(A班——图中的浅蓝色条)中,所有学生在一个大型学习小组中一起学习,并在期末考试中获得了相似的分数。在第二个班(B班——用深蓝色条表示)中,所有学生都独立学习,并在期末考试中获得了广泛的分数。虽然两个班级的平均成绩相同(50),但A班的标准差(5)比B班(15)小得多。
【考考自己】标准差时对什么的量度?
a.数据集的平均值。
b.数据集的分布。
正态分布
有时数据集会呈现出均匀分布在平均数周围的特定形状。这种分布称为正态分布(高斯分布或钟形曲线)。尽管考试成绩并不总是以这种方式分布,但“曲线评分”一词来自根据正态分布的钟形曲线分配成绩的做法。图 3 显示了如何通过正态分布来近似图1中所示的考试分数。按照直接评分标准,平均考试成绩 (61) 通常会获得 D 减分——这不是一个非常好的成绩!但是,正态分布可用于“在曲线上评分”,以便分布中心的学生获得更好的成绩,例如 C,而其余学生的成绩也会根据他们与平均值的相对距离进行调整。
图3 图1中的考分关于均值(虚线)对称,它的分布能用正态分布(或中性曲线)近似。
正态分布的早期历史
布拉赫等天文学家面对这样的数据集直犯愁,不确定如何将多个测量结果组合成一个“真实”或有代表性的值。答案出现在卡尔·弗里德里希·高斯(Carl Friedrich Gauss)1809年的著作《天体理论》(Theoria motus corporum celestium)中,他推导了实验误差的概率分布。高斯的概率分布与之前关于误差曲线应该是什么样子的直觉一致:它表明小误差比大误差更有可能,并且所有误差都均匀分布在“真实”值周围(图4)。重要的是,高斯的分布表明,这个“真实”值(分布中心最可能的值)是分布中所有值的平均值。因此,火星最可能的位置应该是布拉赫四次测量的平均值。
图4 高斯发展出概率分布,解释了多次实验测量中内生的误差。“真实”值是最可能的值,位于这个分布的中心。接近“真实”的值比起远离“真实”的值更可能被观察到。例如B接近A,比起D我们更有可能看到B。此外,“真实”值附近的值都对称分布,比如B和C离开A都是距离x,它们被观察到的概率相等。
正态分布的进一步发展
“高斯”分布很快获得了关注,这在一定程度上要归功于法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)。(拉普拉斯之前曾尝试过推导出类似的误差曲线,但都失败了,他急于证明高斯推导的有用性。
科学家和数学家很快注意到,正态分布不止可以用作误差曲线。数学家阿道夫·奎特莱特(Adolphe Quetelet)在给同事的一封信中指出,士兵的胸部测量值(记录在1817年的《爱丁堡医学和外科杂志》(Edinburgh Medical and Surgical Journal))或多或少是正态分布的(图5)。物理学家詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)使用正态分布来描述气体分子的相速度。正如这些科学家发现的,正态分布不仅反映了实验误差,还反应群体中的自然变异性(natural variation within a polulation)。今天,科学家使用正态分布来表示从遗传变异到分子随机扩散的一切。
正态分布的特征
正态分布的数学方程可能看起来令人生畏,但分布仅由两个参数定义:均值 (μ) 和标准差 (σ)。
正态分布的数学形式
均值是分布的中心。由于正态分布对称于均值,因此在理想数据集中,中位数和均值是同一个值。标准差提供了数据集内变异性或分布的度量。对于正态分布,标准差专门定义了范围,包括高于均值的 34.1% 的单个测量值和低于均值的34.1%(图 6)。
【考考自己】正态分布在科学中____?
a.常被使用
b.不太被使用
使用统计操作
要了解平均值、中位数和标准差是如何计算的,让我们使用最初启发 Adolphe Quetelet 的苏格兰士兵数据。该数据于1817年发表在《爱丁堡医学和外科杂志》上,报告了按团和身高排序的士兵的“胸部厚度”(第 13 卷,第 260 - 262 页)。我们将不使用整个数据集(包括 5732 名士兵的测量值),而是只考虑皮布尔斯郡军团的身高 5'4'' 和 5'5'' 的士兵(图 7)。
请注意,这个特定数据子集似乎不是正态分布的。但较大的完整数据集确实显示出大致正态分布。有时,较小的数据子集本身可能看起来不是正态分布的,它们从属于一个较大的数据集,而较大数据集可以通过正态分布更合理地近似。在这种情况下,只要我们知道或有理由假设它来自较大的正态分布数据集,计算较小数据子集的均值、中位数和标准差仍然很有用。
如何计算均值
如何计算中位数
(38 + 38) / 2 = 38
如何计算标准差
标准差度量数据集的各个值与均值的差异程度。标准差可以分三步计算:
1. 计算数据集的均值。从上面,我们知道平均胸宽是 37.8 英寸。
2. 将数据集中的每个值,减去均值并平方。
标准差为 1.9 英寸。标准差有时基于计算方式也被称为“均方根误差”。
简而言之,我们可以说平均胸腔宽为37.8±1.9英寸(图 8)。这告诉我们胸部测量的中心趋势(平均值)和分布(标准差),而无需完整地查看原始数据集。这对于更大的数据集特别有用。虽然我们只使用了上面皮布尔斯郡的部分数据,但我们可以很容易地计算出整个皮布尔斯郡团(224 名士兵)的均值、中位数、标准差。在 Excel 等计算机程序的帮助下,我们发现皮布尔斯郡的平均胸宽为39.6±2.1英寸。
【考考自己】正态分布在科学中____?
a.常被使用
b.不太被使用
在科学中使用描述性统计
科学充满了可变性和不确定性。最早创造“标准差”一词的卡尔·皮尔逊(Karl Pearson)的确提出过,不确定性是自然内生的。(有关科学家如何处理不确定性的更多信息,请参阅“不确定性、误差、置信区间:对自然变异与人为误差的表征”模块)。因此,重复实验或者对抽样的测量值分布应该始终围绕某个中心值,而不是每次都完全相等。在许多(但不是全部)情况下,这种重复测量是正态分布的。
描述性统计为科学家提供了一种工具,用以表示自然内生不确定和变异。无论物理学家是在进行容易出现实验错误的极其精确的测量,还是药理学家正在测试新药的效果变异,描述性统计都有助于科学家分析并简明扼要地表示他们的数据。
示例问题 1
空气中的细颗粒物 (μg/m3)
紧邻高速公路 | 距高速公路10英里 |
29.3 | 11.8 |
18.3 | 12.5 |
17.7 | 13.1 |
17.9 | 9.6 |
18.9 | 14.6 |
20.9 | 10.4 |
18.6 | 9.8 |
解决方案 1
然后同样计算关于距高速公路10英里的数据集:
示例问题 2
解决方案 2
图9 2010年全球人口分布,数据来自联合国
混合种群具有多个不同峰的分布。演化生物学家在加拉帕戈斯群岛研究达尔文雀的喙大小时观察到雀类的双峰分布(图10)。
图10 加拉帕戈斯群岛上的三种文雀的鸟喙尺寸分布。根据鸟喙分布可清晰分为两大类。
事实上,“正态分布”这个术语是相当具有误导性的,因为它意味着所有其他分布在某种程度上都是异常的。科学中使用了许多不同类型的分布,并帮助科学家总结和解释他们的数据。
References
Critical review of the state of medicine during the last ten years. (1817). In Edinburgh Medical and Surgical Journal. Edinburgh: A. and C. Black: 1-68.
de Moivre, A. (1718). The doctrine of chances: A method of calculating the probability of events in play, 2nd ed. London: W. Pearson. Reprinted (1967) New York: Chelsea Publishing Co.
Gauss, K. F. (1809). Theoria motus corporum celestium. Hamburg: Perthes. English translation (1963), Theory of the motion of the heavenly bodies moving about the sun in conic sections. New York: Dover Publications, Inc.
Hendry, A. P., Huber, S. K., De Leon, L. F., Herrel, A., & Podos, J. (2009). Disruptive selection in a bimodal population of Darwin’s finches. Proceedings of Biological Science, 276(1657), 753-759.
Jaynes, E. T. (1995). Probability theory: The logic of science. St. Louis, MO: Washington University.
Maxwell, J. C. (1860). Illustrations of the dynamical theory of gases. Philosophical Magazine Series 4, 19(124), 19-32. Reprinted in The Scientific Papers of James Clerk Maxwell (1952). New York: Dover.
Phuleria, H. C., Sheesley, R. J., Schauer, J. J., Fine, P. M., & Sioutas, C. (2007). Roadside measurements of size-segregated particulate organic compounds near gasoline and diesel-dominated freeways in Los Angeles, CA. Atmospheric Environment, 41(22), 4653-4671.
Quetelet, A. (1846). Lettres à S.A.R. le duc régnant de Saxe-Coburg et Gotha, sur la théorie des probabilités, appliquée aux sciences morales et politiques. Brussels: Hayez.
Stahl, S. (2006). The evolution of the normal distribution. Mathematics Magazine, 79(2), 96–113.
微信扫码关注该文公众号作者