最重要的科学统计检验方法,源自一家啤酒厂
图片来源:Unsplash
撰文 | 杰克·默塔格(Jack Murtagh)
翻译 | 张岱铭
审校 | 不周
“来一杯吉尼斯(Guinness)啤酒!” 一位顾客对酒保说道。酒保取出一个刻着吉尼斯商标的品脱杯,将它放在啤酒龙头下。紧接着是一连串复杂的倒酒步骤,酒保把完成时间精准地控制在了119.5秒。无论将其视作营销噱头还是酒类工程的奇迹,这种“调酒仪式”都已经受到世界各地酒吧的推崇。顾客最终得到了一杯浓郁的黑啤酒,上面覆盖着一层完美的泡沫,就像一杯“泥浆状”奶昔。
自从创始人亚瑟·吉尼斯(Arthur Guinness)在德国都柏林签下每年45英镑、为期9000年的租约以来,吉尼斯酿酒厂一直以其富有创新性的酿酒方法闻名。例如,经过四年的不断试验,原本是数学家的酿酒师迈克尔·爱德华·阿什(Michael Edward Ash)发明了一种化学技术,使吉尼斯黑啤酒覆上丝滑的泡沫。其核心技术在于,向啤酒桶和吉尼斯啤酒罐中的小球添加氮气,而这催生了如今备受欢迎的“氮气啤酒”和氮气咖啡。
图片来源:Unsplash
然而,酿酒厂最具影响力的一项创新,却与啤酒毫不相干。这里诞生了科学中最重要的统计技术之一——t检验。当科学家宣称他们的研究结果具有“统计显著性”时,通常就基于t检验。那么,t检验是如何确定统计显著性的?它又为什么会在酿酒过程中诞生呢?
样本真的可靠吗?
截至20世纪初,吉尼斯啤酒厂已经运营了将近150年,远远领先竞争对手,成为了世界上最大的啤酒厂。在此之前,吉尼斯对其产品的质量控制,主要依靠粗略的目测和气味测试。然而,随着全球扩张的需求涌现,啤酒出厂的质量是否一致,是否达成了工业级的严格标准,都推动着吉尼斯的领导者改进他们的质量控制方法。
于是,公司雇佣了一支智囊团,给予他们自由去研究任何有助于酿造完美啤酒的问题。酿酒厂因此成为了解答许多问题的实验中心:哪里种植的优质大麦最好?麦芽提取物中理想的糖分含量是多少?最新的广告活动提升了多少销量?
在这股科学探究的热潮中,有一个问题一直困扰着智囊团:在样本量较小的情况下,该如何解读数据?这个挑战源于酿酒师们用到的啤酒花,它是赋予吉尼斯啤酒苦味并起到天然防腐作用的重要原料。
为了评估啤酒花的质量,酿酒师往往需要测量植株的软树脂含量。让我们假设,在他们的标准下,一个品质良好的典型植株中软树脂的含量是8%。然而,测量一片作物中的每一株啤酒花,这在经济上并不可行。因此,正如其他优秀的科学家一样,他们选择对随机样本进行测试。
图片来源:Unsplash
我们假想一个具体的例子:假设我们测量了九个植株样本的软树脂含量,并观察到从4%到10%的取值范围,平均值为6%——这与良好植株的典型值相比,太低了。但这是否意味着我们应该放弃整片作物?我们没有一个确定的答案,因为对于偏低的结果,存在两种可能的解释:一种是,这片作物的软树脂含量确实低于正常水平;另一种可能是这片作物整体上品质良好,偏偏只有样本中包含了品质低的植株。
随机抽样旨在借助样本忠实地反映一整片作物的情况,但也许我们不走运,恰巧选到了那些没有代表性、含量异常低的样本。(毕竟我们只测试了9个。)换句话说,样本的低含量数据,是否意味着这片植株的品质与8%软树脂含量存在显著差异,还是仅仅出于天然的数据差异?
这个问题并不仅限于酿酒业。事实上,它在所有的科学研究中都普遍存在。假设在一项医学试验中,治疗组和安慰剂组都有所改善,但治疗组表现稍好。这是否为推荐测试药物提供了足够的证据?如果我告诉你,两组分别接受了不同的安慰剂,你会不会认为表现更好那组的安慰剂也有疗效?或者是否有一种可能,当你对一组人展开追踪研究时,有些人会自然而然地改善,有时改善幅度小,有时则幅度大。这些扰动再次归结为统计显著性问题。
“酿造”统计技术
尽管这些关于小样本量的问题长期困扰着人们,但其背后的理论直到吉尼斯公司入场才得以发展——准确地说,是直到20世纪初,吉尼斯公司的首席实验酿酒师威廉·西利·戈塞特(William Sealy Gosset)发明了t检验后。统计显著性的概念此前就已经存在,但之前的统计学家主要处理大样本量的数据。这两者的区别十分重要——要理解这一点,我们得先搞明白如何确定统计显著性。
回忆一下我们之前设想的场景,啤酒花样本的平均软树脂含量为6%,我们想知道,是整片作物的平均含量的确与8%的期望值有所不同,还是我们抽样时恰巧不走运。我们可以把它归结为这样一个问题:如果这片作物整体上是典型的(平均含量为8%),我们观察到这样一个极端值(6%)的概率是多少?依据传统,如果这个被称为P值的概率小于5%,即0.05,那么我们认为这种偏差具有统计显著性,尽管不同应用场景可能需要不同的阈值。
图片来源:Unsplash
P值通常受到两个独立因素的影响:样本与总体期望值的偏离程度,以及较大偏离的出现频率。我们可以将其视为信号与噪声之间的拔河比赛。我们观测到的平均值(6%)与我们期望的平均值(8%)之间的差异提供了信号——这种差异越大,整片作物软树脂含量偏低的可能性就越大。
啤酒花植株之间的标准差则带来了噪声。其中,标准差衡量数据围绕平均值的分散程度;标准差小表明数据接近平均值,标准差大则意味着变异范围更广。如果不同花株之间的软树脂含量本来就有很大波动(即标准差很高),那么该样本6%的平均值很可能不值得担忧。但是,如果不同花株倾向于表现一致(即标准差较低),那么6%的平均值可能意味着总体期望值与8%存在真实偏差。
在理想情况下,要确定P值,我们首先需要计算信噪比。这个比率越高,我们对统计数据的显著性就越有信心,因为高信噪比意味着我们发现了真实偏差。但多高算是高信噪比呢?我们可以在标准软树脂含量是8%的前提假设下,考虑如果6%的检测结果与8%的确存在差异,那么信噪比需要达到多高,才能使这种情况发生的概率仅有5%呢?
与戈塞特同时代的统计学家已经知道,如果你进行大量实验,并把每次计算得到的信噪比绘制成图表,那么这个图表将呈现为“标准正态分布”——也就是我们熟悉的钟形曲线。因为正态分布已经人尽皆知,且相关资料详实,你可以轻易地在表格中查到5%的阈值(或任何其他阈值)所对应的信噪比大小。
戈塞特认识到,这种方法只适用于大样本量;小样本的啤酒花并不能保证正态分布。因此,他细致地为小样本量的情况计算了新的分布表。这些图表在形状上类似于正态分布,都是钟形,但是钟身部分的曲线下降得不那么陡峭,它们如今被称为t分布。t分布的特征表明,为了得出统计显著性的结论,我们需要更大的信噪比。戈塞特的t检验使得许多前人难以推断的统计问题变得迎刃而解。
图片来源:Unsplash
2008年,数学顾问约翰·D.库克(John D. Cook)曾在他的博客上发表了这样一个观点:t检验起源于啤酒厂而非葡萄酒厂,也许并不是件令人惊奇的事。啤酒酿酒师要求他们的产品具有一致性,而葡萄酒商则追求多样性。葡萄酒有所谓的“好年头”,每一瓶葡萄酒都得讲述一个故事,但你会希望每一杯吉尼斯啤酒都能呈现同一种标志性的味道。在这种情况下,统一性激励了创新。
戈塞特凭借他的新技术解决了酿酒厂的许多问题。因为吉尼斯不想让竞争对手知道其研究内容,这位自学成才的统计学家化名“学生”发表了他的t检验理论。尽管戈塞特开创了工业质量控制的先河,还为定量研究贡献了许多新的想法,但大多数教科书仍然称他的伟大成就为“学生t检验”。历史可能忽略了他的名字,但他一定引以为豪的是,t检验是迄今为止科学中使用最广泛的统计工具之一。也许他的成就应该载入吉尼斯世界纪录(该想法由吉尼斯的总经理在20世纪50年代构思),我一定举双手赞成。
原文链接:
https://www.scientificamerican.com/article/how-the-guinness-brewery-invented-the-most-important-statistical-method-in/
本文来自微信公众号“环球科学”。如需转载,请在“环球科学”后台回复“转载”,还可通过公众号菜单、发送邮件到[email protected]与我们取得联系。相关内容禁止用于营销宣传。
-电商广告-
《环球科学》2024年全年订阅正在热卖
戳图片或阅读原文
立即购买
微信扫码关注该文公众号作者