学一点统计学,免得受知识分子的骗
文 | wzz
新冠三年以来,各国的各种统计数据和口径,与新冠相关的各种研究等等,可以说是一场“统计学魔法”的大型教学展示,尤其在长期宣传新冠等于小感冒 ,放开危害不大的人群嘴中,统计学魔法随处可见,比如最简单的只谈XX率不谈基数。而在普通人群当中,各种“我身边人XXXX”,“我认识的人XXXX”之类的身边统计学更是一种主流思维,这也是某些极端共情个体却毫不共情庞大统计数据的群体的一种基础思维。
想独立的鉴别各种统计口径的问题需要大家多少具备一些统计学上的概念。这是一门系统的学问,今天我们选择“打疫苗有害论”,以及”新冠后遗症康复率“等角度出发,来做一点统计学基础概念的科普,希望大家能借此拓展阅读更多的统计学科普内容,更好的在日常生活中甄别各种忽悠。(本文建议和今天第三条内容联动阅读)
1.条件概率与疫苗耦合问题
2021年开始,包括科兴、国药在内的一批新冠疫苗研发成功,附条件批准上市,并以计划免疫的方式大规模接种,从这之后,我们听到很多这样的说法:打完疫苗就出现xxxx问题,小的有肺结节,大的像白血病。于是问题在于,我们在什么情况下能够认为白血病等问题是打疫苗导致的,或者至少是相关的?
我们知道,在新冠疫苗大规模接种之前,以及新冠疫情出现之前,人群当中也有一部分人会罹患白血病,在中国,一年的数量在4-6万左右,于是我们可以将往年未罹患白血病的人群划分为两个部分:
表1
而在2021年、2022年疫苗大规模接种之后,中国新型冠状病毒疫苗接种率已达到90%左右。那我们又可以将人群划分成四部分,其中我们暂时并不知道已接种新冠疫苗并新发白血病和未接种新冠疫苗并新发白血病的数量,用x和y来代替:
表2
如果我们假设接种新冠疫苗不会导致白血病,那么从总体上我们应该观察到和表1相同的数据,红色代表猜测的数值:
表3
而这就是官方所解释的:临床监测和统计数据显示:在新冠疫情发生前后的四年中,糖尿病和白血病的就诊人数和住院次数基本一致,无显著变化。因而推断接种新冠疫苗不会导致白血病。
但是,这仍然不能回应一些问题,例如有人提出已经找到了上千例接种新冠疫苗并新发白血病,“说明这不是耦合”:
在这里我们应该对表3进行细分,则有(红色代表猜测的数值):
表4(推测值)
于是我们发现,已接种新冠疫苗并新发白血病的人数,一年中的合理的数值在3.6-5.4万,而几千例是不够的,甚至找出5.4万例仍然是不够的,得找出一个显著高于5.4万例的数量,例如8万例,才可以说明“接种新冠疫苗会导致白血病”。我们既应当对新发白血病患者表示同情,同时我们也应当理性看待问题,反对反疫苗活动,特别是大流行期间反疫苗可能导致上百万人的额外死亡。
实际上,耦合症不是一个数量问题,而是一个比例问题,这里顺着来谈一下条件概率和独立。什么时候A和B两件事(例如新发白血病和接种新冠疫苗)是独立的呢?我们将事件A、B独立视为:事件A的发生不影响事件B会不会发生。
初学概率论的人可能会想象,是不是A发生时B不会发生的情况中A和B是独立的呢?我们这里用图形的面积表示A和B发生的概率,外面的大方框包围的是所有可能(它的面积为1,也就是必然,100%),上面”A发生时B不会发生的情况“就是第二张图所示,A和B不同时发生(A和B相交的部分不存在/没有面积),这被称之为互斥事件,一种特殊的互斥事件如第三张图所示,不仅A和B不相交,同时只有A和B两者可能,此时称为对立事件。
我们来分析一下互斥事件是不是独立的。A发生时B不发生,而A不发生时B有可能发生,很明显A发生和不发生对B发生的概率造成了影响,于是(概率不为零的)互斥事件一定不是互相独立的。如果我们代回到新冠疫苗和白血病的语境下,我们可以看到很多人想要的就是打新冠疫苗后一定不患白血病,此时接种新冠疫苗和新发白血病是互斥的,换言之,人们希望的不是新冠疫苗的安全性,而是新冠疫苗能够完全预防白血病,或者将中国的新发白血病数量降到几百例的水平,显然,这是一个过高的要求。
但是考虑独立时则是, A发生已经确定对B发生的影响,需要定义A发生确定时B发生的概率,就是条件概率,记为
求条件概率要用A和B的交集面积除以A的面积:
而事件独立就是:
这也可推出:
我们再拿之前的表格来看一下:
我们有理由认为,当x为3.6万-5.4万时,有:
这就是说,此时打过新冠疫苗之后患白血病的概率既接近于既往年份全中国人都没打过新冠疫苗时患白血病的概率,也接近于2022年之后仍未打过新冠疫苗的人患白血病的概率。此时近似认为两个事件是独立的。而只有2021年、2022年新发白血病人数远高于6万时,才可以认为新冠疫苗的接种和白血病高发相关。
2.什么是假设检验?
以上的说法是比较粗略的,但从我们观察到的情况来看,基本可以确定接种新冠疫苗与罹患白血病无关。而在统计意义上确定两个变量是否相关,要进行独立性检验,在人民教育出版社编写的2005版高中数学教材B版选修2-3中就有涉及到一种独立性检验方法:卡方检验,有兴趣的读者可以找来看看,或者查询其他资料,在这里我们讲一个比较简单的的假设检验。
我们从几乎是最简单的概率问题出发:掷硬币。一枚理想的硬币,投出去之后有一半的可能是正面,另一半可能是反面。这个一半一半是由硬币的物理属性决定的,而观察到一半一半则是通过试验进行的,一些历史上关心概率问题的学者进行过投掷硬币的试验。
我们可以看到,实际上并不总是出现一半一半的结果,各种结果都有可能出现,出现微小偏离的结果是很正常的,但频率非常接近50%。而仔细分析之下,如果投两次,有四种结果:第一次是正面且第二次是正面、第一次是正面而第二次是反面、第一次是反面而第二次是正面、第一次是反面且第二次是反面。列表如下:
而每一种情况都有1/4的可能性,并且我们把一正一反的结果标红:
进一步可以得到两次正面、一正一反和两次反面的次数、概率分别为:1、2、1以及0.25、0.5、0.25。
如果我们继续投,投三次,结果将是:
而每一种情况都有1/8的可能性,并且把一正两反的结果标红,把两正一反的结果标蓝,进一步可以得到三次正面、一正两反、两正一反和三次反面结果的数量、概率分别为:1、3、3、1以及0.125、0.375、0.375、0.125。
读者可以继续列一列投4次、5次的可能结果数量和概率,我在这里就不做了,实际上这些数可以构成一个杨辉三角,杨辉三角每个数等于它上方两数之和,再在两侧补充1然后绘制下一行即可。
既然实验各种可能结果的数量可以用杨辉三角求得,再用这个数除以试验次数个2就能得到结果发生的概率。
现在我们来考虑一下第20行的情况,我得到的结果是1、20、190、1140、4845、15504、38760、77520、125970、167960、184756、167960、125970、77520、38760、15504、4845、1140、190、20、1,概率是0.000001、0.000019、0.000181、0.001087、0.004621、0.014786、0.036964、0.073929、0.120134、0.160179、0.176197、0.160179、0.120134、0.073929、0.036964、0.014786、0.004621、0.001087、0.000181、0.000019、0.000001,绘制成图就是,横坐标为正面的数量:
非常有兴趣的读者可以用纸、笔、科学计算器画一下杨辉三角试一下,不过我不是这么做的,也不太建议这么做,有安装MATLAB软件的读者可以敲入命令:syms x; expand((x+1)^20)来得到所需的数。
我们可以发现,一半一半的结果出现的概率是最大的,而正面数为6、7、8、9、10、11、12、13、14的情况概率加起来为95.9%,说明大多数的结果在接近于中间的位置,从曲线的形状也可以看出。
那么回到正题,这个模型和假设检验有什么关系呢?我们首先得提出我们关心的问题,比如说,我们如何确定这是一枚均匀实心的硬币,而不是一枚一半空心,一半实心,重心偏移的硬币呢?如下图(黑色为实心,白色为空心,画的丑,见谅):
我们设定存在这样的硬币,并且正面朝上的概率是较小,背面朝上的概率较大,例如0.1和0.9,这种硬币可以在赌博中作弊(笔者不太确定能不能制造这种硬币,但考虑到有灌铅骰子的存在,个人认为这种硬币的存在是合理的),我们如何区分这种硬币和均匀的硬币之间的区别呢?我们首先绘制这种硬币进行二十次投掷实验后,正面朝上的概率分布图,可以看到这和均匀硬币的图形很不一样,出现多于5次正面的可能性很小。
我们回到均匀硬币的情形,如果我们做20次实验,发现有9次正面,11次反面,我们能认为这是一个不正常的硬币吗?如我们在前文所述,实际上并不总是出现一半一半的结果,各种结果都有可能出现,出现微小偏离的结果是很正常的。那如果发现有3次正面、17次反面(这是一个比较大的偏离),我们可以100%确定这不是一枚正常的硬币吗?实际上也不可以,仍然有0.1%的可能性出现3次正面、17次反面的结果。所以我们没有十足的把握,但我们有十有八九的把握,有至少95%的可能性,掷20次硬币不会出现相对于一半一半偏离的这么离谱的情况。
所以统计学家一般是这么做的,我们首先假设硬币是正常均匀的,进行实验,假如我们得到了一个3次正面、17次反面的结果,或者5次正面,15次反面的结果,我们之前说过,正面数为6、7、8、9、10、11、12、13、14的情况概率加起来为95.9%,那么在假设下,只有不到5%的可能性出现现在的测试结果,我们应该高度怀疑原假设是错误的,进而推翻原假设,认为原假设是错的,换言之,硬币不是正常均匀的。
此时我们可以说,我们有95%的把握认为硬币不是正常均匀的,这个数值也可以是99%和90%等等,但一般来说,统计学家没有100%的把握。
在一般情况下,试验次数越多,我们进行假设检验的精确性可以越高,将原假设和其他可能区分的越好,试想如果我们只进行一次投掷硬币实验,我们几乎无法区分正常均匀和不正常的硬币。
但是在一些情况下,试验的次数是有限的(受成本等因素影响),甚至不能重复试验,如药物和疫苗人体有效性试验,试验人员只能对一部分人注射疫苗,并跟踪这一群人和另一群未注射疫苗的人在社会面感染的风险大小,而不可能对没有社会面接触病毒的人群接种病毒进行试验,这是731行为。
总之,统计中假设检验在成本、做出判断的把握等多方面进行权衡。另外一点则是,在过去三年当中,因为几乎没有病人和社会面感染的可能性,中国疫苗和药物基本无法在本土进行试验,只能去海外招募受试,客观上对药物和疫苗的研发有一定的阻碍作用。公正地讲,攻讦国内疫苗和药物研发进度的行为是很可笑的,能不得病当然比得了病有药吃要好,没有病人曾是一种幸福的烦恼。
3.置信区间与正态分布
假设检验是一种思考问题的方式,但在这个情况下,暂时只能告诉我们硬币是不是正常的,进而我们也想知道,如何去合理地估计硬币正面朝上的概率,这是一个估计问题而不是假设检验问题,这也是统计中比较容易搞混的问题。
新潮经常转载拍帮主的文章也会涉及到置信区间,黑色圈出的就是一个置信区间,其中上面的横杠是置信区间上限,下面的横杠是置信区间下限。(这里举的例子是拍帮主讨论新冠后遗症康复率的新文,在我们今天的三条有转载,建议联动阅读)
我们这里还是用硬币的问题来解释置信区间。假如我们得到了一个一半一半的实验结果,怎样的估计是合理的呢?如果我们想得到95%置信区间,我们希望在等尾的条件下(等尾指峰两边尾的面积一样,下文有解释),从这个概率出发进行试验,实验结果包含在概率为95%的主要部分当中。
进而需要解释的是尾的概念,这是和峰相对的,举例来说,在20次掷硬币实验(单次正面概率为0.5的正常均匀硬币)中,正面向上次数为6、7、8、9、10、11、12、13、14的是主要部分的峰,正面向上次数为0、1、2、3、4、5、15、16、17、18、19、20为尾,等尾则是指峰两侧的尾的大小基本相同,在这里就是正面向上次数为0、1、2、3、4、5的概率加起来等于正面向上次数为15、16、17、18、19、20的概率。
单次正面概率为0.5时,95%的主要部分(蓝色加黑色)能够盖住一半一半的实验结果(红色五角星);单次正面概率为0.3时,94.7%的主要部分(黑色加灰色)能够盖住一半一半的实验结果,但已经在边缘了。而单次正面概率为0.1时,95%主要部分绝对无法盖住一半一半的实验结果。我们认为单次正面概率为0.5时和单次正面概率为0.3都是合理的估计,而单次正面概率为0.1不是合理的估计。
0.3几乎是单次正面概率的临界值(还可以找出更精确的值,但不再赘述了),实际上随着这个小数从0.5到0.1的连续变化,峰从中间逐渐向左偏移,从0.3到0.5都是合理的估计,根据对称性,0.7也是一个合理的估计,而0.5到0.7也都是合理的估计,总的来说,0.3到0.7都是合理的估计,这就被称之为95%置信区间。
如果画出三维图像,红色箭头覆盖的范围才是95%置信区间。这是因为橙色线、黄色线、紫色线能够用其95%主要部分盖住试验结果(红星)而另外两条线不行,且橙色线、紫色线接近临界值。可以看到这里置信区间是非常宽的,这是因为试验次数较少,一般来说,和假设检验那里一样,增加试验次数也可以收窄置信区间,使上下限更接近真值。
如果我们回到拍帮主在他文章中介绍的这篇论文,他提到“有7种长新冠症状在360天内‘康复‘(也就是95%置信区间的下限小于等于图中黑色实线)“。这里解释一下就是,这篇论文研究的是得了新冠康复12个月之后,有一些健康问题恢复了,有一些没有,所谓恢复,指的是阳过的人和一直阴着的人差不多。
比如说100个阳了的人有3个肌肉疼痛,100个一直阴着的人有2个肌肉疼痛,那么相对风险就是150%=1.5,显然只有100个阳了的人有2个肌肉疼痛,100个一直阴着的人有2个肌肉疼痛时,才能说是恢复了,此时相对风险是100%=1,也就是那条黑色实线代表的值。
当然在统计上我们无法确定实际的相对风险,我们只能通过样本进行估计,而当置信区间下限低于1,就意味着1处在置信区间之中,我们说过置信区间是用来评判一个估计是不是合理,换言之,1处在置信区间之中就意味着1是一个合理的估计。上图中,肌肉疼痛就满足这个标准,而链球菌性扁桃体炎就不满足。我们仍面临着一定的长期后遗症风险。
最后我们来说一说正态分布,形似正常均匀硬币投掷20次形成的曲线被称为钟形曲线。随着试验次数的增加(经过标准化),曲线会越来越接近一个极限,这被称为正态分布。
正态分布是很常见的,有些夸张的说法认为正态分布是“世界的宿命”,但其实,正态分布常见是因为如果一个变量是由一些微小的、独立的因素造成的,那么就会接近于正态分布,这可以由中心极限定理保证。
例如人的身高,从先天上,就有多于一对等位基因影响身高,后天上更会有“小明今天多喝了一杯牛奶”、“小张某一天熬夜少睡了xx分钟”之类事件对个体身高造成影响,这些事件单独对身高的影响微乎其微,但加总就会形成一个正态分布,在假设检验和区间估计当中经常涉及到正态分布。
笔者尽量以简单的方式介绍独立、假设检验、置信区间和正态分布,只用了非常简单的(等概率)二点分布和稍微复杂一点的二项分布概型,考虑计数问题时也借助杨辉三角而没有涉及到组合数,但写着写着仍有可能使问题复杂化了,在这里还是希望至少能够帮助大家理解第一块内容(独立和条件概率)。如果有在科普上有更多见解的朋友有更多更简单的解释方法,也欢迎在评论区补充,如果有什么理论上不严谨的地方也请指出。总之还是希望大家能够尽量辨别关于新冠疫情问题的种种统计魔法。
近斯文章导读:
我所见到的农村疫情
《三体》动画是怎么被拍成这样的?
革命摇篮江西,该革掉天价彩礼的命了
微信扫码关注该文公众号作者