运气与疗效
二宝用我书桌学数学,我坐在一旁看书,过几分钟就把书放下,用电脑记录一个数字:
28, 30, 33, 37, 40, 44, 45, 46, 48, 52, 56。
朵拉观察良久,终于过来问我:你在做什么?
我在记录二宝每次咳嗽的时间。28指二宝在这个小时的第28分咳嗽。从28分到52分这段时间里,他咳嗽了10次。
“记录这些时间有什么用?”
跟许多小朋友一样,二宝感染了支原体,不发烧但咳嗽。今天去了医院,看了医生,开始用药。我想看看用药效果如何。
用药效果好不好,我并不能变成孙悟空钻到二宝身体里面去观察。二宝的身体对别人来说是个黑箱。只能去找一些可观察的指标,来对用药效果作出判断。去医院看病,会检查血样,拍X光片,但我们没有这些设备。对我来说,最直观又最有效的指标就是他咳嗽的间隔时间。
“不咳嗽不就说明有效吗?”
最好当然是不再咳嗽,但如果还没有完全止咳的话,怎么判断效果?
“间隔时间越长效果就越好。”
答对了。但你的回答是定性的,我记录这组数字,是为了给出定量的回答。
二宝本来咳嗽的间隔时间就有长有短,并不是说每隔一段固定时间咳一次。我怎么才能比较有把握地下判断,说某次间隔时间变长是因为药效,而不是因为运气呢?
“多测几次?”
你错是没说错。但多测几次本身也只是在定性的意义上更有把握,我想做的是定量。
“那你到底怎么做?”
你看,根据我上面搜集的这组数据,二宝每次咳嗽间隔的时间分别是2, 3, 4, 3, 4, 1, 1, 2, 4, 4分钟。他们的平均值是2.8分钟。也就是说,平均下来,每隔2.8分钟,二宝会咳一次。
能不能说,只要二宝下次咳嗽的间隔时间高于2.8分钟,就说明药有效果?
“不一定。可能是偶然,咳嗽时间本来就是上上下下的。”
对。要判断是否有效,我们要找到这组数据的标准差。
计算方法是这样的:每个数据减去平均值,取平方,相加,再除以数据个数,最后开平方,得到的就是标准差。为什么要这样计算我们先不讲,你现在需要知道的是,标准差反映这组数据围绕平均值分布的情况。标准差越大,说明距均值越远。
“知道标准差有什么用?”
如果知道一组数据的平均值,又知道其标准差,我们就知道了很多东西。
比如说,二宝现在咳嗽平均间隔2.8分钟,标准差大约是1.2分钟,那么,我就知道二宝咳嗽间隔时间,有2/3是在1.6分钟和4分钟之间,有95%是在0.4分钟和5.2分钟之间。
有了这些知识,我就能对药效作有根据的推断。比如说,如果二宝隔了5分钟咳嗽,虽然间隔长了不少,但我并不能肯定地说是因为药效,因为还有10%左右的可能性是偶然。
但是,如果二宝间隔了10分钟才咳嗽,我就能有把握地说,这不是偶然事件,而是用药起了效果。
因为啊,10分钟与均值2.8分钟相差了7.2分钟,等于6个标准差,对应着一亿分之二的概率。如果这是偶然的话,那二宝的运气好到可以去买彩票了。
反过来说,如果这不是运气,那么便是药效了。
所以,要做出有根据的判断,以近知远,以所知知所不知,我们需要这么几样东西:
第一,我们需要知道过去和现在,这得靠搜集数据。我刚才记录二宝的咳嗽时间,就是在搜集数据。
第二,分析数据,今天我做的是去找平均值和标准差。以前手算要半天,后来用excel,现在用大模型,秒出结果。
第三,根据过去和现在的数据所含信息,挖掘出接下来收集数据中的信息,以此作出判断。
“爸爸,以后我的考试成绩你都要记录下来。我要知道成绩多少是因为运气多少是努力。”
微信扫码关注该文公众号作者