Redian新闻
>
小概率与大时代

小概率与大时代

科学

本文选自《中国统计》2021年第10期文章,原文已获出版社和作者授权。

概率是描述随机事件发生可能性大小的量。实际生活当中,有些事情发生的可能性大,有些事情发生的可能性小。人们的这些口头语:很可能、可能、不太可能、不可能和很不可能,就是描述事情发生的可能性大小的五种状态。本文谈谈有关概率的一些事。

1. 概率的确定方法

除了这种不太精确的定义之外,人们更加喜欢定量化描述概率值。有些事件的概率值比较直观,比如抛掷一枚硬币出现币值的概率,有些事件的概率值不直观,比如遇到一个人他心脏长在右边概率。

如何确定一个具体事件的概率呐?第一种方法是利用对称性来求事件的概率值。如抛掷一枚硬币,则落地后会出现币值面,也可能出现国徽面,如果硬币均匀,则出现两种结果的可能性是一样的,两个结果平分概率1,则可知每一种结果出现的概率为1/2。又如投掷一枚均匀对称的骰子,则出现的各种结果应该是从1到6之间的任何一个数,而且每一种结果出现的概率应该是相等的。由于6个结果平分概率1,则知道每一个结果出现的概率应该是1/6。这种确定概率的方法称为古典概型法。第二种方法是将随机试验的结果与几何趋于对应,并且利用区域面积求概率的方法,这种方法称为几何法,比如一根针掉地上与画好的平行线相交的概率。第三种是利用重复试验或者观测,发现事件发生的频率,通过频率估计概率,比如经过调查得知,人心脏长右边的概率大约为4%。第四种方法是利用概率论中的公式和定理,将复杂事件的概率计算转换为简单事件的概率计算,从而求得相应事件的概率。

2. 正态分布

正态分布是一个神奇的分布,这个分布的密度函数尤其神奇。它的表达式中与三个最常见的无理数联系在一起,这三个无理数分别是。这么非常不寻常的分布可偏偏就称为正态分布。如果认为这个神奇的分布只是这点神迹那就错了。这个分布不能称为是人造的,而只能是人们发现的。任何独立同分布的随机变量列,只要它的方差存在,则不管原来是什么分布,标准化后的前面各项随机变量相加结果的极限分布必然是标准正态分布。也就是说,在求和的运算下,一切原来分布的不一样都被消除了,极限分布都相同,都归于正态分布,不神奇吗。人群中人们的身高,体重等等指标,几乎都可以通过正态分布来刻画。这往往是因为这些量都是许许多多因素共同作用的结果,最后形成了这些量,那些因素的影响分布可能万千种,但都在求和的过程中失去了原本的特色而归于正态了。

3. 大作家王蒙感慨的概率法则

大作家王蒙在一篇文章中感慨他在北戴河看过的赌博游戏中的概率规律。他说“从中我思索了良久,我想这就是命运,这就是机会,这就是冥冥中的一只手”。这个游戏是在袋子中有四种颜色的球,每种球各有5个,从中随机抽取10个球。设局者规定了奖励或者交钱对应的结果。如果摸出来的各颜色球个数为3322、4321或3331这三种情况则需要交钱,其它各种情况各有一些小奖励,而如果是5500,则为最大奖,奖励一台摄像机。看起来奖励的情况居多,但他实际看下来则十有八九要交钱。我们可以算一算其中一些情况出现的概率。所有可能的结果基本事件个数是20取10的组合数,这是一个很大的数184756。而3322出现的所有可能结果数为60000,概率为两数相除得到0.32. 而出现5500的结果数为6,相应的概率为0.000032.,两者概率相差1万倍。令王蒙感慨的机会和命运其实就是大数定律,当试验次数较大时频率必然趋于概率,大数定律的重要性无出其右。

4. 胜不了的赌局

很多人喜欢到赌场碰碰运气,希望赢点钱添添喜气。但大家也知道很难从赌场赚到钱的,玩玩而已,应该适可而止。但往往有些人不信邪,越战越勇,最后结果当然会输掉所有。

赌场游戏的设置每一次都会比玩家更多机会赢钱。即使是所谓公平进行的,各有二分之一赢钱的机会。但由于赌场本金雄厚,玩家再多的本金最终还是会输掉的。这就象一个醉汉,随机的往左右走路,左边的路是玩家的路,右边的路是庄家的路。本金反映了路有多长。玩家的路与庄家相比短很多。假设醉汉最初是站在玩家和庄家中间的,然后开始随机挪动脚步,往左往右机会相等。则由于玩家的路比较短,醉汉有多的机会挪到玩家的路的尽头,这时意味着玩家就输掉了全部本金。则可以通过数学推导得到玩家输掉本金的概率为他的本金占总本金的比例。通常来说,和庄家相比,玩家本金会非常小,因此他赢钱的概率也会非常小。

5. 小概率事件

如果一个事件的概率很小,则称这个事件为小概率事件。日常生活中如果遇到一个不太可能发生的事,则往往会怀疑这件事情的合理性。这就是统计假设检验的思想根据。比如一个自称护士的人不修边幅,你就会怀疑她说谎,因为护士不修边幅可能性很小。

如何理解彩票几乎总有人中奖但为什么不是我。一个人买的彩票号码是万千个号码中的特定一个,所以可以把抽奖结果简单分为“我”和“其它人”。则我们知道“我”只占了抽奖结果的一种,而“其它人”则几乎占了抽奖结果的全部。从而就好理解这句话了。

概率论中有个引理称为博雷尔-坎塔利引理也非常有意思。根据这个引理可以知道,对于独立的事件列,或者绝对发生无穷次,或者绝不可能发生无穷次,没有中间的过度情形。如果星系存在生命的概率即使很小但仍大于0,而且假若宇宙中含有无限个星系,则生命一定会以100%的概率发生无限次。

6. 最大似然估计的优点与禁忌

最大似然估计是统计学中常用的推断方法。该方法利用了最大可能性原理,这也是人们日常推理的行为方式。该方法有很多优点,比如在极其一般性的条件下最大似然估计会以最快速度收敛到真实参数。这种估计在实际当中是否是最恰当的呐?它背后需要什么假设吗?我们现在可以探讨一番。

我们考虑一个假设的问题。若湖南人爱吃辣椒的概率为90%,广东人爱吃辣椒的概率为30%。现发现一个人爱吃辣椒,而且必须在这两个省进行选择,你怎么猜测?我想,人们很自然地会猜测这个人是湖南人,这就是用了最大似然估计思想。这样推理有什么好处和坏处吗?在一定的条件下,这种推理方式让人们犯错误的概率最小。比如,若这个群体湖南人和广东人各有100名,则大约湖南人有90人爱吃辣椒,10人不爱吃辣椒,广东人中有30人爱吃辣椒,有70人不爱吃辣椒。从而这个群体中爱吃辣椒的共有120人,其中湖南人所占比例为3/4,广东人占1/4。猜测爱吃辣椒的那个人为湖南人,则犯错的可能性为1/4。如果不这样猜测,则犯错误的可能性就为3/4。但注意上面推理假设群体中湖南人和广东人一样多,也就是说事先对两个省份的人认识没有偏倚。

但若群体中湖南人和广东人不一样多,则这种推理可能犯错误可能性会增大。比如,若群体中有湖南10人,广东100人,则湖南人约有9人爱吃辣椒,1人不爱吃辣椒,广东人中有30人爱吃辣椒,有70人不爱吃辣椒。从而这个群体中爱吃辣椒的共有39人,其中湖南人所占比例为3/13,广东人占10/13。若仍然猜测爱吃辣椒的那个人为湖南人,则犯错的可能性为10/13,不这样猜测,则犯错误的可能性就为3/13。

从上面的陈述可以看出,虽然最大似然估计是一个好的推断思想,但它背后的假设是对待估计的对象事先要平等对待。如果待估对象间事先实际是不平等的,则利用最大似然估计可能会犯错误。

贝叶斯公式的思考

我们下面谈谈贝叶斯公式的运用。任何一个高明的医生都有可能误诊,即把有病误诊为有病,把无病误诊为有病。对有些复杂疾病误诊率3~5%是一个不高的假定。若肝癌患者在人群中的比例4‰,假设患病者其化验结果呈阳性的概率为97%,未患肝癌者其化验结果呈阴性的概率为95%。即假阳性概率为5%,假阴性概率为3%。如果一人检测结果为阳性,他患病的概率可以通过贝叶斯公式计算得到0.8%. 这个概率很小。但如果这个人有其它症状,而有症状的人群患病的概率会比4‰高很多,则最后计算得到的概率会增大。特别地,如果此人又检测一次仍然呈阳性,则此人患病地概率可以计算得到13.5%。

一般情况下,未患病而诊断为阳性危害性不大,通常会在使用更加精准的手段后确诊。但有时却会引起其它重大问题。假设同一组数据用于矿山尘肺病诊断,则可能导致认为医生失职。假设某矿山有共有1万名工人,则患尘肺病的工人约为4名,未患尘肺病的工人有9996名。4名患病工人被诊断为有病的人数为名,9996名未患病工人中被诊断为有病的人数为名。从而可以知道被诊断为患病总共504名工人,其中只有4人真正患病,有500名未患病被错误诊断,真阳性率是0.8%,这是很低的,但也是很正常的,不能因此而判定医生失职。因为他诊断的正确率还是很高的,但由于此病在人群中的患病率很低,造成了真阳性率偏低。

作者简介
房祥忠教授
在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

编辑|赵霖琳


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小视角看大时代,普通人的幸福靠奋斗!想当年丨《大时代》里,我只关心那个容易受伤的女人奔跑吧,天寺!龙卷风健康快递 202真香!加拿大3大时尚博主开BMW iX经历的那些事...美国遭6种亚变种携“噩梦变异株”夹攻!一文搞懂“重复感染机率与自保妙招”疫情泛滥后,有多少人患了疫情后遗症二十大时光丨用“硬实力”为祖国航天事业保驾护航大国重器旁的二十大时光二十大时光丨突破国之所需的关键核心技术二十大时光 | 赵辰昕:我国重要产业链供应链安全稳定运行大时代下,腰部演员该如何破冰?二十大时光丨向党交卷!科特派“宁夏模式”再出发【一路有你】你侬我侬 四重唱,这首歌代表12年的友谊,二十大时光 | 这些地方正在塑造发展新动能新优势用制造业解决能源问题?光伏迎“大时代”二十大时光·心声丨踔厉奋发 笃行不怠!美好生活新图景正徐徐展开……二十大时光·心声丨在祖国的最北端和最东端,他们这样说……二十大时光 | 这些地方稳定经济增长有新进展中国汽车芯片,迎激变大时代二十大时光·心声丨蓝图催人奋进 实干成就未来突发:澳洲刚刚迎来重大时刻!澳元汇率一秒跳水!维州也有史上最大规模计划公布!二十大时光 | 这些地方推动制造业高质量发展有新举措二十大时光 | 8K技术在融媒体体验区大放异彩大时代中再读杜甫苏轼,我们会有何启发?二十大时光·心声丨声声有力 句句铿锵!这是我们共同的心声……二十大时光丨天津大学:为科教兴国战略贡献力量二十大时光丨“我们正处在一个大有可为的光荣时代”大数据十问:落地、效率与开发,如何齐头并进?二十大时光 | 这些地方多措并举推动创新驱动发展家族信托大时代来了!二十大时光丨福建:新时代科特派呼唤新作为二十大时光 | 赵辰昕: 以制造业为重点将出台促进外资扩增量、稳存量、提质量的政策措施重磅ETF论坛纪要,指数基金的大时代如何投资我国能研发先进战斗机,民航客机却不行 的原因
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。