彩票中的概率统计
本文选自《中国统计》2021年第11期文章,原文已获出版社和作者授权。
彩票在我们的日常生活中已经很普遍了,很多人都有买彩票的经验。在中国影响比较大的两类彩票一个是福利彩票,一个是体育彩票。彩票除了丰富人们的业余生活之外,还能聚集资源造福社会。本文想谈一谈彩票中的概率统计问题。探讨的问题包括每次的中奖概率是多少,发行者的平均盈利是多少,什么样的彩票才被认为是公平的,以及如何验证彩票的公平性。通过这些问题的解答,我们还可以回答一个大家关心的问题,那就是彩票开奖结果能预测吗?
如何计算与理解中奖概率
我们以福利彩票的双色球为例加以说明。双色球是由福彩中心发行和组织,每周二、周四、周日开奖。双色球投注区分为红色球号码区和蓝色球号码区,红色球号码区由1-33共33个号码组成,蓝色球号码区由1-16共16个号码组成。投注时选择6个红色球号码和1个蓝色球号码组成一注进行单式投注,每注金额人民币2元。除单式投注外,购买者还可选择复式投注、胆拖投注的玩法。我们计算一下单注投注中奖的概率。
一等奖:投注号码与开奖号码全部相同(顺序不限,下同),即中奖;二等奖:投注号码与开奖号码中的6个红色球号码相同,即中奖;三等奖:投注号码与开奖号码中的任意5个红色球号码和1个蓝色球号码相同,即中奖;四等奖:投注号码与开奖号码中的任意5个红色球号码相同,或与任意4个红色球号码和1个蓝色球号码相同,即中奖;五等奖:投注号码与开奖号码中的任意4个红色球号码相同,或与任意3个红色球号码和1个蓝色球号码相同,即中奖;六等奖:投注号码与开奖号码中的1个蓝色球号码相同,即中奖。我们计算一下各种奖的开奖概率。
一等奖的概率:要想得到一等奖,则需要所选择的6个红色球号码和1个蓝色球号码完全一致。这就相当于在所有的各种组合中只有唯一的一个组合是一等奖。所以只要我们给出组合数就可以计算出中一等奖的概率了。这个组合数是33中取6的组合数乘以16中取1的组合数。通过计算可以得到这个数等于17721088,也就是说中一等奖的概率大约是一千七百万分之一。这个概率有多小。
二等奖的概率:投注号码与开奖号码中的6个红色球号码相同即中奖。可以知道这只有16个组合是可以中奖的。相当于33中取6的组合数中只有一个号码中奖,这个组合数为1107568。因此二等奖的概率大约为一百一十万分之一。
三等奖:投注号码与开奖号码中的任意5个红色球号码和1个蓝色球号码相同即中奖。这种情形的组合数为6个中奖号码取5的组合数乘以剩余27个号码取1的组合数再乘以1中取1的组合数,得到的值为6271=162. 从而三等奖的概率为162/17721088,也就是说相当于一等奖的162倍,是二等奖的10倍,大约是十一万分之一。
四等奖:投注号码与当期开奖号码中的任意5个红色球号码相同,或与任意4个红色球号码和1个蓝色球号码相同即中奖。第一种情形的组合数为6个中奖号码取5的组合数乘以剩余27个号码取1的组合数再乘以16中取1的组合数,计算结果为62716=2592。第二种情形的组合数为6个中奖号码取4的组合数乘以剩余27个号码取2的组合数再乘以1中取1的组合数,计算结果为5265。因此总共的组合数为2592+5265=7857。中奖概率就是7857/17721088,大约为1/2256。
五等奖:投注号码与开奖号码中的任意4个红色球号码相同,或与任意3个红色球号码和1个蓝色球号码相同即中奖。第一种情形的组合数为6个中奖号码取4的组合数乘以剩余27个号码取2的组合数再乘以16中取1的组合数,计算结果为84240。第二种情形的组合数为6个中奖号码取3的组合数乘以剩余27个号码取3的组合数再乘以1中取1的组合数,计算结果为58500。因此总共的组合数为84240+58500=142740。中奖概率就是142740/17721088,大约为1/124。
六等奖:投注号码与当期开奖号码中的1个蓝色球号码相同即中奖。显然这是1/16。
如何理解中奖概率呐?我们拿一等奖来说,如果一次要把所有号码都买到,则当然一定中奖,但一次要买17721088张彩票。但如果每次都是随机选取一个号码,买17721088次彩票,虽然中奖次数的平均值为1,但至少中一次一等奖的概率可不是1,而是等于1-e^(-1)=0.6321,其中的e为自然对数的底,大约是2.71828。
发行者的平均收益
要计算发行者的平均收益,需要先计算彩票的购买者平均收益。彩票购买者的平均收益为相应中奖金额和中奖概率乘积的和,再减掉彩票的购买成本。我们还是拿福彩来加以说明。一二等奖的奖金额度受当期情况而定,但最高单注500万。以某一期为例,一等奖为500万,二等奖为30万,三等奖为3000元,四等奖为200元,五等奖为10元,六等奖为5元。则可以计算得到购买一注彩票的预期收益为1.06元。福彩一注彩票的成本为2元,则预期收益为-0.94元。如果不考虑发行成本等,则发行者的平均收益0.94元。
彩票的公平性检验
在中奖的原则公开的情况下,所谓公平的彩票就是要保证每一种组合都是机会相等的。但所有可能的组合数很大,每年抽奖次数相对于这个大的数非常小,所以无法直接验证这种机会均等性,而往往采用一些替代的办法,从某个侧面对彩票的公平性进行检验。
还是拿福利双色球彩票来说,总共有17721088种组合,而每年抽奖156次,只出现156种组合,如果所有号码都要出现一次,则至少要113600年。所以如何对有限的抽奖次数验证抽奖号码的均匀性不能这样直接考虑。关于这种问题的研究有很多检验方法。我们可以通过验证每个号码出现的机会来验证组合数相等。就双色球来说,红色球的6个球是从33个号码中随机抽取的,如果历史上有n次开奖结果,则总共出现了6n个数字,其中有些是重复的,如果开奖是均匀的,每个号码出现次数的期望值就是6n/33次。实际上,每次开奖某个特定的号码可能出现也可能不出现,对于n次独立的开奖,这个特定号码出现的总次数就服从二项分布B(n,6/33)。根据历史记录,我们可以统计出33个号码中每一个号码出现的次数。如果这33个号码出现的次数差别不大,则可认为各个号码出现的机会没有显著的差别,如果差别较大则就认为各个号码出现的机会有差别,从而认为彩票是不公平,不合理的。但具体多大叫做差别大,多大叫做差别不大,则需要统计学给出答案。基于Joe (1993) 和 Haigh (1997)的工作,可以根据这33个次数构造的统计量,并可以证明这个统计量的分布是服从自由度为32的卡方分布,而且如果差别较大,则这个统计量也会倾向于较大,从而可以得到具体的检验方法。
上面只是从每个号码出现的次数是否均匀这个特性构造的检验方法。实际上我们可以从其它特性出发构造检验方法。比如,如果彩票是公平的,则这33个号码出现的次数应该是近似两两独立的,也就是说一个号码出现次数多少不应该影响另外一个特定号码出现次数。我们可以把n次开奖历史分为若干段,然后利用这些段的数据构造检验方法。再比如,如果彩票是公平的,则每两个号码的搭配出现的次数应该是不会有太大差别,如果差别太大,则也应该怀疑彩票的公平性。则我们也可以根据历史数据统计出这些搭配出现的次数,然后构造出一个检验统计量,给出检验方法。
彩票结果能预测吗
这个问题不能简单的用能与不能来回答,因为可预测性的定义问题还不明确。所谓可预测,就是能够预知某种组合出现的机会比较大,从而可以增加中奖的机会。
通过上述几段的描述,彩票的公平性就在于每次开奖结果的不可预测性。如果每次开奖每个组合出现的可能性是相等的,则彩票开奖结果就是不可以预测。彩票发行机关或者彩票摇奖机器或者摇奖规则就是要尽最大可能来保证彩票的公平性,也就是保证开奖结果的不可预测性。反过来,如果你发现了某种彩票是不公平的,或者说各种组合出现的机会是不相等的,则就表明这种彩票具有某种程度的可预测性。在有些情况下,可以根据某彩票发行历史数据得出各种组合出现的机会有差别的结论,但如果这种差别在绝对数量上来说不是很大,要利用这不太大的可预测性,在实际中还是不划算的。
一千七百万分之一是一个多么小的概率,我们通常无法体会。根据第七次人口普查,成都人口大约两千万。在成都的街头走一走,偶遇到那个曾经挽着你衣袖的那个人,那是两千万分之一,比中彩票大奖的概率还小。如果你曾经有类似的经历,就不要抱怨没中大奖,享受期许中带给我们的安逸,更要享受生活带给我们的快乐吧。
相关文章:
作者简介
房祥忠教授 在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
编辑|李萧纹
微信扫码关注该文公众号作者