荐书|因果推断-基于图模型分析
作者简介:罗锐,工学博士、工商管理硕士,先后毕业于电子科技大学、西南交通大学。在电信领域有20多年的技术研发、市场经营和管理工作经验。研究方向为数据挖掘、机器学习、因果推断及其在通信、医学和法学等社会科学方面的应用。
为什么对因果推断感兴趣?
这和我个人的工作经历有关。我参加工作后,在电信行业工作了20多年,最近几年才到大学工作。在电信行业期间,先是从事电信网络技术工作,但更多的时间是负责市场经营工作和计费相关的技术工作。在工作中,我们在统计各个分公司业务收入欠费率的时候发现,两个分公司相互比较,A公司在两个月里,每个月的欠费率都高于B公司,但对两个月进行汇总统计,A公司的欠费率反而比B公司低。当时我们的第一反应就是,是不是数据统计错了?但经过反复核查,数据确实没有问题,当时大家都觉得很奇怪,但都没有找到答案。直到我看了Judea Pearl教授的《The Book Of Why: The New Science Of Cause And Effect》(中文版江生、余华译)和《Causal Inference in Statistics: A Primer》后,才恍然大悟,这就是大家经常说到的辛普森悖论。在负责市场经营工作期间,我们也经常涉及到因果推断的问题。大家都知道,电信业务大多都是月底计费,只有月底计费完成之后,经营部门才能得到最终这个月的市场收入数据,来反映这个月市场经营工作的成效,但是,从市场经营管理的角度来看,这个工作成效的反馈就太晚了,我们需要更加及时的数据来反映市场经营工作的效果,以便及时评估、优化营销措施。现在从因果推断的角度来看,就是需要找到一个变量,他的取值能够基本准确地反映业务收入这个变量。在2010年之前,电信业务收入主要是语音通话收入,因此,我们从设备网管上提取开机用户数和话务量数据,来大致估计每天的活跃用户数和通话业务收入,这样就能及时反映每天的经营工作情况。从几年累积的情况来看,这两个指标基本能比较准确反映每天通话业务收入情况,反映了开机用户数和话务量与语音通话收入之间的因果关系,这对我们当时的经营工作帮助很大。当时我们还发现一个很有趣的现象,总体来看,用户每天通话量的多少,与当天的气温高度正相关,气温越高,用户通话量越大,通话收入也越高,气温38℃就比35℃通话量要大。气温和用户通话量之间有没有因果关系?如果有,又是什么样的因果关系?有兴趣的读者可以研究一下。总的来说,在从事电信行业的市场经营工作期间,其实因果推断方面的应用很多,这也是我个人对因果推断感兴趣的原因。
为何主要选取图模型分析的方式介绍因果推断
关于因果推断的研究思路,目前主要有Donald Rubin提出的潜在结果分析框架和Judea Pearl提出的图模型分析框架,Judea Pearl对这两套分析框架的等价性进行了分析。目前国内、外关于因果推断的介绍,更多是采用Donald Rubin提出的潜在结果分析框架,但基于图模型分析框架的内容也在增多,哈佛大学流行病学家James Robins和他的同事出版的因果推断教材《Causal Inference: what if》也包括了图模型分析的内容,并采用图模型分析的方式对混杂、选择偏差等概念进行了介绍。图模型没有提供变量之间的量化关系,缺乏定量信息,但在实际工作上,我们经常只需要了解因果关系中变量之间的定性关系,比如,哪些变量相互独立或相互依赖,哪些变量相互条件独立,这时候用图模型将足以对这样的因果关系进行表达,并且图模型对因果关系的表达更直观、简洁、易于理解。比如,在应用倾向值评分匹配法进行平均干预效应(Average Treatment Effect, ATE )的计算过程中,我们需要基于特定的协变量集合计算倾向值评分,这个协变量集合通常包含所有与干预变量和结果变量都有关的变量,在因果关系中,这些变量都不能受干预变量影响(也就是说,这些变量不能是干预变量的后代),但只要变量满足这两个条件就可以加入计算倾向值评分的协变量集合吗?在考虑实际场景存在测量误差的情况下,如何选取这个协变量集合,从而在ATE的计算过程中、在同样的测量误差条件下,获得更小的误差?最近我们采用图模型的方法进行了分析,如果不采用图模型,这将会非常困难。类似,反事实分析中,反事实是一个比较抽象的概念,但如果我们采用图模型中的“孪生网络”模型,这个分析过程则变得直观并易于理解。因此,在因果推断知识的介绍中,我们主要采用图模型分析的方式,在内容和编排上主要参考了Judea Pearl教授在因果推断方面的著作《Causal Inference in Statistics: A Primer》和《Causality: Models, Reasoning, and Inference》,以及Judea Pearl教授团队在各种学术期刊和国际会议上发表的论文。但在一些需要定量计算的场景,比如因果关系概率的计算中,也采用了一些潜在结果分析的方法。
《因果推断:基于图模型分析》这本书有什么特点
在目前国内、外关于因果推断内容的介绍中,基于图模型分析的内容相对较少,一个很重要的原因是很多人觉得相关书籍或论文的内容比较艰涩,很难理解,也不便于自学。目前基于图模型分析的因果推断研究主要是Judea Pearl教授及其相关团队在开展。Judea Pearl教授关于因果推断比较全面的专著《Causality:Models, Reasoning, and Inference》主要根据其团队在各种学术期刊和国际会议上发表的论文以及实验室的技术报告编写而成,书中内容对于初学者而言,难度较大。为便于国内读者学习,我们在Judea Pearl教授及其团队相关资料基础上,对因果推断的基本概念和基本方法进行了梳理。在内容安排上,我们首先介绍概率论基本知识和因果关系的图模型表示(有向无环图),在此基础上,再循序渐进引入因果推断方面的一些基本概念和基本分析方法。和其他类似书籍相比,本书最大的特点是,在介绍因果推断基本概念、基本分析方法和案例分析的时候,补充了必要的推导、证明和说明。这样的内容组织主要基于两个方面的考虑:对于研究因果推断,或者基于因果推断开展人工智能或统计学相关研究的读者,我们希望通过提供比较详细的推导过程,抛砖引玉,为读者进一步开展相关研究提供参考;对于主要应用因果推断相关概念和方法解决本学科领域具体问题的读者,我们希望通过提供比较详细的推导过程,方便读者自学,只要具有基本的概率论知识的读者,就能够根据本书内容循序渐进完成因果推断知识的学习。同时,为便于理解,也针对主要的因果推断分析方法提供了相关的案例分析,特别是以R语言为编程工具,介绍了一些因果推断的具体编程实现,以便读者通过案例分析加深对基本概念、基本方法的理解、掌握,并能将相关方法应用到工作实际中去。本书在内容结构上,主要分为三个部分,第一部分对因果推断分析所需要的基础数学知识——概率论和图模型相关知识进行了介绍;第二部分对干预分析、反事实分析以及因果关系的概率计算进行了介绍。其中,干预分析主要讨论如何基于观察性数据集实现干预因果效应的计算,反事实分析主要介绍了反事实的概念,以及在此基础上直接因果效应、间接因果效应以及已干预条件下干预效应(ETT)的计算方法,因果关系概率计算则介绍了特定约束条件下充分性概率、必要性概率和充分必要性概率的量化计算,以及一般条件下这些概率的界;第三部分则以IC算法为例,介绍如何基于观察性样本数据集学习变量之间的图模型结构。最后,以推荐算法的A/B测试和强化学习为例,介绍了因果推断在人工智能方面的一些初步应用。
近年来因果推断研究进展较快,很多重要、前沿的内容本书还未能覆盖,留待读者参考最新研究文献做进一步研究、探索。同时,由于本人水平有限,书中难免存在谬误和不妥之处,敬请专家、读者通过邮箱 [email protected] 给予批评指正,重要的内容,本人将通过知乎专栏“因果推断:基于图模型分析”予以介绍或勘误。为方便将本书用于教学,我们正编写配套的PPT课件,有兴趣的老师可邮件与我联系,我们将尽快提供。由于本人疏忽,将在耶鲁大学出版社出版的《Causal Inference:The Mixtape》一书的作者——贝勒大学教授Scott Cunningham——误写为耶鲁大学教授,在此表示歉意。
读者反馈邮箱:[email protected]
作者以后反馈:知乎专栏“因果推断:基于图模型分析”
购买链接
或点击阅读原文购买
统计之都(Capital of Statistics,简称 COS)成立于 2006 年,是一个旨在推广与应用统计学、数据科学知识的公益性网站和社区。
统计之都以专业、人本、正直、团结的理念尝试推动统计和数据科学在中国的发展,促进各行业的创新和繁荣。
微信扫码关注该文公众号作者