统计之都云讲堂第四讲回顾 | 杨灿:使用全基因组汇总统计数据加强因果推断
讲座回顾
5月27日晚,统计之都“数据科学云讲堂”系列讲座第四讲顺利举行。本次讲座采取在线会议的方式,邀请香港科技大学数学系副教授杨灿博士做题为“使用全基因组汇总统计数据加强因果推断”的报告。
杨灿博士现为香港科技大学数学系副教授,健康数据分析中心主任,大数据研究院教授成员。他分别于2003年和2006年在浙江大学获得工学学士学位和工学硕士学位,并于2011年在香港科技大学获得电子计算机工程博士学位。他是耶鲁大学的博士后(2011-2012)和副研究员(2012-2014)。他的研究领域专注于统计方法的开发以及计算工具在大规模数据分析中的应用。他的研究论文发表在高影响力的期刊上,并获得了2012年香港青年科学家一等奖。截至2022年4月,杨博士的工作已被引用4007次,h指数为28。杨博士还得到香港政府创新技术基金的支持与产业界建立紧密合作。
点击阅读原文可获取本次讲座的课件,提取码【COSX】,视频录播请在B站搜索“统计之都”,或通过小程序打开:点击此处链接
内容概要
杨灿博士首先介绍了参与本次研究的主要人员,之后对本次讲座的主题,即使用基因组数据加强因果推断进行了介绍。杨灿博士首先指出大规模随机对照试验作为因果推断的经典方法具有一定的缺点,其成本较高,且有的随机试验有悖道德;于是,可以考虑使用基因型产生时天然的随机化过程来逼近大规模随机化,这一方法可以更好地利用已有的数据,而无需产生高昂的开销。
在对这一研究背景进行介绍后,杨灿博士指出,在过去的研究方法下,即使风险因子与结局变量并没有因果关系,有时也会表现出统计显著性。为了解决这一问题,他提出可以将观测到的影响因素分解为前景信号、背景信号以及噪声三部分,其中前景信号是因果推断中真正感兴趣的部分。
在对思路进行讲解之后,杨灿博士给出了前景模型与背景模型的概率表达,并用EM算法进行了求解。他通过比较不同IV thresholds下模型的性能,指出这一方法由于考虑了Selection Bias从而能够在更宽的阈值下有更好的Statistical Power,从而能够选出更多可行的因果关系。
最后,在提问交流环节,在线观众积极参与讨论,杨灿博士耐心解答了同学们的疑问。
统计之都(Capital of Statistics,简称 COS)成立于 2006 年,是一个旨在推广与应用统计学、数据科学知识的公益性网站和社区。
统计之都以专业、人本、正直、团结的理念尝试推动统计和数据科学在中国的发展,促进各行业的创新和繁荣。
统计之都的数据科学云讲堂是由统计之都发起,由全球志愿者共同组织的开放性公益活动。
如果您愿意奉献自己的力量(组织、宣传、编辑、翻译、剪辑等),欢迎关注微信公众号后发送"志愿者"、"云讲堂"按指引进一步沟通!
微信扫码关注该文公众号作者