出色不如走运 (VIII)?
作者:石川,北京量信投资管理有限公司创始合伙人,清华大学学士、硕士,麻省理工学院博士。《因子投资:方法与实践》领衔作者,《机器学习与资产定价》译者。
封面来源:https://www.pexels.com
未经授权,严禁转载。
摘
要
Kosowski et al. (2006)、Fama and French (2010) 以及 Harvey and Liu (2022)。
01
年初基金研究文献综述中曾提到,研究基金能否提供了显著的超额收益是该领域中最重要的问题。在这方面,最著名的两篇文章 Kosowski et al. (2006) 和 Fama and French (2010)(以下分别称 KTWW 和 FF)通过类似的方法(均采用 bootstrap),却得出了相反的结论。
KTWW 认为有超过 10% 的基金不能被运气解释;而另一方面,FF 则表示这个比例不会超过 1%。面对如此的反差,究竟孰对孰错?又或者二者皆有所短?回顾两篇文章,KTWW 对每个基金独立进行 bootstrap,而 FF 则对基金收益率的 cross-section 进行 bootstrap 从而保留截面相关性。此外,前者考察的基金被要求有至少 60 个收益率的观测数据;而在后者中,这一要求被降低到 8 个。
显然,最小数据量要求以及 bootstrap 做法的差异是造成二者出现截然不同结论的原因。从结果来看,KTWW 的方法过度拒绝原假设(原假设是所有基金都没有超额收益),使得在哪怕在所有基金都没有超额收益的情况下依然拒绝原假设。反观 FF 的做法,其会导致 bootstrapped 检验统计量分布呈现厚尾从而造成原假设难以被拒绝,因此哪怕存在能够取得超额收益的基金的情况下,该方法依然会接受原假设。
既然二者都不完美,那么有没有可能在它们的基础上改进并得到更好的检验方法、从而更加有效地回答这个问题呢?这意味着我们既要在 bootstrap 时保留截面相关性,又要杜绝 bootstrapped 检验统计量分布呈现厚尾的问题。
在这方面,Harvey and Liu (2022) 给出了答案。
02
本节首先介绍 FF 中检验统计量分布的厚尾现象。
Bootstrap 是研究此类问题的一个常规手段。而我们知道,在实证窗口内,并不是所有基金在全部月份都有收益率数据,有的基金年限长,有些基金则年限短。在 KTWW 中,作者对每个基金利用其实际收益率序列分别采样;而在 FF 中,作者在实证窗口内的任何时点在 cross-section 采样,这意味着采样出来的一些基金可能是没有收益率数据的。
这样做造成的后果是,对于任何一个基金来说,其在某个 bootstrapped 样本中的收益率观测数据量和其在实际样本中收益率的观测数据量很可能不同。有些基金会被 oversampled(bootstrapped 样本中观测数据 > 实际观测数据),一些基金则会被 undersampled(bootstrapped 样本中观测数据 < 实际观测数据)。FF 认为,保留 cross-section 相关性是更加重要的考量,所以上面的后果是可以接受的,此外被 oversampled 和被 undersampled 的基金的影响会相互抵消,因此不是什么太大的问题。此外,为了防止本来历史收益率数据就很短的基金在 bootstrapped 样本中缺少足够的数据,FF 要求只有当一个基金在 bootstrapped 样本中有不少于 8 个不同的收益率观测数据时,才被纳入分析。
Harvey and Liu (2022) 通过实证分析指出,FF 口中的“不是什么太大的问题”恰恰就是问题所在。简单来说,问题可以归结为:对于任何基金,bootstrapped 样本中都会出现 undersampling 和 oversampling 的情况;但是对于那些收益率数据本来就很短的基金来说,undersampling 和 oversampling 的影响是不对称的,undersampling 的影响大到足以影响整个 bootstrapped 检验统计量的分布,即呈现厚尾。
03
为了定量分析 KTWW 和 FF 的问题,Harvey and Liu (2022) 设计了一个巧妙的 simulation design。之所以使用 simulation,是因为 Harvey and Liu (2022) 希望模拟 data generating process。在定量分析中用到的统计术语如下表所示。下面的介绍会重点关注两种方法的 test size。
这里插一句,Harvey and Liu (2022) 的 simulation design 和 Harvey and Liu (2021) 异曲同工,它们都可以被视作 Harvey and Liu (2020) 里设计的 double bootstrap simulation 的基础。没看过 Harvey and Liu (2020, 2021) 的小伙伴,请参考《出色不如走运(V)》和《出色不如走运(VI)》。上述两篇推文对它们有详细介绍。三篇放在一起看一定会加深对这类 design 的理解。
Simulation 一共分为五步,下面通过一个示例依次说明。
第一步(下图左)和第二步(下图右):
假设实际数据中一共有 8 支基金和 15 期收益率,其中 4 支基金有全部 15 期数据,而其他基金的数据则不完整,实际收益率数据由
第三步(下图左)和第四步(下图右):
对
这里再插一句,个人认为,这里
第五步:
根据设计,在上述第四步中得到的
从上述描述可知,通过给定
对于我们关注的 test size 来说(回顾一下本节一开始的那张统计术语表,test size 可以理解为 type I error rate),通过在 simulation 中设定
上图中,左图是 KTWW 的结果,右图是 FF 的结果;我们只需关注蓝色实线即可(它们是基于
然而,KTWW 的 test size 明显高于 10% 的水平,说明它的 type I error rate 很高,即更有可能错误地拒绝原假设。因此 KTWW 是 oversized。反观 FF,其 test size 要明显低于 10% 的水平,说明其 type I error rate 更低,即更有可能接受原假设,因此 FF 是 undersized。上述结果翻译成“人话”就是:KTWW 的方法更容易拒绝原假设,即认为作为一个整体基金能够获得显著超额收益;而 FF 的方法更容易接受原假设,即认为作为一个整体基金无法获得显著超额收益。
04
至此,Harvey and Liu (2022) 定量分析了 KTWW 和 FF 的问题。基于他们的分析,我们可以猜测针对 FF 最直观的“改进”方法是提高基金最少收益率期数的约束(比如从 8 提升到和 KTWW 一样的 60 期),从而彻底杜绝 undersampling 问题对 bootstrapped 检验统计量分布的影响。不过这个约束的收紧意味着大量的基金将被排除在分析之外。
为此,Harvey and Liu (2022) 提出了另一个改进方法:FF 阈值法。
首先,考察所有至少有 12 期数据的基金。对于这些基金,分别进行 bootstrap 采样得到每个基金各自超额收益 t-statistic 的第一和第三四分位数(分别记为
在得到每个基金的范围后,依照 FF 的方法进行 bootstrap。对于每个 bootstrapped 样本中的基金,如果其 bootstrapped t-statistic 不在上述范围之内,则从该样本中剔除掉该基金,并利用剩余的基金进行计算。这就是 FF 阈值法的核心思路。最后,Harvey and Liu (2022) 采用了他们设计的 simulation design 来确定阈值
以上就是对 Harvey and Liu (2022) 的简要介绍。当然,这篇文章中还有太多的细节和分析,值得反复阅读。(该文在 JF 官网上是 open access。)
05
Harvey and Liu (2022) 为回答基金 as a whole 是否提供了显著的超额收益提供了新的解决思路。
虽然这次是站在基金而非异象视角,但该文无疑是金融学在应对多重假设检验问题时的又一力作,也是两位作者将他们的 research agenda 向前延伸的又一个里程碑。
写到这里,本文本该自然地结束。但既然谈到了多重假设检验这个话题,我忍不住多唠叨两句。对于金融经济学,自 Cochrane 提出 zoo of factors 三问之后,多重假设检验的研究可以至少追溯到 Harvey, Liu, and Zhu (2016) 以及 Harvey (2017)。这些文章关注的问题是在多重假设检验问题下,有多少异象可能是虚假的,以及如何改进检验手段从而避免挖出虚假的协变量。
尽管就结论闻言,这两篇文章的观点“不得”学界人心(毕竟没人愿意承认自己过去挖出来的东西是 p-hacking 出来的),但它们的计算是科学的、措辞是客观的。至此之后,学界也更加重视 p-hacking 问题,很多新的方法被提出;更多的 data/code sharing policy 被执行。
然而大概从两年前,学界就之前挖出的异象到底能否被复制(能复制说明 p-hacking 问题不那么严重)的观点似乎发生了变化。这方面包括 Bryan Kelly 为作者之一撰写的 Is there a replication crisis in finance? 一文,还有另外一位就是我不想提但不得不提的 Andrew Chen。
简单地说,Chen 的观点是学界的 p-hacking 问题远没有 Harvey and Liu 说的那么严重,仅仅靠 p-hacking 根本找不到这么多 in-sample 显著的异象,因此后者有些危言耸听。关于 Chen 和 Harvey and Liu 的“硬扛”,《出色不如走运(VI)》有过详细的介绍,此处不再赘述。我在那篇文章里表达出的观点依旧是中立的:
“关于 p-hacking 问题有多严重,学术界以开放的心态来讨论它至关重要。从这个意义上说,本文介绍的 Chen (2021) 和 Harvey and Liu (2021) 没有谁对谁错,都是有益的讨论,让我们可以从不同的视角立体地审视这个问题。”
可后来不经意间,发现 Chen 真的是铁了心地要和 Harvey 在这个问题上掰掰手腕。这不仅仅局限在发表学术论文这种正当途径,甚至还延伸到了在 twitter 上的人身攻击。以下两张截图是两人的对话,一来一回,高下立判。
真的是看不下去。
对于金融经济学来说,多重假设检验问题到底有多么严重?发表的异象有多少比例是虚假的?对于那些真实的异象来说,样本外的打折程度又是多少?如何在考虑 Type II error 的前提下确定 t-statistic 阈值?如何根据先验知识和所研究的数据特点确定合适的 t-statistic 阈值?等等。这些全都是至关重要的问题。Harvey and Liu 的多篇论文对上述问题均有正面回答。而从这些背后我们感受到的是持之以恒的研究和始终如一的态度。而 Chen 呢?
这不禁让我想起了一句名言:
"If you really want to do something, you will find a way. If you don't, you will find an excuse."
在多重假设检验问题上,Harvey and Liu find a way. Chen, however, finds an excuse.
参考文献
Fama, E. F. and K. R. French (2010). Luck versus skill in the cross-section of mutual fund returns. Journal of Finance 65(5), 1915 – 1947.
Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.
Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503 – 2553.
Harvey, C. R. and Y. Liu (2021). Uncovering the iceberg from its tip: A model of publication bias and p-hacking. Working paper.
Harvey, C. R. and Y. Liu (2022). Luck versus skill in the cross section of mutual fund returns: Reexamining the evidence. Journal of Finance 77(3), 1921 – 1966.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.
Kosowski, R., A. Timmermann, R. Wermers, and H. White (2006). Can mutual fund “stars” really pick stocks? New evidence from a bootstrap analysis. Journal of Finance 61(6), 2551 – 2595.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。
川总写量化
分享量化理论和实证心得
微信扫码关注该文公众号作者