因子发表后就会失效:是拥挤还是过度优化?
来自:Quantitative Finance, 2022
作者:Antoine Falck,Adam Rej,David Thesmar
近些年,已经有很多学术研究发现学术论文中发表的因子在发表之后的表现会出现严重的衰减。关于因子表现衰减的原因,主要有两个说法:一是新的因子发表后,市场上更多资金的涌入导致了因子失效;二是,原始论文中因子本身就是过度优化的结果。
本文对于因子在发表后失效的原因做了进一步的探索。本文发现整体而言,因子在发表后的表现会衰减50%左右。本文进一步对因子在发表后的表现与样本内组合的各特征进行了回归,发现发表日期的因素能解释30%的因子衰减。
文章中一共选取了72个在2010年之前的学术论文中出现的因子(具体如下表),根据每个因子在对应论文中提及的样本内时间及策略构建方法,计算了各因子在样本内的Sharp Ratio(SR),所有72个因子在样本内的SR如下表2所示。
如下表中所示,其中有60个因子的样本内SR大于0.3,后文的分析主要针对这60个因子。
因子表现衰减有多严重?
关于因子在发表后的表现衰减的具体原因,文中分别从三个角度进行研究:
股票池(与原文保持)一致,发表后因子的SR变化;
同样的样本内日期,股票池从CRSP全股票池变为CRSP LQ 1000/500(流动性最好的1000或500只股票)后的SR的变化;
因子衰减在其他股票池(包括其他国家)的研究。
与McLean和Pontiff(2016)一致,两张图表都证实,平均而言,发表后的SR低于样本内的SR。左图红色部分表明,平均而言,发表后的SR下降了43%。这一下降比McLean和Pontiff(2016年)的研究结果58%的下降稍微小一些。
因子的原始论文中大部分是基于CRSP全股票池进行测试的,如果把股票池调整为CRSP中流动性最大的500/1000只股票,效果会有变化吗?本文给出了下图2的测试结果,其中实线是原始SR,虚线是根据股票数量调整后的SR。什么是调整后的SR?当股票数量增多后,由于分散性的影响,SR自然会减小。为了控制由股票数量增多带来的SR变小的影响,本文根据以下公式对SR进行调整:
下图2中,实线是未调整的SR对比,虚线是调整后的SR的对比。可以发现在使用CRSP LQ 500/1000的股票池后,调整后的SR平均下降了33%。
以上的测试都是在美国市场,本文还探究了这些因子在中国、香港、韩国、日本、澳大利亚、欧洲大陆、英国和加拿大的股票池中的表现。如下表所示,无论在哪个市场,调整后的SR在文章发表后都有非常明显的下降(参考Size adjusted-Simple这列)。
什么样的因子更有可能衰减?
上一节已经证实,无论美国还是其他国家的股票池,我们都观察到在因子发表后,SR与原始样本值相比大幅下降。我们现在要解决的问题是,我们是否可以使用样本内诊断来预测夏普比率衰减。也就是说我们能不能通过因子选出股票的某些特征与样本外这些因子的夏普比率最回归,发现某些线性关系。(作者称这类指标为Arbitrage vulnerability)
本文从因子拥挤和过度优化两个角度选取了以下几个指标,首先是从因子拥挤角度:
Holding period:持有期越长的因子,对于资金的容量就越大,就越能吸引套利资金。作者使用样本内股票持有时间的中位数作为指标值。
Amihud's liquidity:套利资金倾向流动性好的股票,本文使用Amihud's liquidity的负数作为流动性指标。
Portfolio market cap to average market cap ratio:组合的市值占比,流动性的另外一个代理变量。
short leg market cap ratio:只计算空头组合的市值占比,也是流动性的代理指标。
下表给出了样本外SR比率与各指标单变量回归的结果,我们发现,正如预期的那样,所有系数都是负的。基于市值的系数和基于amihudi流动性的系数都很显著。我们的结论是,选出组合的市值越大流动性越好的因子,越不容易因为资金的拥入导致衰减。
因子失效的原因,除了因子拥挤还有可能因子本身在样本内就是过拟合的结果,这样样本外肯定会失效,本文选取了以下变量作为样本内过拟合的代理指标(作者称这类指标为Overfitting vulnerability):
Low t-stat:虚拟变量,如果因子样本内t统计值小于3,low t-stat就为1。
Log quantile span:我们通过改变用于定义投资组合长腿和短腿的顶部和底部的分位数,为每个给定的因子定义了一系列策略。然后计算这些策略SR的离散度,离散越大说明过拟合越大。
Deviation from best q:与上面指标类似,只不过是计算每个分位数SR与最好SR的离散度。
Dummy number of Compustat items:计算因子所使用的变量数量,当该数量大于2时该指标为1。计算所用的指标越多,过拟合可能越大。
Dummy number of operations:计算因子所使用的算子的数量,当该数量大于2时该指标为1。计算所用的指标越多,过拟合可能越大。
Minus number of months in-sample:样本内数据的长度,越长,过拟合可能越低。
Log of subset std:随机去除10%的股票100次后,SR的标准差。
Diff SR with dropped data:以上SR最大最小值的差。
Publication date:(这个指标不属于overfitting vulnerability)最后一个变量是发表日期,作者认为越到后来发表的因子越容易在样本外失效,因为越来越多人关注新的因子。
对于以上指标的单变量回归结果见表7。统计上显著的过拟合变量捕捉不同的过拟合相关效应,因为它可以从它们之间较低的相关性水平推断。首先,出版日期是出版后SR衰减的一个非常强的预测因素。如图5所示,最近公布的因子往往更过度拟合。其次,在“灵活性”变量中,操作的数量(operation)是唯一显著的。最后,两种试图捕捉对少量观察结果依赖关系的测量方法很好地解释了夏普比率衰减(Diff SR with dropped data与Log of subset std)。样本中很大一部分表现来自一小部分股票的异常现象,往往会经历更明显的样本外表现的下降。
最后,我们对以上三大类指标放在一起进行回归分析,其中arbitrage vulnerability和 overfitting vulnerability两大类指标是计算了各自内部指标的均值。回归结果如表8,首先,发表日期对夏普衰变截面具有很强的解释力,R方为0.30。其次,overfitting vulnerability变量也相当强,R方为0.15。arbitrage vulnerability的预测能力较弱,且显著性较低。当我们把三个变量放在一起,我们得到R方是0.47。移除arbitrage vulnerability变量只会略微降低R方,表明其边际重要性不是很重要。
微信扫码关注该文公众号作者