Ledoit and Wolf 的协方差矩阵收缩之旅

财经

2023-11-22 08:11

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。《因子投资：方法与实践》领衔作者，《机器学习与资产定价》译者。

封面来源：https://www.pexels.com

未经授权，严禁转载。

摘

要

本文简要且有侧重地回顾 Ledoit 和 Wolf 两位在协方差估计方面多年的尝试。

协方差矩阵是资产配置的重要输入之一；对它的准确估计对于求解权重的最优化问题至关重要。然而众所周知的是，样本协方差矩阵并非一个很好的估计量（estimator），尤其是在收益率的期数 $T$ 并非远远超过资产的个数 $N$ 的情况下。

我们以 Frobenius norm 来衡量两个矩阵的差距。对于矩阵 $A$ 和 $B$ 来说，其定义为：

$\displaystyle ||A-B||_{F}=\sqrt{\sum_{i,j}|a_{ij}-b_{ij}|^2},$

其中 $a_{ij}$ 和 $b_{ij}$ 分别为 $A$ 和 $B$ 中第 $i$ 行第 $j$ 列的元素。就协方差估计而言，我们希望估计量和真实协方差矩阵之间的 Frobenius norm 越小越好。

下面假设 DGP 已知并通过模拟说明 $T$ 和 $N$ 的关系如何影响上述差异。为此，令 $N=50$ ，并且收益率满足均值为零的多元正态分布，并随机生成一个正定的协方差矩阵作为真实的协方差矩阵。之后，令 $T$ 的取值从 100 到 5000（步长 100），且对每个 $T$ 进行 $M=1000$ 次模拟。在每次模拟中，计算样本协方差矩阵和真实协方差矩阵的 Frobenius norm，并取 1000 次的均值作为该 $T$ 下的误差。结果如下图所示。它意味着，对于区区 $N=50$ 个标的，我们也需要 $T=5000$ 期的数据（对于日频就是差不多 20 年）才能比较放心的使用样本协方差矩阵。

但显然，这种数据量的需求是奢侈的；而且实际资产配置中，标的个数也可能远远超过 50。因此，我们需要更好的协方差矩阵估计量（当然，如果你的标的个数很少，比如配置因子且因子个数 < 10，那么使用更复杂的估计量取代样本协方差矩阵所能获得的益处比较有限）。这就要请出今天的主角：Olivier Ledoit 和 Michael Wolf。这两位在过去 15 到 20 年的时间里致力于利用收缩技术（shrinkage）提出更好的协方差矩阵估计量，其研究范围从线性收缩到非线性收缩，从静态模型到动态模型，从 empirical Bayes 到多因子模型。

今天这篇文章就来（非常）简要地回顾一下。需要说明的是，本文涉及的重点自然反映了我个人的偏好（比如我会聚焦在静态模型的情况，即假设不同时刻的收益率满足 IID），而希望了解进一步信息的小伙伴请参考两位作者自己写的综述文章 Ledoit and Wolf (2022)。此外，就协方差矩阵估计量而言，除了这两位外，学界还有大量重要发现，但它们并非本文关注的重点（again，再次反映了我个人的偏好）。

先说说线性收缩。

我接触到 Ledoit 和 Wolf 这两位就是从他们把样本协方差矩阵往单位矩阵收缩（Ledoit and Wolf 2004b）开始。他们两位受到 James and Stein (1961) 将样本均值向零收缩的启发，提出将样本协方差矩阵向单位矩阵（的某个缩放版本）收缩。

令 $X_T$ 表示 $T\times N$ 维收益率矩阵（为了简化下面的数学表达，假设它每一列都是 demean 的）。因此，样本协方差矩阵为

$\displaystyle S_T=\frac{1}{T}X_T^\prime X_T.$

将其向单位矩阵（的某个缩放版本）收缩，由此得出估计量

$\displaystyle\hat{\Sigma}_T=w\mu_T\mathbb{I}_T+(1-w)S_T,$

其中 $w$ 是最优缩放系数， $\mu_T\mathbb{I}_T$ 为缩放的目标（它表示单位矩阵乘以某个系数）。系数 $\mu_T$ 是真实协方差矩阵 $\Sigma_T$ 对角线元素的均值（即所有资产方差的均值），实际使用中可以通过样本方差估计。因此，上述估计量的含义就是把样本协方差矩阵中对角线上的元素向其均值收缩。

上述线性收缩方法后来在很多领域得到了应用。不过对于金融数据而言，人们期望尽可能利用金融数据的实际特性来决定收缩的目标（记为 $F_T$ ），以取代 $\mu_T\mathbb{I}_T$ ，即

$\displaystyle\hat{\Sigma}_T=wF_T+(1-w)S_T.$

因此，上一节的一个自然的延伸就是寻找其他 $F_T$ 。和使用单位矩阵作为收缩目标相比，这些延伸可以理解为从数据出发来确定 $F_T$ ，因而得到的估计量可以被视为经验贝叶斯估计量。

在这方面，一个自然的想法是利用 CAPM 模型。如果 CAPM 成立，那么资产超额收益率和市场组合的超额收益率满足

$r_{it}=\alpha_i+\beta_{i}r_{mt}+e_{it},$

其中 $r_{it}$ 和 $r_{mt}$ 分别表示资产 $i$ 和市场组合的超额收益率。利用该单因子模型，我们可以把资产的协方差矩阵表述为

$\displaystyle\Sigma_T=\sigma_m^2\beta_T\beta_T^\prime+\Delta_T,$

其中 $\sigma_m^2$ 是市场组合的方差， $\Delta_T$ 是一个对角阵，表示随机扰动的方差。通过上述关系，我们可以通过样本数据来估计相应的量，并得到对应的收缩对象 $F_T$ 。Ledoit and Wolf (2003) 对使用 CAPM 来确定 $F_T$ 进行了分析。

此外，考虑到 CAPM 并不是描述资产收益率的完美模型，我们也可以进行其他尝试。比如，Ledoit and Wolf (2004a) 假设所有资产的相关系数相同，并定义 $F_T$ 如下

$\displaystyle f_{ij}=\sqrt{\sigma_i\sigma_j}\rho,$

其中 $\sigma_i$ 和 $\sigma_j$ 分别为资产 $i$ 和 $j$ 的标准差， $\rho$ 为共同的相关系数，在实际中可以通过所有资产两两相关系数的均值估计。

再来说说非线性收缩。为了便于理解，让我们从谱分解（特征分解）的角度重述一下向单位矩阵收缩的情况，即

$\displaystyle\hat{\Sigma}_T=w\mu_T\mathbb{I}_T+(1-w)S_T.$

不难看出，该估计量等价于先对样本协方差矩阵做特征分解，然后再对由特征值构造的对角阵进行相同程度的收缩，即

$\displaystyle\hat{\Sigma}_T=U_T\Delta^\star_T U_T^\prime,$

其中 $U_T$ 是特征向量矩阵，而对角阵 $\Delta^\star_T$ 中的元素为 $\delta^\star_{T,i}=w\mu_T+(1-w)\lambda_{T,i}$ 。换句话说，为了得到 $\hat{\Sigma}_T$ ，我们把每个原始特征值 $\lambda_{T,i}$ 以同样的收缩强度（ $w$ ）往 $\mu_T$ 收缩，然后再利用特征向量来计算 $\hat{\Sigma}_T$ 即可。回顾一下， $\mu_T$ 是所有资产方差的均值，而所有资产的方差之和等于特征值之和，因此 $\mu_T$ 也是特征值的均值。所以上述收缩背后的逻辑就是让特征值向其均值靠拢。

有了这个铺垫，就不难理解非线性收缩，即对不同的特征值进行不同程度的收缩，即通过某些方法最优的确定 $\Delta^\star_T$ 中对角线的元素。这背后的数学十分复杂，感兴趣的小伙伴可查阅 Ledoit and Wolf (2015, 2020) 等。

最后，我们再来简要介绍一下利用多因子模型来构造协方差矩阵估计量。在这方面，一个自然的想法是延伸上面的 CAPM，转而使用多因子模型构造目标 $F_T$ ，然后进行某种收缩。但是两位作者研究发现这条路并不是很好走，尤其是当考虑动态模型的情况时。为此，他们采取了直接基于多因子模型来估计协方差矩阵的方法（例如，Barra）。

在这方面，De Nard, Ledoit, and Wolf (2021) 同时考虑了静态和动态模型。为了简化，我们以静态模型为例（即 factor loading 不随时间变化）。假设资产超额收益率满足某个多因子模型，则其协方差矩阵可以表述为（非常类似 CAPM 的情况，只不过拓展到多因子）

$\displaystyle\Sigma=B^\prime\Sigma_f B+\Sigma_u,$

其中 $B$ 是因子暴露矩阵， $\Sigma_f$ 是因子协方差矩阵， $\Sigma_u$ 是随机扰动的方差矩阵。在实际使用中，我们需要通过样本数据估计因子暴露、因子收益率以及随机扰动。由于因子的个数往往很低，因此分析的重点是估计 $\Sigma_u$ 。De Nard, Ledoit, and Wolf (2021) 给出了 $\Sigma_u$ 的非线性收缩估计量。

在估计 $\Sigma_u$ 时，关于它是否是对角阵的假设会在一定程度上影响最终 $\hat{\Sigma}_T$ 估计量的结果。在 Ross 最早提出 APT 的时候，他考虑的是精确（exact）因子模型，即不同资产的随机扰动不相关、 $\Sigma_u$ 是对角阵。不过后来人们把它扩展到了近似（approximate）因子模型，即允许扰动有弱相关性，因此 $\Sigma_u$ 不再是对角阵。De Nard, Ledoit, and Wolf (2021) 的研究发现，在近似因子模型假设下，对 $\Sigma_u$ 进行非线性收缩，从而得到的协方差矩阵的估计量结果更优。

另外值得一提的是，对于使用多因子模型估计协方差矩阵而言，使用哪些因子以及不同因子会对估计结果产生怎样的影响注定是绕不过去的坎。然而真实定价模型里有哪些因子是未知的，因此我们大概率会使用一个设误的版本。De Nard, Ledoit, and Wolf (2021) 指出，在近似因子模型假设下对 $\Sigma_u$ 估计时，他们的算法能从残差中识别出因模型设误造成的残余因子结构，因此依然能够给出准确的估计。这从一定程度上削弱了无法合理准确指定多因子模型所造成的影响。

面对形形色色的收缩估计量，小伙伴不禁会问，到底选择哪一个。在实际使用中，一个有效的经验法则是根据 $N$ 和 $T$ 的取值来选取适当的方法。例如，Ledoit 和 Wolf 指出，当 $N$ 很小时，收缩的作用并不明显；又比如当 $N$ 和 $T$ 均大于 50 时，非线性收缩将会比线性收缩更具优势。

除此之外，在比较协方差矩阵估计量时，一个常用的方法是构造最小方差（minimum variance）投资组合，并考察每个估计量构造的组合在样本外实际方差的大小（Ledoit and Wolf 2017）。由于最小方差投资组合仅仅利用协方差矩阵作为输入，因此它不会受到预期收益率估计误差的影响。

本文简要且有侧重地回顾了 Ledoit 和 Wolf 两位在协方差估计方面多年的尝试。他们的方法从线性收缩到非线性收缩，从静态到动态模型，不仅提高了协方差矩阵估计的准确性，也极大地扩展了其应用的范围。沿着他们二位已经铺好的道路，我们能在估计协方差矩阵的道路上走得更远。

参考文献

De Nard, G., O. Ledoit, and M. Wolf (2021). Factor models for portfolio selection in large dimensions: The good, the better and the ugly. Journal of Financial Econometrics 19(2), 236-257.

James, W. and C. Stein (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, vol. 1. Oakland, CA, USA: University of California Press, pp. 361-380.

Ledoit, O. and M. Wolf (2003). Improved estimation of the covariance matrix of stock returns with an application to portfolio selection. Journal of Empirical Finance 10(5), 603-621.

Ledoit, O. and M. Wolf. (2004b). A well-conditioned estimator for large-dimensional covariance matrices. Journal of Multivariate Analysis 88(2), 365-411.

Ledoit, O. and M. Wolf (2015). Spectrum estimation: A unified framework for covariance matrix estimation and PCA in large dimensions. Journal of Multivariate Analysis 139, 360-384.

Ledoit, O. and M. Wolf (2017). Nonlinear shrinkage of the covariance matrix for portfolio selection: Markowitz meets Goldilocks. Review of Financial Studies 30(12), 4349-4388.

Ledoit, O. and M. Wolf (2020). Analytical nonlinear shrinkage of large-dimensional covariance matrices. Annals of Statistics 48(5), 3043-3065.

Ledoit, O. and M. Wolf (2022). The power of (non-)linear shrinkage: A review and guide to covariance matrix estimation. Journal of Financial Econometrics 20(1), 187-218.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

川总写量化

分享量化理论和实证心得

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章