股票量化策略必备|因子过滤器
1、在股票量化研究中,因子中性化的逻辑源于主观交易的equity long short,或者risk arbitrage策略。当两只股票可比性很强的时候,多空才能有效有对冲除各种beta风险因子比如(市场,行业,市值,成长,流动性),使得残余alpha统计更显著。
2、小市值股票,小资金做的alpha方法与权值股完全不同。《上一篇文章》中掘金之心推荐了一个有效的流动性溢价策略,但做权重股的难度与前者却不在一个数量级。其中的一个原因是沪深300都是大公司,普遍多于一个主营业务,普通分析师的DCF建模都需要分项累加,更别说量化找规律了。
01.核心观点
把主营业务相同的公司放在一起做比较,然后把多空收益率平均,作为那一个行业分组的暴露。当主营业务覆盖公司较少的时候,稀疏矩阵会自动过滤这个产品,因子它不能够形成有效主观上的多空组合。逻辑推理一般有自上而下的演绎,和相反的归纳。量化属于在做归纳,因子处理只有数据整齐,苹果对香蕉,才有希望总结出有效规律还不过拟合。因此,过滤器输入的是任何选股因子,通过矩阵运算,输出主营业务线性回归后的残差。研究证明,当输入的因子效果越好,提纯后因子的年化超额越明显,普遍在5%以上。
如果还不够具体,因子过滤器好比做了以下交易操作。老王想在银行业里配置一只股票。通过最近的波动率比较,他选择了招商银行。当老王用了因子过滤器之后,他发现最近银行资管业务中招商银行的波动率最高,但银行对私业务中,工商银行的波动率却最高。最终,他通过波动率因子+因子过滤器,配置了50%工商银行与另外50%的招商银行。
想了解更多因子过滤器信息,可以从“前言”开始阅读,时间大约为20分钟。或者参加我8月1日的线上讲座。(参加方式后台回复:因子讲座)
02.前言
David Sun认为,对冲基金本质上就像一个pooled的投资工具。因此,有许多投资人建立了一种有限责任合伙的形式。所有投资人都是有限合伙人。而David Sun是普通合伙人,负责账户的交易。他就像一个管理员,负责记账,并按比例将混合基金的利润分配给各个合作伙伴。所以基本上每个人都能得到相同的回报,不管他们投资了多少。这种结构是一种管理大量资本且不需要交易多个账户的方式。
1、通过SAM产品分项数据计算得到的公司主营产品(SAM标准产品)可有效捕捉股票同质性,控制风险暴露提升量化策略稳健性,为获得pure alpha提供了一个尝试的思路。
2、使用WorldQuantAlpha101中的量价因子alpha006与alpha004分别作为演绎实证分析的因子;将利用SAM标准产品提纯后的因子为实验组,行业中性化处理后的因子作为对照组。实验组提纯后因子分析及策略模拟结果均显著优于对照组。
3、本文提出的用SAM产品分项数据捕捉同质提纯因子具有重要实践意义,应用场景广泛,不仅可以用于风控模型分散同质性风险,也可应用于对冲策略,例如同质公司的价差回复、事件驱动等。
量化策略中超额收益alpha的来源可以简单分为两部分(不考虑网下打新):pure alpha+风险风格收益。pure alpha,包括量价因子、基本面因子等,能够带来稳定的超额收益;风险风格收益由风险因子贡献,包括市场因子,市值因子,行业因子,成长因子等,收益的波动性非常大。
选股因子在行业的暴露度过高可能会导致股票过于集中而带来的极端风险。这会影响选股因子有效性的判断。
A股行业市值效应明显,为降低选股因子在行业和市值的暴露度,我们通常会进行市值和行业中性化处理。行业中性化的本质在于使用行业定义来确定股票的相似群组,找到股价共同移动概率较高的股票,最终达到在不同群组中分散化投资的目的。
个股在行业分类上是唯一的,而行业下不同板块业务产品、盈利模式存在较大区别,并且有相当数量的上市公司存在多元经营的问题,直接硬性通过行业分类划分相似群组可能较为粗暴,因此本文将探究使用公司主营产品(SAM标准化产品)提纯‘替换’行业中性化处理的因子表现如何。
03.数据介绍
下图展示了产品分项表中恩捷股份2021年度报告中披露的主营数据,product_code是数库标准化后的产品代码,最右边三列分别为产品对应的收入、成本及利润。
数库标准化产品数据 来源:数库—DAS
04.主营产品数据降噪处理
本文主要研究能否通过公司主营产品捕捉股票同质性并用于提纯因子以达到控制风险的目的。在利用主营产品数据尝试提纯之前,我们首先给出以下逻辑假设:通过主营产品可以找到股票间的同质性,但是主营产品数据中信息可以分为能够体现同质性的信息(信号 )与干扰信息(噪音)。当数据中信号的占比越大,其对同质性的解释能力就越强。因此我们可以认为主营产品数据比行业分类更能够体现股票间的同质性。在此基础上如果我们希望利用主营产品更加准确地捕捉同质性并用来提纯因子,我们可以先将主营产品数据处理成信噪比更高的指标。
我们首先需要筛选出真正能够影响公司经营的主要业务,换句话说我们希望找到公司营业收入占比较高或利润较大的产品,在体现公司多元经营的前提下剔除其他非主营业务产品噪音项。为实现这一目标,我们基于选股中的重要指标—主营业务占比指标衍生出反向计算主营的方法来筛选公司主营产品。
主营业务占比指标是由给定主营业务计算收入后与总收入计算出主营业务占比,而反向计算主营是使用SAM产品分项数据通过给定收入占比及毛利占比等逻辑计算确定主营业务产品(数库标准产品)。
主营计算部分逻辑介绍(这里只简单介绍研究中使用的主要逻辑)
若某产品营收占比>50%且利润占比>20%确定为主营产品;
若某产品利润占比>70%且营收占比>15%确定为主营产品;
若存在另一产品主营占比>30%且毛利占比>50%确定为主营产品等。
通过计算尝试直接找出产品分项数据中大概率能体现同质性的产品。
以恩捷股份(002812)21Q4产品分项数据为例,通过上述流程计算结果如下:
同花顺中股票介绍
由此方法计算主营剔除了多余噪音项,不仅能够及时捕捉公司经营重心,群组划分更准确,且数库标准化后的产品相较于原始披露更易于对标概念板块。
05.选股因子信息提纯
我们认为因子带来的alpha包含Pure alpha 与风险风格收益,风险风格收益可以看作是暴露了某一个风格的风险敞口得到的收益,pure alpha 不会受到市场风格的影响,可以认为是因子本身带来的alpha收益。为获得Pure alpha我们通常会使用风控模型收紧风险敞口,比如使用主流模型Barra对因子暴露进行约束,本文希望通过利用主营产品减小同质化带来的风险。
与降噪处理逻辑一致,提纯的本质是通过找出因子暴露中大概率是噪音项的部分,通过将其剔除的方式,增加处理后的因子信噪比。这里的提纯采用横截面回归取残差的方式,将确定为主营的产品标记为哑变量1,其余不属于主营的产品标记为0,之后进行多元线性回归拟合。剔除了因子暴露中大概率能被主营产品解释的部分,剩余的残差即是更纯化的因子信息。
(因子在不同行业中的暴露)
(因子在主营业务中的暴露)
用上面两张图来举例,行业中心化可以分别隔离银行与其他行业的暴露,但是无法隔离同行业之中银行对公业务与银行对私业务的主营业务暴露。
06.实证分析
选取两个量价因子(WorldQuant-alpha006,alpha004)分别构建单因子投资组合进行回测,实验组因子使用SAM主营产品提纯,对照组因子进行行业中性化处理,通过对比因子测试结果验证提纯效果。
提纯预处理—SAM产品数据降噪处理:
1、数据来源:
SAM产业链Point In Time的数据表:fin_secu_sam_product_calc_pit_output
报告期:2020/12/31,2021/12/31
2、数据分段处理:
因子总体回测时间为2021年5月6日—2023年6月30日
3、主营业务计算:
按上文所述反向计算主营算法筛选主营构造哑变量矩阵,若公司主营业务包含某一产品则暴露度为1,否则为0;为体现多元化经营,公司主营产品数量由算法决定,不一定唯一。
07.因子测试
我们分别对因子做实验组及对照组处理并构建单因子回测框架,主要包括 IC 分析和分层回测以及模拟测试投资组合表现。为排除异常股票对测试结果的影响,剔除了选股日ST/PT股票及上市不足一年的股票。实验组及对照组因子均为做过预处理:异常值、标准化处理,市值中性化处理,对照组行业分类为申万一级行业(2021年6月更新版本)。
测试参数如下:
回测区间:2021 年 5 月至 2023 年6 月
样本空间:沪深300成分股
分组数量:5 组
因子对应股价数据:避免前视错误(look-ahead bias)和计算延迟(delayed calculation), 使用下一日开盘价‘open’计算前向收益
IC计算方式:Spearman’s rank correlation coefficient
加权方式:等权
08.测试结果
我们分别对因子做实验组及对照组处理并构建单因子回测框架,主要包括 IC 分析和分层回测以及模拟测试投资组合表现。
Alpha006测试结果
不同持仓周期下实验组提纯后因子收益分析结果
据以上图表显示,提纯后的因子在各个持仓周期的超额及单调性上的表现依然占优。
对照组(上)与实验组(sam提纯后因子,下)在测试区间(2021 年 05月 06 日至 2023年 06 月 30 日)持仓周期为5天的分层累计收益曲线如下所示:
用Alpha006构建资产组合,模拟业绩表现
在之前的报告结果中可以发现实验组与对照组中分位组1和5的预测性最好,因此这里使用这两个分位组模拟构建单因子多空策略组合,持仓期为5天,基准收益按照基准区间频率(benchmark_period=5d),计算全域平均收益。模拟时未设置交易费用与滑点。
策略表现如下(左侧为对照组,右侧为实验组SAM提纯后因子)
Entire data end date: 2023-05-22
2021-05-06 — 2023-06-30
Alpha004测试结果
不同持仓周期下对照组中性化因子与实验组提纯后因子IC分析结果比对。左半边为对照组IC结果,右半边为实验组提纯后IC结果。
用Alpha004构建资产组合,模拟业绩表现
在之前的报告结果中可以发现,对照组中分位数组2和4的预测性最好,实验组中分位组1和5的预测性最好,因此分别使用各组两个预测性最好的分位组模拟构建单因子多空策略组合,持仓期为40天,基准收益按照基准区间频率(benchmark_period=40d),计算全域平均收益。模拟时未设置交易费用与滑点。
策略表现如下(左侧为对照组,右侧为实验组SAM提纯后因子)
Entire data start date: 2021-05-06
Entire data end date: 2023-04-19
2021-05-06 — 2023-06-30
实证结果分析
上文测试结果报告展示了将两个量价因子作为实验对象,从因子IC分析、因子收益指标及模拟资产组合交易三个方面验证对比了行业中性化处理及提纯后因子的表现。主要有以下结论:
1、利用SAM主营产品可有效捕捉股票同质性进行信息提纯,可用于控制投资组合对于同质性风险暴露,提升量化投资策略收益稳健性。
2、提纯后的因子相较于行业中性化后的因子,不仅预测能力与稳定性都得到了显著的提升,且有效性也有所提升,这说明信息提纯进一步挖掘了因子的增量信息,起到了优化因子的作用。
其他说明:本文仅展示了两个简单的量价因子提纯后效果表现,未避免偶然性我们对WorldQuantAlpha101中其他量价因子及基本面估值因子(BP,EP)进行提纯测试,结果均优于中性化处理。
09.思考与展望
量化策略具有同质化,随着市场有效性的提升Pure Alpha这个投资中的‘圣杯’越来越难把握。如何剥离同质风险挖掘因子中的特质收益项对量化策略配置意义重大,多元性量化策略配置能有效应对市场变化。SAM产业链产品分项数据能够更细致地刻画上市公司经营属性,从机器学习角度来说其作为特征解释度更高,与行业分类相比捕捉同质性更加准确,应用场景广泛。比如利用SAM数据构造风格因子扩充Barra模型,增强模型解释力;或者对冲策略应用,比如统计配对策略,做同质公司的价差回复、事件驱动策略等。综上,SAM数据对于量化策略具有重要研究意义,未来我们也将继续探索SAM数据在量化策略中的应用。
微信扫码关注该文公众号作者