Redian新闻
>
蒸馏Alpha:因子的可交『弈』性

蒸馏Alpha:因子的可交『弈』性

财经


量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。


量化投资与机器学习公众号独家撰写


“是在一个大的平台里追求安稳,还是在去初创的公司搓破天花板,这其实是每个行业都会遇到的选择。但尤其在量化行业,你会发现这两种选择显得更为两极化。但当我看到国内量化行业的蓬勃发展,我还是毅然选择离开世坤,并深入的参与到国内的市场竞争中来。”

——余建国 | 弈倍投资核心合伙人


*弈倍投资核心合伙人余建国是全球顶级对冲基金“千禧年”旗下量化子公司WorldQuant——世坤投资的核心创始团队成员,其拥有17年以上策略和技术开发经验。

坚持系统化的投资理念

在WorldQuant(以下简称:世坤十余年的经历,也是参与世坤成长、见证世坤模式成功的经历。这段经历对我在倍现在的投研模式有了很多的借鉴,比较核心的有:
  • 系统化量化投资的每一个步骤,减少主观的干预
  • 长期看来,因子的逻辑性和可交易性非常重要
  • 有限度、有节制的使用GA算法因子挖掘
量化策略是非常多样化的,但市场上很多人并不清楚自己要做什么。我们要找准自己的定位,包括产品的定位以及研究的定位!
比如做因子投资,它是一种相对价值的概念,那你就不能要求每次都能选到市场涨幅靠前的股票。以指数增强为例,Alpha的本质是在截面上,通过组合的优化及风险的控制,使整个组合能在同一个的时期相对战胜基准。
如果以多空策略为例,Alpha的本质就是在截面上,通过组合的优化及风险的处理(这时由于做空限制的放开,可以中性化掉很多风险),来获得多头部分相对空头部分的超额收益。所以本质上我们是在一个相对获利的位置,这时如果做择时的研究就违背了策略理论。

研究定位:不做择时,不被市场的噪音左右

择时一定程度上与截面因子模型的理念是相悖的。我们必须要承认我们对于个股的预测是毫无优势的,所以我们需要以构建组合的方式相对的获得Alpha。我们也不会根据重大事件或新闻去临时做一些应对,除非等事件过后,否则我们无法定量的判断事件影响性的大小。如果一有新闻或事件,就要主观的做调整,那就失去了量化的意义。
我们认为,一个好的Alpha信号应该对噪音不敏感,这才是可持续的关键。因此,敏感性测试和显着性测试是很重要的。测试稳健性的最常用技术包括对不同时段、不同时长、随机数据子集等进行测试,另一方面,每个输入数据都应该对结果作出重大贡献。
同时,量化模型应该对这些噪音进行中性化处理,即使无法中性化掉,那也应该在风险层面去控制。噪音的冲击往往会带来阶段性的亏损,但噪音之后的均值回归又会给量化策略带来可观的收益。

Alpha研究:更关注因子的可交易性

一切可用的、可靠的数据都是我们Alpha的来源。
每个Alpha提供了一个收益来源,并进一步稀释了投资组合的风险负荷。理想的投资组合将保持对任何一个广为人知的风险因素(Beta)的零负荷,以及对他所能发现的尽可能多的未知因素(Alpha)的非零负载。所以,在设计新Alpha的过程中,需要不断测试Alpha的稀缺性,逻辑性,稳定性和可交易性。
因此,好的Alpha应该具有以下特征:
  • 表达式有逻辑

  • 具有较高的样本内夏普比

  • 对于数据参数的变化不敏感

  • 适用于多个市场和地区

  • 适用于多头组合和空头组合

    ··· ···

作为市场的参与者,我们并不会限定自己的研究范围,也不会对某一类数据有特定的青睐。基本面数据不一定就是价值投资的专属,量价数据也不是高频交易的专属,你使用大量的另类数据也并不说明你比别人更有优势。
而核心的研究还是要从逻辑出发,要从市场的非有效性出发。比如,量价数据,特别是高频量价数据就更适合用来度量过度反应的行为。因为市场高频的日内的量价数据相对日度数据往往包含了更多反应交易行为的有用的信息。比如呈U形分布的日内交易量就比日度总体的交易量包含更多的信息。我们需要通过降频处理来有效的利用这些信息。
每一类数据都能表示股票的某一维度的特征。那我们研究的是特征还是因子?对于从事机器学习研究的人来说,它俩可能是一回事。我们通常会将表示投资标的某一维度的特征作为机器学习模型的输入,对模型进行调优,然后用输出作为信号。这个过程中不会特别在意输入特征本身的预测性,即使在意,可能也只是考察特征与投资标的未来收益的相关性。但是在倍,不仅可预测性,我们还看中因子的可交易性,包括它的换手、回撤及胜率等。我们确保每一个因子都是一个可交易的信号,能够单独构建组合,作为一个投资策略。
在随后构建因子组合的过程中,我们也不会使用预定义的概念对因子进行分类并从中筛选因子进行组合,而会从结果去看因子的相关性。最后的组合也会完全的进行市值行业中性化处理。

拥抱新的工具,有限度且克制的使用GA因子

GA本身其实并不是一个新的事物。基于十多年GA算法的研究经验,我们非常克制且有限度的使用GA算法进行因子挖掘。并把GA因子作为人工Alpha因子的补充。
对于某一个特定的数据集,我们首先会用人工的方式带有逻辑的对数据集进行因子研究,挖掘出尽可能多的信号。
然后再使用GA算法对该数据集进行因子挖掘。这样做的目的有两个,首先通过人工的方式确保该数据集的价值,避免将无用的数据输入到GA算法中;其次是使用GA“榨取”数据的剩余价值。
最后,再把人工挖掘的因子和GA因子进行组合。但组合的过程中,我们并不会把GA因子与人工的因子配置相等的权重。比如人工挖掘了100个因子,GA算法可能在短时间就能挖掘出10000个因子。如果简单的将100个人工与10000个GA因子在同一层级组合,有可能这100个人工因子会淹没在10000个GA因子中,这是由于GA因子样本内的表现通常会更优(由于更高的过拟合风险)。比较安全且合理的做法是先将这10000个GA因子组合成一个或几个因子,再与100个人工Alpha因子进行组合。
我们同样应该克制过度依赖机器学习和历史数据的训练,因为当前市场规则一直在变,投资主体及其技术也在变,故而测试周期越长越好,这不一定是正确的。同时,过拟合的现象是普遍存在的,那些良好的结果,可能只是随机误差或噪音,并没有预测能力。我们必须敬畏市场,因为没有一个完美的训练方法可以提高未来的夏普比率,皆因市场一直在变化。所以,我们选择回归本源,持续改进Alpha,如果模型对参数变化的敏感性较低,这有助于降低过度拟合的风险。
十年磨一剑:股票多空策略
弈倍的投资团队过去在海外有长达十余年的多空策略投资经验,而在今年“全面注册制”施行后,也正式上架了A股的多空策略产品线。
在海外,多空策略在主流对冲基金中广受欢迎,也是表现最出色的策略之一。据Eureka hedge的统计数据,在2000年到2023年长达24年的时间里,全球对冲基金股票多空策略,平均历史年度收益达到10%以上的年份为 14 个,占比 58.33%,而收益下跌的年份仅有4个,其三年期年化收益率甚至常年排行第一。
弈倍策略体系
在国内,由于对冲工具较为贫乏,绝大多数“多空策略”管理人实质上都在做“市场中性策略”。该策略通过建立指数增强的多头头寸和对应指数期货的空头头寸来对冲市场整体风险,收益主要依赖于多头端的超额收益和对冲端的成本之差。而多空策略则是一种“增强型的市场中性策略”,其多头端无需选择对标某一类指数,空头端则通过融券形式做空,并以此获取双倍的选股Alpha收益。
随着今年“全面注册制”正式启动,这将对中国资本市场中长期带来深远影响,主板的新股上市首日即可纳入融资融券标的,这将极大丰富融券券源,缓解多空策略的容量难题。

弈倍投资希望能以成熟海外策略,辅以国内经验,补上 A 股“量化多空策略”这一块缺口,为投资者持续稳健地创造收益!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViT有人把NLP领域分类、发展趋势可视化了!德国慕尼黑工业大学构建NLP 360度全景图【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】爱人是沙漠里的同行者南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点我越来越像我老爸了中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术大模型知识蒸馏概述糕妈:因为孩子的作业,我被老师找过好几次!小学4年陪作业“血泪史”,今天第一次说​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架LP轮挂掉面试?亚麻的LP题,是有多“变态”?(2)ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别谷歌最新研究:可交互式动态图片生成,细节逼真!小米 MIX Fold 3快来了,MIX Alpha还能再见吗?顶刊影响因子集体下跌!科睿唯安最新版SCI影响因子发布TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏黄金大饼 - 我家大厨的手艺长篇小说《如絮》第一百三十五章 武汉-哈尔滨-1956年 2 家书使用 R 语言构建一个可交互的 Web 应用 | Linux 中国7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023哪种行为让你觉得这个人不可交往?LP轮挂掉面试?亚麻的LP题,是有多“变态”?南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~在2022年最新影响因子出炉的同一天,科睿唯安官宣撤销4本期刊的影响因子!2023影响因子出炉 | 科睿唯安政策调整,众多名刊影响因子回落AlphaDev将排序算法提速70%!C语言库作者一文详解DeepMind最新AI如何寻找新能源领域的Alpha投资机会?ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签Agency Demands Photographer Pay — For Using Own PhotosCOLING/EMNLP/NAACL/NLPCC群,快来~微软亚研提出TinyMIM,用知识蒸馏改进小型ViT历史小说《黄裳元吉》第一百零二章 伴魂LP出资回暖,市场化LP成出资主力军 | 募资情报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。