ChatGPT也来考CFA？

2023-10-19 09:10

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

CFA考试测试投资工具的基础知识、估值组合、投资组合管理和财富规划。它通常是由那些想在金融行业工作的具有金融、会计、经济或商科背景的人完成的。成功完成CFA课程反映了对基本金融知识的掌握，持证人随后有资格担任与投资管理，风险管理，资产管理等相关的角色。

CFA考试由三个级别组成，考察的内容主要有以下几个模块：道德，定量方法，经济学，财务报表分析，公司利率发行人，投资组合管理，股权投资，固定收益，衍生品和另类投资。

当在CFA考试中对任何模型进行基准测试时，会出现两个主要挑战。

首先，CFA协会不公开发布注册考生过去的考试成绩，这使得直接从任何CFA考试中收集官方问题和答案是不可能的。

其次，III级项目集的很大一部分是非选择题，需要人工评分。为了规避这些困难，我们决定依靠模拟CFA考试，选择只专注于一级和二级，将三级留给未来的工作。

我们一共收集了5次一级模拟考试和2次二级模拟考试。我们在图1中分享了CFA协会发布的一级和二级考题示例。表2总结了关于第一级和第二级问题的统计数据。

我们的研究考察了各种提示范式：

随机从N个模块内的问题随机抽样（2S，4S及6S），如2S表示随机从2个模块抽样。
从每个模块中抽样一个问题（10S）。这种种方法旨在使模型能够识别每个考试级别中每个模块的不同属性。由于GPT-4的上下文窗口有限，以及二级题集（案例描述和问题）的长度，二级模拟考试中不评估GPT-4的6S和10S提示。

Chain-of-Thought(CoT)：对于每个考试级别，我们也通过提示模型逐步思考输入问题并展示其计算工作（也称为ZS CoT）来评估模型。这有一个额外的好处，允许我们分析模型的“解决问题的过程”，从而确定它可能在哪里以及为什么会出错。

测试结果

1、LLM模型在1级试题的表现要明显优于2级试题（1级都是独立的选择题，2级都是案例题），结果如表3和表4所示，原因可能是：

a. 二级的试题要比一级篇幅长很多，而且二级试题中更多的是对于金融概念的灵活使用，不像一级试题中更多考察对特定知识的熟练程度。

b. 二级试题以题组的形式出现，不同题目之间互相有联系，不像一级是独立的题目。

c. 二级题目中计算以及配合图表理解的占比更高。

2、在所有测试中的表现，GPT-4模型要明显优于ChatGPT模型，但在部分模块中两个模型的表现都欠佳：

a. 在一级中两个模型在衍生品、另类投资、公司金融、权益投资及道德上表现最优。但在组合管理和财报分析中，两个模型表现都欠佳。主要是因为这两个模块有更多的计算和案例分析。

b. 而在二级试题中，两个模型依然在衍生品、公司金融及权益投资上表现优秀，在财报分析上依然表现糟糕。与一级不同的是，两个模型在道德模块的测试结果明显下降，这可能是因为二级的道德题更情景化，且有更多的细节。

c. 相对ZS，CoT的表现有所提升，但提升有限。我们还注意到，CoT提示有时会导致来自同一模块的不同问题的表现不一致。

GPT能通过CFA一级和二级考试吗？

由于CFA协会并没有公布各级考试的最低通过分，但作者根据以往的通过率推算及假设设定以下通过标准：一级考试的正确率达到70%，二级考试的正确率达到60%。依照这个假设，不同提示设置的ChatGPT和GPT-4通过一级二级考试的情况如下：

我们观察到，当使用相同的提示方法时，GPT-4在两个级别的几乎每个主题上都比ChatGPT表现得更好。根据估计的通过率和平均自我报告分数。我们得出结论：

在所有测试设置下，ChatGPT可能无法通过CFA一级和二级，而GPT-4如果提示FS或CoT，则有相当大的机会通过CFA一级和二级。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq