GPT-4取代数据分析师，成本仅3000！阿里达摩院&NTU论文引热议

公众号新闻

2023-05-29 07:05

新智元报道

编辑：编辑部

【新智元导读】GPT-4淘汰数据分析师，仅需几千元。

近来，想必很多人被一份「GPT-4取代数据分析师」核算成本的研究报告惊到了。

论文内容直戳痛点：

使用GPT-4的成本大约是雇佣初级数据分析师的0.71％。

论文地址：https://arxiv.org/pdf/2305.15038.pdf

这份来自阿里达摩院和南洋理工大学的最新研究，明晃晃地告诉数据分析师，我要取代你们，这就是证据。

你以为高级数据分析师，会逃过一劫吗？

研究人员称，使用GPT-4的成本是雇佣高级数据分析师的0.45％。

这是什么概念？

根据就业在线社区Glassdoor统计，一位高级数据分析师年薪大约10万美元（70万人民币）。

要是换成GPT-4，仅需要450美元，也就3000元左右。

从70万到3000，简直就是成本爆破！

网友表示，想到成本会这么低，但没料到这么低。

框架

总之，这篇研究做出了以下几点贡献：

· 首次提出「GPT-4是否是一个优秀数据分析师」的研究问题，并对其利弊进行了定量评估。

· 对于这样一个典型的数据分析师的工作范围，提出了一个端到端的自动框架来进行数据收集、可视化和分析。

· 对GPT-4的产出进行了系统的、专业的人工评估。有良好质量的数据分析和洞察力可以被认为是NLP社区数据分析的第一个标杆。

为了搞清楚GPT-4能否成为一个好数据分析师，研究人员设计了一个端到端的框架。

GPT-4在上下文理解、代码生成、数据故事方面的能力逐渐崭露头角，而这项研究的目的就是使用GPT-4来实现整个数据分析过程的自动化。

论文中，研究人员展示了GPT-4作为数据分析师流程。

基本上有三个步骤：（1）代码生成（蓝色箭头所示），（2）代码执行（橙色箭头所示），以及（3）分析生成（绿色箭头所示）。

整个框架的算法过程如下：

第1步：代码生成

第一步的输入包含一个问题和数据库模式。这里的目标是生成代码，以便在后面的步骤中提取数据和绘制图表。

研究者利用GPT-4来理解问题和模式中多个数据库表之间的关系。

由于数据安全的原因，仅提供了数据库表的模式。大量的原始数据仍然被安全地离线保存，并将在后面的步骤中使用。

这一步的设计提示如表1所示。按照提示，可以得到一段包含SQL查询的python代码。

第2步：代码执行

正如前面提到的，为了维护数据安全，研究人员在离线状态下执行GPT-4生成的代码。

这一步的输入是步骤1中生成的代码，以及数据库中的原始数据，

如框架图所示。通过使用「conn = sqlite3.connect([database file name])」定位数据目录。

如代码中的表1所示，这个步骤涉及大量的原始数据。通过执行python代码，我们能够得到「figure.pdf」中的图表，以及「data.txt」中保存的提取数据。

第3步：分析生成

在获得提取的数据后，研究者的目标是产生数据分析和洞察力。

为了确保数据分析与原始查询相一致，同时使用问题和提取的数据作为输入。研究人员为这个步骤的GPT-4设计的提示语如表2所示。

在这个过程中，研究人员没有对提取数据生成一段描述，而是指示GPT-4用5个要点来生成分析和见解，并强调关键要点。

有一点需要注意的是，在此，研究人员也考虑使用生成的图表作为输入的替代方案。

因为「GPT-4的技术报告」提到，它可以将图标作为输入。不过，这个功能还没全面开放。

由于提取的数据基本上包含的信息量与生成的图表至少相同，因此研究人员只使用「提取数据」作为输入。

从初步的实验来看，GPT-4能够从数据本身理解趋势和相关性，而不需要看到数据。

为了让框架更加实用，从而有可能帮助人类数据分析师提高其日常表现。研究人员增加了一个利用外部知识源的选项，如算法1所示。

由于实际的数据分析师角色通常需要相关的业务背景知识，研究人员设计了一个外部知识检索模型g(·)，从外部知识源（如谷歌）查询实时在线信息（I）。在这样的方案中，GPT-4将数据（D）和在线信息（I）都作为输入来生成分析（A）。

实验

数据集

由于没有完全匹配的数据集，研究人员选择了一个最相关的数据集——NvBench。

他们从不同领域随机选择了100个不同图表类型，和不同难度的问题来进行主要实验。

图表类型包括：条形图、叠加条形图、线形图、散点图和饼图等。

难度等级包括：简单、中等、困难和极难。

领域包括：体育、艺术、交通、公寓出租等。

在NvBench数据集的基础上，研究人员利用框架为每个实例编写了5个要点，并使用全新的指标来评估质量。

评估

在这里，研究人员设计了几个人工评估指标来评估生成的数据，并分别对每个测试实例进行分析。

图表评估：

· 信息正确性：图中显示的数据和信息是否正确？（0-1）

· 图标类型正确性：图表类型是否符合问题中的要求？（0-1）

· 美观性：图表是否美观、清晰，没有任何格式错误？（0-3）

分析评估：

· 正确性：分析中是否包含错误的数据或信息？（0-1）

· 对齐性：分析是否与问题一致？（0-1）

· 复杂性：分析的复杂程度和深度如何？（0-3）

· 流畅性：生成的分析是否流畅，在语法上是否合理，没有不必要的重复？（0-3）

为了进行人工评估，阿里&NTU研究人员从一家数据标注公司雇佣了6名专业的数据标注员，按照上述详细的评估指标对每个图形和分析要点进行标注。

结果

GPT-4的表现

表3显示了，GPT-4作为数据分析师在200个样本上的表现，以及每个单独的评估组的结果，和两个组之间的平均分数。

对于图表类型正确性评估，两个评估小组几乎都给出了满分。

这表明，对于「画条形图」、「显示饼形图」等这样简单明了的指令，GPT-4可以很容易地理解其含义，并对图表类型的含义有背景知识，从而可以相应地以正确的类型绘制图表。

在美学评分方面，它平均得到2.73分（满分3分），这表明大多数生成的数字对评估者来说是清晰的，没有任何格式错误。

然而，对于绘制图表的信息正确性，得分并不那么令人满意。

研究人员手动检查了这些图表，发现尽管有一些小错误，但大多数都能大致得到正确的数字。

在此，评估标准非常严格，只要有任何数据，或任何标签的X轴或Y轴是错误的，就要扣分。尽管如此，它仍有进一步改进的空间。

在分析评估方面，对齐性和流畅性平均得到了满分。这再次验证了生成流畅和语法正确的句子对GPT-4来说绝对不是一个问题。

另外，研究人员还注意到，分析的平均正确性得分要比数据的信息正确性高得多。

这很有趣，因为尽管生成的数据是错误的，但分析结果可能是正确的。这再次验证了研究人员之前对数字的信息正确性得分的解释。

如前所述，由于生成的数字大多与黄金数字一致，因此一些要点可以正确生成。只有少数与数字中的错误部分有关的要点被认为是错误的。就复杂性得分而言，平均2.16分（满分3分）是合理且令人满意的。

人类数据分析师与GPT-4的比较

为了进一步回答我们的研究问题，研究人员聘请专业的数据分析师来做这些任务，并与GPT-4进行全面的比较。

表4显示了几个来自不同背景的专家级别数据分析师与GPT-4的表现比较。

总的来说，GPT-4的性能与人类数据分析师相当，而在不同的标准指标和人类数据分析师之间，其优势也有所不同。

第一行显示了，一位在金融行业有超过6年数据分析工作经验的高级数据分析师（即高级数据分析师1）的10个样本表现。从表中可以看出，GPT-4在大多数指标上的表现与专家数据分析师相当。虽然GPT-4的正确性得分低于人类数据分析师，但复杂性得分和排列组合得分却更高。

第二行显示了，GPT-4和另一个有5年工作经验的高级数据分析师（即高级数据分析师2）在8个样本上的性能比较。由于样本量相对较小，结果显示人类和AI数据分析师之间的差异较大。人类数据分析师在信息的正确性和数据美观性、见解的正确性和复杂性方面超过了GPT-4，表明GPT-4仍有改进的潜力。

第三行是比较GPT-4和一个在咨询公司有2年内数据分析工作经验的初级数据分析师之间的另一个随机9样本的表现。GPT-4不仅在数字和分析的正确性上表现得更好，而且还倾向于产生比人类数据分析师更复杂的分析。

除了所有数据分析师和GPT-4之间的性能相当外，我们可以注意到GPT-4花费的时间比人类数据分析师短得多。

表5显示了，来自不同职业平台的数据分析师成本比较。

研究人员从level.fyi获得新加坡数据分析师的年薪中值，从Glassdoor获得新加坡数据分析师的平均年薪。

这里，研究人员假设每月有大约21个工作日，每天的工作时间约为8小时，再结合目前不同级别数据分析师在具体项目实例中所花费的平均时长（美元）。

对于这次研究的标注，研究人员根据市场价格相应地支付给数据分析员。GPT4的成本约为初级数据分析师成本的0.71%，高级数据分析师成本的0.45%。

案例

在第一个案例中，GPT-4能够生成包含正确的SQL查询的python代码，以提取所需的数据，并根据给定的问题画出适当的、正确的饼图。

在分析方面，GPT-4能够通过进行适当的比较（例如，「最成功」、「不太成功」、「不同范围」）来理解数据。

此外，GPT-4还能从数据中提供一些见解，如：「表明他们在竞争中的主导地位」。

GPT-4的上述这些能力，包括上下文理解、代码生成和数据故事，也在其他许多案例中得到了证明。

此外，在这个案例中，GPT-4还可以从数据和其背景知识中做出一些合理的猜测，例如：「可能是由于其设计、性能或其他因素」。

第二个案例显示了GPT-4处理的另一个问题「在散点图中显示身高和体重之间的相关性」。

同样，GPT-4能够提取正确的数据，画出正确的散点图并生成合理的分析。

虽然大部分的要点都原模原样地生成了，但如果仔细阅读和检查，就会发现平均身高和体重的数字是错误的。

除了众所周知的「幻觉」问题外，研究人员怀疑GPT-4的计算能力不强，特别是对于那些复杂的计算。

甚至，他们还在在其他几个案例中也注意到这个问题。尽管GPT-4以非常自信的语气生成了分析要点，但计算结果有时并不准确。

第三是高级分析师2所做的一个例子。

可以注意到，这位专家级的人类数据分析师也能理解需求，编写代码来绘制正确的柱状图，并对提取的数据进行分析要点。

除此以外，研究人员总结出人类数据分析师与GPT-4的3个主要区别：

首先，与GPT-4不同的是，人类数据分析师可以用一些个人想法和情感来表达分析。例如，数据分析师会提到「这有点令人惊讶......」。在现实生活中，个人情感有时是很重要的。通过这些情绪化的短语，人们可以很容易地理解数据是否符合预期或不正常。

第二，人类的数据分析师倾向于应用一些背景知识。虽然GPT-4通常只关注提取的数据本身，但人类很容易与自己的背景知识联系起来。例如，如表8所示，数据分析师提到「......是常见的......」，这在数据分析师的实际工作中是比较自然的。因此，为了更好地模仿人类数据分析师，在演示中，研究人员增加了一个选项，即在生成数据分析时使用谷歌搜索API来提取实时在线信息。

第三，当提供洞察力或建议时，人类数据分析师往往是保守的。例如，在第5点中，人类数据分析师在给出建议前提到「如果没有数据问题」。与人类不同，GPT-4会以自信的语气直接提供建议，而不提及其假设。