Redian新闻
>
BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

公众号新闻

机器之能报道

编辑:吴昕

比尔·盖茨说 GenAI 将彻底变革人类知识工作,但终归是一个预测。
经验层面,没有人真正了解最先进的大型语言模型(如 GPT-4)的全部功能。没有人真正知道使用它们的最佳方法,或者它们在什么条件下会失败。我们手里没有使用手册。

在某些任务上,GenAI 非常强大,但在其他任务上又会或完全或微妙地失败。除非经常使用 GenAI,否则你都搞不清楚自己遇到的到底是哪种情况。

最近,OpenAI 总裁 Greg Brockman 转发了一项被顶尖咨询公司波士顿咨询集团( BCG )称为「史无前例」的实证研究,从经验层面证实了 GPT-4 对人类知识工作的真正影响。
「很多人一直在问 AI 是否真的对未来工作很重要。有篇新论文强烈表明答案是肯定的。」他写道。
Greg Brockman 转发的是一篇发表在 SSRN 上的工作论文 Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ,由一支多学科的科研团队撰写,包括来自顶尖商学院的教授,比如宾夕法尼亚大学沃顿商学院、哈佛大学商学院、华威大学商学院以及 MIT 斯隆管理学院等。

研究团队调研采访了顶尖咨询公司波士顿咨询集团( BCG )的 758 名咨询顾问(约占集团咨询人员总数的 7%),试图找到 GPT-4 这类大型语言模型如何影响复杂、知识密集型任务表现的真凭实据。
结果发现,使用 GPT-4 的咨询师的业绩在各个维度(数量、速度和质量)上,都比没有使用工具的咨询师的表现好得多。

仍然是一篇新的工作论文,因此可能存在错误或错误并且该论文尚未经过同行评审,发表在了SSRN。

论文作者之一沃顿商学院教授 Ethan Molick 也在自己的博客上介绍了这篇研究。

参与者被分为两组:一小组被要求想象他们在一家鞋业公司工作,他们的经理要求他们开发一种新产品并在会议上展示。该小组的参与者还被要求完成其他几项行动,包括列出从推介到发布的步骤列表、创建营销口号以及撰写一篇 2,500 字的文章,描述开发鞋子的端到端流程和经验教训。

不难看出,无论是产品构思(「针对服务不足的市场或运动提出至少 10 个新鞋创意。」)、分析(「根据用户细分鞋类行业市场。」)还是写作和营销任务(「起草一份新闻稿发布你的产品的营销文案。」)等,都属于 GPT-4 能力范围内的任务。

而另一组则被要求解决业务问题,任务被设计得足够复杂,以至于 GPT-4 在解决它时会出错,因此它显然超出了 GPT-4 的能力边界。

在这两组中,研究参与者被分为三种情况:无法使用 AI、可以使用 GPT-4 AI 以及可以使用 GPT-4 AI 并了解如何使用 GPT。

一、能力边界之内


研究发现,针对「 GPT-4 能力范围内」的咨询业务,使用了 GPT-4 的组别工作表现显著提高(平均完成的任务多了 12.2%,完成任务的速度提高了 25.1%),完成质量也更高(与对照组相比,质量提高了 40% 以上)。作者指出,GPT-4 工具的影响非常显著。

蓝色组表示没有使用GPT-4 ,绿色组和红色组均使用GenAI,其中红色组接受了一些关于如何使用GenAI的额外培训。三组成员在具体咨询任务中的表现结果就像三颗牙齿,对比强烈。

从上述效果图来看,使用 GPT-4 与否(蓝色牙齿代表没有使用、绿色和红色的牙齿部分代表使用)在最终效果呈现上,如同三颗牙齿,参差不齐,Ethan Molick 称之为 GenAI 的「锯齿状前沿」。


虚线代表同等难度的咨询任务,蓝色线条代表AI的能力边界,在这条边界内的任务,AI可以完成的很好;落在蓝色之外的任务,AI 就力所不逮了。不过,蓝色曲线本身也是变化不居的,例如,当 GPT-4 在 3 月份首次发布时,它非常擅长正确识别素数,准确率高达 98%。但到了 7 月,仅仅几个月后, 同样的测试得出的准确率只有 2%。

这也是研究人员第一次清楚勾勒出 GenAI 能力边界(上图蓝色曲线)——落在这条曲线(边界)内的任务,都是 GPT-4 擅长并能辅助人类做得更好的;面对边界之外的任务,GPT-4 爱莫能助。

这一发现也是这篇研究的重要贡献之一。在此之前,人们对这道边界的感知还是混沌的或者说是主观想象的。

比如,同样是创作诗歌,GPT-4 可以写出不错的十四行诗(类似莎士比亚十四行诗)但却无法创作一首好的 50 个字的诗歌,为什么?现在清楚了——两个任务看似差不多,却正好落在边界的不同两侧——前者在能力边界之内,后者在边界之外。
这也解释了一些意想不到的任务 (如创意生成)对 GenAI 来说很容易,而诸如数学这类任务却构成挑战。

Ethan Molick 总结说,发现拥有 GPT-4 顾问的表现明显更好,无论我们是否首先向他们简要介绍 GenAI(图中的红色部分)。而且,每个纬度的表现——时间、数量和质量——都是如此。

有趣的是,研究人员还使用人类和 AI 两个评分系统对任务质量进行评分,结果「英雄所见略同」(如下面两个图所示)。
总共有54条线,因为有 18个咨询任务,每个任务又分别对应3个回归模型:使用AI(绿色)、未使用(蓝色)、使用而且获得了培训(红色)。Y轴记录了相应得分(人类根据具体效果打分),可以清楚看到红色的优势。
和上图的区别在于,这里任务表现评分是机器人打的。

除了上述内容,研究人员还发现了一些其他有趣的东西,比如 GPT-4 还起到了技能水平调节器的作用。

当评估得分最差的顾问开始使用 GPT-4 时,他们的表现提升幅度最大,达到 43%。得分高于平均水平的优秀顾问在使用工具后,表现仍然有所提升,只不过增幅不是很大。总体而言,GPT-4 可以增强不同水平的顾问的业务表现。

绿色的条形图报告他们在评估任务中的表现,而蓝色的条形图表示他们在实验任务中的表现。y轴表示平均值分数(1-10分)。当评估得分最差的顾问开始使用GenAI时,他们的表现涨幅最大,达到 43%。评估得分高于平均水平的顾问,在使用AI工具后,表现仍然有所提升,当然幅度并没有那么大。

Ethan Molick 认为,还没有足够多的人考虑过,当一项技术能将所有员工业务表现提升到顶尖水平时将意味着什么。

「这可能就像过去矿工采掘矿石,能力和水平有高有低,直到蒸汽铲诞生,一举抹平个人能力上的差异。AI 虽然还没有到那种程度,但提升知识生产者整体业务水平将产生重大影响。」

二、能力边界之外


接下来移步 GenAI 能力边界之外,又会发生什么呢?

为此,BCG 精心设计了一项任务,以确保 GenAI 无法得出正确答案。这个设计并不容易,正如论文中所说,「很难在前沿边界之外的实验中设计一项任务,让人类始终胜过 AI。」

不过,他们还是确定了一项利用 AI 盲点的任务。三组被试被要求想象在一家拥有三个品牌的公司工作,手上也有虚构公司的财务数据和采访记录,他们的任务是向公司CEO 写一份 500 到 750 字的备忘录,向老板解释应该投资哪些品牌来增加收入,并建议 CEO 采取创新行动来改进所选品牌。

结果,没有工具帮助的人类顾问在 84% 的情况下解决了问题,使用 AI 的顾问的表现却更糟——只有60-70% 的情况下解决问题。使用 GPT-4 的参与者的表现明显比对照组差——约 23%。

GPT-4 不仅不能帮助人类完成这项任务,而且实际上会严重损害人类的表现,这又是一个重大发现。
此图显示边界外任务的平均表现。红组反而倒数第一,之前倒数的蓝组反而成了第一。这与甩手掌柜情况有关。


那么,到底发生了什么?

Ethan Molick 提到了一篇研究过分依赖 AI 结果适得其反的研究 Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters 。该研究发现,使用高质量 AI 的招聘人员变得懒惰、粗心,而且判断能力也较差。与使用低质量 AI 或者不用 AI 的招聘人员相比,他们错过了一些优秀的申请人,并做出了更糟糕的决定。

论文称,当 AI 非常优秀的时候,人类会关闭大脑并遵循 AI 的建议,而这更有可能是错误的。

Ethan Molick 指出,针对落在 GenAI 边界之外的任务,咨询顾问也乐得「甩手掌柜」,也会导致类似的后果——事实上,那些使用 GPT-4 的顾问比那些不允许使用 GPT-4 顾问得到的答案更不准确(但他们仍然比不使用 GenAI 的顾问做得更好)。

这表明,高技能脑力劳动者仍然需要继续验证 AI,发挥「在使用 AI 时的认知努力和专家判断」,而不是盲目地采用 AI 输出。

三、半人马和赛博格


综上,如果要像试验中的许多顾问在前沿内、外任务上都做得很好——避免 AI 陷阱,又充分发挥了其所长——就要注意 GenAI 能力边界,「知人善用」。

在能力边界内,人类给 GenAI 带来的价值非常小,但在能力边界外,人类在没有 GenAI 的情况下工作可以提高性能。

这份研究表明,在人类与 GenAI 融合的一系列过程中,人类成功使用 GenAI 的方式出现了两种独特的模式。

一组顾问充当「半人马」,就像神话中的半马/半人生物一样,将他们的解决方案创建活动划分并委托给 GenAI 或他们自己。比如,你将决定采用什么统计技术,然后让 GenAI 处理生成图表。

在这份 BCG 的研究中,针对 GenAI 非常擅长的任务中,需要最少的人类参与。半人马会做他们最擅长的工作,然后将锯齿状边界内的任务交给 GenAI 。


另一组顾问的行为更像是「赛博格(半机器人)」,将他们的任务流程与 GenAI 完全集成,并不断与技术交互。你不只是委派任务,而是将自己的努力与 GenAI 交织在一起,在锯齿状的边界上来回移动。

使用 AI 起草文档就是一个典型例子,先启动一个句子让 GenAI 完成,这样你就会发现自己在与 GenAI 协同工作。

四、在前沿边界上起舞


无论关于 GenAI 的本质和未来的哲学之争进展如何,技术本身已经对我们的实际工作方式产生了强大的颠覆性。这不是一项需要打着「五年内改变世界、需要大量投资」的旗号大肆宣传的新技术——它就在这里,现在。

精英顾问用来增强工作的工具,和每位正在阅读这篇博文的读者的工具,完全相同。他们使用的工具很快就会比你可以使用的工具差得多,因为技术前沿不仅是锯齿状,而且在不断扩大。明年至少有两家公司会发布比 GPT-4 更强大的模型,我对此很有信心。锯齿状的前沿正在往前推进,我们必须为此做好准备。

即使撇开这种说法可能引起的任何焦虑,也要注意 GenAI 的缺点。人们在使用 AI 时,可能真的会「甩手掌柜」,没有注意到它的错误。而且,与其他研究一样,我们还发现,GenAI 的输出虽然质量高于人类,但在总体上也有同质化倾向。这就是为什么半机械人和半人马的合作方式很重要——它们允许人类与 GenAI 合作,产生比单独依靠任何一方更多样、更好、更正确的结果。成为其中一员并不难,只要在工作任务中使用足够多的 GenAI,你就会开始看到这条锯齿状边界,并开始了解它们在哪些方面好到可怕......以及它的不足之处。

在我看来,问题不再是 GenAI 是否会重塑工作,而是我们想要它意味着什么。我们可以选择如何使用 GenAI 来帮助使工作更有效率、更有趣、更有意义。但我们必须尽快做出这些选择,这样我们才能开始以合乎道德和有价值的方式积极使用它,就像机器人和半人马一样,而不仅仅被动地对技术变革做出反应。与此同时,这条锯齿状的前沿也总是变动不居,不断开疆扩土。

论文传送门:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

参考链接
https://www.bcg.com/publications/2023/how-people-create-and-destroy-value-with-gen-aihttps://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jaggedhttps://fortune.com/2023/10/06/generative-ai-chatgpt-collaboration-bcg/https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-can-boost-highly-skilled-workers-productivity



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PNAS | 癌细胞的压缩或是一把双刃剑 既能帮助也能阻碍癌症的进展美欧史无前例强力出手!哈马斯怂了,要求和谈;鹅兵也怂了,纷纷投降……史无前例!中国大学:撤销英语专业每人能拿$25!加拿大史无前例巨款赔偿!凡是家里有车的都能拿!月底截止火速申请一生里有几次哭泣的时候对美国科技巨头来说,中国应用是把双刃剑住房危机?美国抵押贷款利率史无前例地冲上8%大关,一夜变天!史无前例!麦卡锡成为第一位在众议院投票中被罢免的议长|少女在过马路时被车撞到,导致颅骨骨折|费城启动第39届少数族裔企业发展周讲故事营销战略是双刃剑|深度观点DALL·E 3瞬间生成素材,零成本制作数千万流水游戏!OpenAI总裁转赞史无前例!36岁梅西力压哈兰德,第8次获得金球奖!C罗未能入围,主办方解释原因…GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发四月史无前例的优惠!BBC官方合作,伊顿公学都在用的“自鸡神器”回来了假如相对论有着广泛的实验基础。。。。史无前例!加拿大移民找工作福利:禁止雇主要求工作经验!史无前例!美国“第三号人物”被罢免了史无前例:这么大的官被抓,居然直接认罪了年底了准备点有品位的礼物,故宫十大书画,一次集齐,史无前例!史无前例!众院投票罢免麦卡锡议长职务水里的鱼是一朵朵美丽的花副总裁转正!时隔近8个月,这家券商新总裁落定绝无仅有、史无前例!佐治亚州连续10年霸榜全美最佳营商环境州!迷笛因“偷盗”事件梦碎南阳,音乐节与地方文旅绑定成“双刃剑”?突发!加拿大印度互逐外交官 杜鲁多意外发布史无前例的声明!极度危险!澳洲陷入“水深火热”!山火围城,浓烟滚滚,警报频发!恐致数千人丧命,风险史无前例…史无前例!BC四名男子违规捕捞,遭重罚$28.7万+禁捕华人家长注意:明天,这些教师将举行史无前例的罢工!100多家教育机构将关闭!史无前例!港府首次推出留学生专属实习项目:100+岗位!1.2w港币津贴!Supply 应该根据 Demand吗?阿根廷“疯”总统要进行史无前例无政府试验,世界受够了那些政治正确年礼,故宫十大书画,一次集齐,史无前例!史无前例!国会众院议长麦卡锡刚刚被罢免了【广而告之】史无前例!今年UIUC留学生,成最幸运的一批人!史无前例!这一团队展示全球首例全眼移植手术成果
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。