Redian新闻
>
GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

公众号新闻
机器之心报道
编辑:陈萍
GPT-4 调用的第三方插件到底效果如何?有研究者对 Wolfram Alpha 、Code Interpreter 做了份测试。

今年早些时候,OpenAI 开启 ChatGPT 集成第三方插件功能,打破 ChatGPT 不能联网这一封印。

很多人赞叹道:ChatGPT 的横空出世可以看作是「iPhone 时刻」,而第三方插件的集成,就是「iOS App Store」时刻。

据不完全统计,消息公布之后的没几天,ChatGPT 就上线了 70 多款插件。几个月过去了,这些插件对 ChatGPT 的作用到底如何?本文来自纽约大学的 Ernest Davis 、德克萨斯大学奥斯汀分校的 Scott Aaronson ,他们给 ChatGPT 背后的大模型 GPT-4 调用的插件来了次摸底考试。


论文地址:https://arxiv.org/pdf/2308.05713.pdf

具体而言,该报告描述了对大型语言模型 GPT-4 在 2023 年 6 月至 8 月期间,使用 Wolfram Alpha(以下称为 GPT4+WA)和 Code Interpreter(以下称为 GPT4+CI)插件,在 105 道高中和大学水平的科学和数学问题上进行了测试。

他们得出以下结论:

在测试的各种问题中,带有任一插件的 GPT-4 明显强于 GPT-4 本身。另外,该研究还得出结论,几乎可以肯定的是 GPT-4 强于一年前存在的 AI。然而,其可靠性还远远不够;它经常输出错误的答案或无法输出任何答案。

从总分来看,本文认为这些系统的表现相当于中等本科生的水平。这些系统解决了一些即使是有能力的学生也会觉得具有挑战性的问题,而它们却无法解决一些即使是中学生也会觉得容易的问题。

除此以外,该研究还发现,GPT-4 和插件之间还有很大的改进空间,特别是 Wolfram Alpha。GPT-4 经常以 Wolfram Alpha 难以接受或产生有用输出的方式来表述问题。

例如,在问题 B.35 中(参见论文附录),GPT-4 调用 Wolfram Alpha 40 次,试图获取某个事件的日期,但都没有成功,然后放弃了,然而,没有插件的 GPT-4 都知道该日期。在问题 A.14 中,要求 GPT-4 以天文学上的长度单位给出答案,Wolfram Alpha 返回了以米表示的正确答案,但随后系统无法将其转换为天文单位,尽管对 Wolfram Alpha 进行了八次调用。

GPT-4 有时还会创建对插件的无用调用,例如在问题 C.11 中,GPT 与 WA 进行了以下交互:


这些结果表明,GPT-4 未能充分利用插件的功能,尤其是 Wolfram Alpha。

总体而言,这些系统在可以通过调用单个公式解决的问题上最为强大。他们通常在人类倾向于使用空间可视化来解决的问题上表现较弱。此外,这些系统通常不擅长解决涉及组合多种不同类型计算的问题,难以处理非常大或非常小的数字。GPT-4 有一定能力检测插件返回的答案是否有意义或物理意义,但并不十分可靠,并且几乎没有能力诊断错误原因或从中恢复。

实验结果

该研究创建了三个测试集:「Arbitrary Numerical」测试集、「Calculation-Free」测试集和「Motivated Numerical」测试集。 

表 1 为三个测试集问题的成功和失败示例:其中 3 个成功案例,3 个失败案例。在成功案例中,GPT4+WA 和 GPT4+CI 都得到了正确答案,失败案例则相反。


作者表示他们的测试集太小,结构也太随意,无法支持统计上有效的结论,但这项研究也暗示了一些结论,两个插件在功能上都很强大,双方都能解决对方无法解决的问题。下面我们看一些实验结果。

下表为在科学和数学上的结果(前 16 个问题)。



下表为在科学和数学问题上的结果,包括库仑定律、三维几何、概率等。GPT4+WA 得分为 8.25 分(总分 32 分);GPT4+CI 得分为 10 分(总分 32 分)。

 
下表为在「Calculation-Free」测试集上第 1-32 问题上的结果。问题类别可概括为日食、距离组合问题、河流中各点之间的距离问题等。


下表为在「Calculation-Free」测试集上的结果,GPT4+WA: 30.7/53,GPT4+CI:34.2/53 ,随机猜测的得分为 :22.6/53 。


下表实验为在 Motivated Numerical 测试集上结果,涉及黑洞、几何、重力等类别,GPT4+WA:14.3/20;GPT4+CI:13.8/20 。



了解更多内容,请参考原论文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华两万名留学生拒绝回国?国家终于出手了!独立游戏调用ChatGPT遭Steam下架,开发者:我的存款和三年半时光都没了看恐龙、摸海星、挖化石……这个好地方不花钱就能去,暑期打卡100次都不够人到中年:收起委屈、藏好情绪、拒绝内耗SU建模,能不用插件吗?世界| 十大最致命的城市排名!第一个是墨西哥“走线”途径热门城市,误杀走线者时有发生安守内心,丰盈岁月 《谁念西风——尔雅散文自选集》跋《鱼儿笑》&《风雨浓》囤卫生巾啦!立减30元,116片,日用、夜用、护垫全部配齐,秒吸好舒爽~清华两万名留学生拒绝回国!国家终于出手了……清华两万名留学生拒绝回国!世界上十大最致命的城市排名!第一个是墨西哥“走线”途径热门城市,误杀走线者时有发生中国公民自驾入境俄罗斯被注销旅游签证、拒绝入境...GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法第一章 个体的行为法则(全文)看NBA决赛的启示GDB 调试器如何通过调用帧信息来确定函数调用关系 | Linux 中国美国移民局发布2023年6月申请审批数据:批准、拒绝、待审理数量和平均审理时间大语言模型做数据助手,浙大Data-Copilot高效调用、处理、可视化数据ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件清华两万名留学生拒绝回国,国家终于出手了!全网热议!2万清华毕业留学生拒绝回国,中国终于出手了...2023年6月移民申请审批数据:批准、拒绝、待审理数量和平均审理时间不用插件,还能叫SU吗?Java远程热部署插件 - 吊打市面插件29人死伤!突发多起枪击事件,凶手连开50多枪扫射街道!视频曝光触目惊心,澳洲无差别杀人案也时有发生…“走线”路途热门城市,竟是世界最致命的暴力城市,误杀“走线者”时有发生全网热议!清华两万名留学生拒绝回国?官方终于出手了...见证了世界移民史奇迹的绿酱实战成功,天合联盟超级精英匹配成功,大家尽快上车飞机起飞三次没成功,访问取消......美国移民局2023年1~5月申请审批数据:批准、拒绝、待审理数量和平均审理时间“全职儿女”:逃避有时有用,但只是暂时有用拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、学外语、总结视频,让ChatGPT做你的私人秘书37岁“凤姐”恋爱了!与高大洋男友甜蜜逛街,拿绿卡13年拒绝回国
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。