国际科技财经博客移民网络热点娱乐民生时事公众号

>

大意外！高考数学轮战大模型，结果完全想不到

大意外！高考数学轮战大模型，结果完全想不到

公众号新闻

2023-06-08 08:06

西风克雷西发自凹非寺
量子位 | 公众号 QbitAI

听说网友被ChatGPT气炸了！

昨个儿高考数学刚结束，有网友就坐不住了，赶紧找来了新高考数学一卷的部分题喂给了AI同学。

结果却让人大跌眼镜（8>√9×3=3√3？）：

有网友表示：

ChatGPT4能把自己气炸，怎么教都不会

△图源博主@浪猪灰头

所以大模型之前表现数学推理能力好，都是在耍花招？它只是记住了问题的答案？

先别着急下定论，给AI同学一个证明自己的机会吧。

我们用ChatGPT（GPT-3.5）、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。（最近出现了太多的大模型，实在测不完，还有比如Bard不支持中文等原因，所以我们先选择了上述几个模型）

整体表现如上图，目前大模型在做高考数学题方面还是个“差生”。

一起来看下具体结果是怎样令人哭笑不得的。

五大模型能否做对填空题？

先来点填空题当“开胃小菜”。

公平起见，我们使用同样的格式进行提问。

某学校开设了4门体育类选修课和4门艺术类选修课，学生需从这8门课中选修2门或3门课，并且每类选修课至少选修1门，则不同的选课方案共有？种
答案：64

GPT-4（正确）

ChatGPT （错误）

文心一言（错误）

不应该是两种方案数加起来吗？已经逐渐离谱。

通义千问（错误）

第一种选课方案里的“都不选”是个什么鬼！

讯飞星火（错误）

出师不利，只有GPT-4给出了正确答案，填空题对于大模型来说也很有难度？

但是看起来这几位AI同学都知道分情况来计算，也许只是恰巧这道题做错了？我们接着往下看。

在正四棱台 ABCD-A₁B₁C₁D₁中，AB=2，A₁B₁=1，AA₁=√2,则该棱台的体积为
答案：7√6/6

GPT-4 （错误）

ChatGPT（无解）

文心一言（错误）

通义千问（错误）

讯飞星火（错误）

这一题直接全军覆灭，ChatGPT更是直接没解出来，还让检查是不是题出错了。【救命】

答案越来越离谱了，还真就不信邪了。

再来！

已知函数 f(x)= cosωx -1(ω>0)在区间 [0,2π]有且仅有 3 个零点,则ω的取值范围是？
答案：[2,3)

GPT-4（错误）

ChatGPT（错误）

文心一言（错误）

通义千问（错误）

讯飞星火（正确）

本已经抱着再一次全军覆没的心情了，没想到中文大模型力挽狂澜！

做大题表现如何？

玩腻了填空题，再来挑战一下更有难度的大题吧！

公平起见，我们还是以同样的格式进行提问：

请你做一下面这道数学题：已知在△ABC中，A+B=3C，2sin(A-C)=sinB。（1）求sinA （2）设AB=5，求AB边上的高

答案：（1）3√10 /10（2）6

下面是各个大模型的表现结果：

GPT-4（错误）

ChatGPT（错误）

文心一言（错误）

通义千问（错误）

讯飞星火（第一问答案正确，第二问错误）

这道三角函数题，科大讯飞的星火认知大模型第一小问答案对了，但是步骤中有差错（第二步）。

据说，GPT-4做这种题只有0.1%的概率生成的结果完全正确。

高考数学第一道大题通常都比较简单，上面这几位AI同学的表现你觉得怎么样？

如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题（小编试过了，结果一言难尽，不忍直视）。

或者大家可以使用不同的prompt试试捏～

参考链接：
[1]https://weibo.com/5647310207/N4frlb5tx?refer_flag=1001030103_

— 完 —

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「电商零售」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

被高考数学创飞？解析来了 ChatGPT参加了2023高考数学，它的分数超过你了吗？目前只To B，腾讯云为什么优先发布行业大模型，而非大模型？坚持做行业大模型，竹间智能给大模型造了一座「模型工厂」To B大模型，一场重塑企业软件的大模型革命今年高考数学考生考完当场破防，22届学生表示…大厂混战大模型：四大流派，没有赢家有史以来最变态的高考数学题，出现在了今年的天津卷 BAT交战大模型，腾讯字节何时交卷？道人笔记（五十）重读经典通至理，历尽磨难获保送对话｜三个月诞生79个基础大模型，中国到底需要什么大模型？道人笔记（五十二）天地茫茫风卷山岗，人世沧桑已然初尝开源中国完成 B+ 轮战略融资，股份重组成为完全中立平台「开源中国」获得B+轮战略7.75亿元融资，股份重组成为完全中立平台｜36氪独家油墨里飘香的解语铃铛花高考数学145进北大，其实只是坚持了这几点阿里达摩院大模型公开课上新！主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl 以2023年北京高考函数大题为例，给全国高中生上节高考数学解题课中国企业“带着镣铐”混战大模型今年的南京中考数学卷出了一道绝好的数学题你看，高考数学就没人讨论了 360正式发布自研大模型，周鸿祎：国产大模型追赶GPT4的速度远超想象冯仑：我高考数学只考了32分道人笔记（五十一）望旧屋几经沧桑，敬天地傲然无畏高考数学：三分天注定，七分靠打拼，剩下140分在这里我们是大唐盛世第十八章董方明珠之死3 贼叉，今年的七份高考数学卷，每份卷子都可以打你的脸！大厂激战大模型，谁更焦虑？【最新】专家点评2023年上海高考数学试卷从专业角度谈谈2023高考数学天津卷压轴题(昨天的删文重发)深圳参战大模型！整合1000亿元AI基金群，公布AI发展行动方案高考开启！高考后如何实现左手985/211，右手英国G5？英国专业排名TOP院校高考成绩大盘点！百度华为阿里等入选大模型“国家队”；盘古大模型3.0发布；阿里云推AI绘画大模型丨AIGC大事日报一位校长抱怨爱尔兰高考数学题把学生难哭了！当然，他一定没见过中国高考的试卷只给大模型LeetCode编号，也能解题！大模型表现好是源于对训练数据的记忆吗？请不要迷信大模型

热点事件追踪