Redian新闻
>
大意外!高考数学轮战大模型,结果完全想不到

大意外!高考数学轮战大模型,结果完全想不到

公众号新闻
西风 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

听说网友被ChatGPT气炸了!

昨个儿高考数学刚结束,有网友就坐不住了,赶紧找来了新高考数学一卷的部分题喂给了AI同学。

结果却让人大跌眼镜(8>√9×3=3√3?):

有网友表示:

ChatGPT4能把自己气炸,怎么教都不会

图源博主@浪猪灰头

所以大模型之前表现数学推理能力好,都是在耍花招?它只是记住了问题的答案?

先别着急下定论,给AI同学一个证明自己的机会吧。

我们用ChatGPT(GPT-3.5)、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。(最近出现了太多的大模型,实在测不完,还有比如Bard不支持中文等原因,所以我们先选择了上述几个模型)

整体表现如上图,目前大模型在做高考数学题方面还是个“差生”。

一起来看下具体结果是怎样令人哭笑不得的。

五大模型能否做对填空题?

先来点填空题当“开胃小菜”。

公平起见,我们使用同样的格式进行提问。

某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选修2门或3门课,并且每类选修课至少选修1门,则不同的选课方案共有?种

答案:64

GPT-4(正确)

ChatGPT (错误)

文心一言(错误)

不应该是两种方案数加起来吗?已经逐渐离谱。

通义千问(错误)

第一种选课方案里的“都不选”是个什么鬼!

讯飞星火(错误)

出师不利,只有GPT-4给出了正确答案,填空题对于大模型来说也很有难度?

但是看起来这几位AI同学都知道分情况来计算,也许只是恰巧这道题做错了?我们接着往下看。

在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为

答案:7√6/6

GPT-4 (错误)

ChatGPT(无解)

文心一言(错误)

通义千问(错误)

讯飞星火(错误)

这一题直接全军覆灭,ChatGPT更是直接没解出来,还让检查是不是题出错了。【救命】

答案越来越离谱了,还真就不信邪了。

再来!

已知函数 f(x)= cosωx -1(ω>0)在区间 [0,2π]有且仅有 3 个零点,则ω的取值范围是?

答案:[2,3)

GPT-4(错误)

ChatGPT(错误)

文心一言(错误)

通义千问(错误)

讯飞星火(正确)

本已经抱着再一次全军覆没的心情了,没想到中文大模型力挽狂澜!

做大题表现如何?

玩腻了填空题,再来挑战一下更有难度的大题吧!

公平起见,我们还是以同样的格式进行提问:

请你做一下面这道数学题:已知在△ABC中,A+B=3C,2sin(A-C)=sinB。(1)求sinA (2)设AB=5,求AB边上的高

答案:(1)3√10 /10(2)6

下面是各个大模型的表现结果:

GPT-4(错误)

ChatGPT(错误)

文心一言(错误)

通义千问(错误)


讯飞星火(第一问答案正确,第二问错误)

这道三角函数题,科大讯飞的星火认知大模型第一小问答案对了,但是步骤中有差错(第二步)。

据说,GPT-4做这种题只有0.1%的概率生成的结果完全正确。

高考数学第一道大题通常都比较简单,上面这几位AI同学的表现你觉得怎么样?

如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题(小编试过了,结果一言难尽,不忍直视)。

或者大家可以使用不同的prompt试试捏~

参考链接:
[1]https://weibo.com/5647310207/N4frlb5tx?refer_flag=1001030103_

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
冯仑:我高考数学只考了32分以2023年北京高考函数大题为例,给全国高中生上节高考数学解题课我们是大唐盛世 第十八章 董方明珠之死3高考数学145进北大,其实只是坚持了这几点深圳参战大模型!整合1000亿元AI基金群,公布AI发展行动方案一位校长抱怨爱尔兰高考数学题把学生难哭了!当然,他一定没见过中国高考的试卷大厂混战大模型:四大流派,没有赢家ChatGPT参加了2023高考数学,它的分数超过你了吗?贼叉,今年的七份高考数学卷,每份卷子都可以打你的脸!今年高考数学考生考完当场破防,22届学生表示…道人笔记(五十二)天地茫茫风卷山岗,人世沧桑已然初尝中国企业“带着镣铐”混战大模型360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象油墨里飘香的解语铃铛花To B大模型,一场重塑企业软件的大模型革命你看,高考数学就没人讨论了百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl大厂激战大模型,谁更焦虑?坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」从专业角度谈谈2023高考数学天津卷压轴题(昨天的删文重发)对话|三个月诞生79个基础大模型,中国到底需要什么大模型?只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型「开源中国」获得B+轮战略7.75亿元融资,股份重组成为完全中立平台|36氪独家BAT交战大模型,腾讯字节何时交卷?被高考数学创飞?解析来了目前只To B,腾讯云为什么优先发布行业大模型,而非大模型?接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级高考开启!高考后如何实现左手985/211,右手英国G5?英国专业排名TOP院校高考成绩大盘点!道人笔记(五十)重读经典通至理,历尽磨难获保送今年的南京中考数学卷出了一道绝好的数学题道人笔记(五十一)望旧屋几经沧桑,敬天地傲然无畏【最新】专家点评2023年上海高考数学试卷高考数学:三分天注定,七分靠打拼,剩下140分在这里有史以来最变态的高考数学题,出现在了今年的天津卷
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。