国际科技财经博客移民网络热点娱乐民生时事公众号

>

大模型的高考数学成绩单：及格已经非常好了

大模型的高考数学成绩单：及格已经非常好了

公众号新闻

2024-06-09 06:06

机器之心发布

机器之心编辑部

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！

和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」：

令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格的情况，只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说，高考语文作文可以直接测试它们的创造性写作技巧，包括构思、组织和表达观点的能力。

而在数学考试测试中，除了基本的计算能力、对数学知识的掌握，更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理，这要求它具备深厚的数学知识基础。同时，逻辑推理能力是解答数学题目的关键，大模型需要通过严密的逻辑推导来解决问题。

具体测试环节：

我们将评测的重点放在了高考数学的前 14 个客观题上，这些题目覆盖了基础的数学知识和计算能力，满分为 73 分。在测试时，我们将题目直接输入产品，不做 System Prompt 引导，直接输出结果；同时也没有触发搜索，没有来自外界的干扰。

分数计算方法依照高考真实判分原则：

单选题 8 道，每道 5 分，选项正确计分，错误不得分；
多选题 3 道，每道 6 分，全对计 6 分，漏选按正确答案数量计分，如答案为 ABCD，漏选其一扣 1.5 分，错选不得分；
填空题，3 道，每道 5 分，填空正确计分，错误不得分。

图｜8 个模型对 14 道数学题的回答结果，绿色为正确、红色为错误、黄色为部分正确

具体而言，在满分 73 分、及格线为 43.8 分（60%）的情况下，六家大模型产品的分数结果分别为：GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

多说一句，每年的第 8 道单选题往往是高考数学卷中最难的一道题，被测试的大模型都 “全军覆灭” 了。

完整测试结果如下：

单选题一

（6个模型回答正确，1个回答错误）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：错误

百川 4：正确

单选题二

（3个模型回答正确，4个回答错误）

GPT-4o：错误

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：错误

文心 4：错误

百川 4：错误

单选题三

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题四

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题五

（6个模型回答正确，一个无响应）

GPT-4o：正确

通义千问 2.5：无响应，最终提示系统超时

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题六

（6个模型回答正确，一个回答错误）

GPT-4o：错误

通义千问：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题七

（6个模型回答正确，一个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题八

（7个模型无一得出正确答案）

GPT-4o：错误

通义千问2.5：错误

GLM-4-0520：错误

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

多选题一

（3个回答正确，2个部分正确，2个错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：部分正确

豆包：正确

文心 4：部分正确

百川 4：错误

多选题二

（2个模型回答部分正确，5个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：错误

文心 4：错误

百川 4：错误

多选题三

（5个模型回答部分正确，2个回答错误）

GPT-4o：错误

通义千问 2.5：部分正确

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：部分正确

文心 4：部分正确

百川 4：错误

填空题一

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题二

（1个模型回答正确，6个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题三

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

周鸿祎回应迈巴赫中标者未付清余款；比亚迪辟谣员工策划特斯拉车主维权；新能源车企4月成绩单：小米SU7锁单量达88063台｜邦早报 6月成绩单：11款新游月收入破3000万，B站大获全胜，小游戏超预期惊闻发小被留置，兼说腐败和出身有个垃圾玩意每年准时来碰瓷高考数学伊朗真的反美反以吗？“我数学成绩好，英语水平高，是不是稳拿英国九大公学offer？”腾讯混元大模型产品品鉴会邀约 | 7月3日16:00 一起来体验混元大模型的全新产品方案财经早参丨苹果发成绩单：iPhone收入跌10%；人民币大涨；农夫山泉：坚决追究责任；周鸿祎迈巴赫买家称已付清尾款有一种笑话叫——中考数学不能使用高中方法（古詩英譯）惠崇春江晚景 – （其二）苏轼今日arXiv最热NLP大模型论文：一文读懂大模型的prompt技术今日arXiv最热大模型论文：大模型都能怎么用？中南大学最新综述：大模型时代的自然语言处理 4月成绩单：14款游戏月收入首破3000万，莉莉丝,途游钓鱼大爆发！大咖云集！首届大模型安全研讨会开启注册，共同探索大模型的安全边界今日arXiv最热NLP大模型论文：CMU最新综述：工具使用，大模型的神兵利器立法宣称圣经非法：即将到来的昂撒与犹族大火拼五光十色的多模态大模型：浅探视觉-语言大模型的关键模块设计国产大模型的价格已经卷出网约车大战和百亿补贴的味儿了降维打击云南中考数学几何压轴题这是成年人不敢面对的成绩单：无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成第一批上手大模型的程序员，已经碾压同事了第一批上手大模型的程序员，已经碾压同事了… | 极客时间霸屏热搜！被高考数学难哭后，又一批魔都家长准备转轨了…【首发】中慧医学成像宣布正式完成近6000万港元Pre A轮融资，发布集团品牌Aitrasound® 及全新AI医学成像产品线第一批使用大模型的程序员，已经碾压同事了… | 极客时间出口十强最新成绩单：深圳拿第一，这些城市跌了大模型高考成绩公布，理科最多上「二本」/传娃哈哈总经理宗馥莉请辞/OpenAI 推出 GPT-4o mini 新模型首个AI高考全卷评测结果发布：数学全不及格；严打虚拟主播？腾讯视频号拟限制数字人带货；马斯克：宁愿亲眼见证AI毁灭人类丨AI周报雷军公布SU7成绩单：交付5781台，苹果用户占51.9%大模型的“瘦身”革命：巨头逐鹿轻量化大模型 | 大模型一周大事被嘲“太简单了”，看懂高考数学压轴题，透露的信号太重要！三角美学——河南省中考数学几何压轴题降维打击【七律】周末打球球场到处是积水有题 simple naive trust-bi-racious marriage

热点事件追踪