2024年高考陆续出分:今天的大模型,能考上几本?|亮马桥小纪严选
小纪有话说:
2024年高考陆续出分,我们想要解开这个过去一年普罗大众一直争论不休的话题:今天的大模型,智力水平到底如何?高考是衡量人类智力和学识水平的标尺之一,以今天大模型的水准,参加高考到底是能轻松考上清华北大,还是连上大专都够呛。
我们邀请了九个大模型参加这场考试——包括公认大模型能力天花板的 GPT-4o,以及四个国内大厂(百度、阿里、腾讯、字节)和四个新锐独角兽(百川、智谱、月之暗面和 MiniMax)的公开模型产品。
他们考试的题目是覆盖地域众多、难度最高的新课标 Ⅰ 卷,这也是高考大省河南使用的考卷。我们也将以河南的分数线评判,这九个大模型考生在中国最卷的高考大省,到底能上几本。
有意思的是,这份考卷的作文题目也和 AI 相关,为大模型的作文打分的北京市级骨干教师、怀柔区语文学科带头人夏老师,以前有过多次参加全国高考语文阅卷的经历,但她也直言,「当了多年语文老师,今年是第一次看到 Al 写作的文章。」
好消息是人类没有一败涂地,坏消息是几个大模型大概能上个一本了,而几年前 AI 甚至还做不出小学生的题目。
本文经授权转载自公众号「 极客公园 」
(ID:geekpark)
作者 | 甘德 编辑 | 郑玄
使用 2024 年高考难度最高的新课标 Ⅰ 卷,也是高考大省河南省使用的全套考题。
GPT-4o(OpenAI)、豆包(字节跳动)、文心 4.0(百度)、百小应(百川智能)、通义千问 2.5(阿里巴巴)、Kimi 智能助手(月之暗面)、元宝(腾讯)、智谱清言(智谱 AI)以及海螺 AI(MiniMax)
鉴于大模型回答问题存在一定随机性,测试团队对所有科目进行 2 轮测试,取平均分。
公式的输入:采用 Markdown/latex 格式。
对图像问题;如模型可识别图片,输入图片与文字;如模型无法识别图片,则只输入文字。
判分方式与人类考生统一标准:选择题和填空题只看最终结果,不考虑模型解题过程是否准确;多选题如提交错误答案为零分,如提交部分正确答案,则按相应比例给分;解答题由测试团队参考标准答案,按照解题步骤算分。
语文作文由测试团队特邀学科老师打分,打分过程对 AI 产品做匿名处理。
委托专业的 AI 数据服务商进行统一规范测试截图,所有测试均通过各款大模型产品的 PC 端官网公开入口完成操作。
语文:很好的
作文写手,但没有心
「木心曾言:「人生在于体会,今时哪及昔时?」在科技蓬勃发展的当今社会,我们借助互联网与人工智能,似乎能迅速解答许多问题。然而,这是否意味着我们面临的问题会越来越少呢?恰恰相反,我认为,在知识易得的今天,我们反而会有「更多」的问题。」
「面对越来越多的问题,我们应如何应对呢?首先,我们需要保持一颗好奇心,勇于提问,不断探索。正如爱因斯坦所说:「提出问题比解决问题更重要。」只有不断地提出问题,我们才能深入了解事物的本质,推动科学的进步。其次,我们要学会批判性思维,不盲从,不轻信。在海量信息中,我们要学会筛选、判断,保持独立思考的能力。最后,我们应该珍惜这个时代给予我们的便利,充分利用互联网和人工智能,为解决更多的问题贡献力量。」
「正因为信息的易得,我们可能会变得更加依赖现成的答案,而逐渐丧失了深入思考、主动提问的能力。我们可能会满足于表面的答案,而不再去追问问题背后的本质和根源。长此以往,我们的思维可能会变得僵化,缺乏创新和探索的精神。」
再者,这个世界是复杂多变的,新的问题总是层出不穷。科技的发展带来便利的同时,也会引发新的挑战和问题。比如,互联网虽然让信息传播更快,但也带来了信息过载、虚假信息泛滥等问题;人工智能在提高效率的同时,也引发了就业结构变化、伦理道德等方面的担忧。这些新的问题需要我们去思考、去应对,而不是简单地依赖已有的答案。
「那么,我们该如何在信息浪潮中保持清醒的头脑,不被现成的答案所束缚呢?我们需要保持强烈的「问题意识」。」
「提出一个问题往往比解决一个问题更重要。」当互联网如魔法结晶般降临,当人工智能如梦幻般走进生活,我们惊讶地发现,曾经难以追寻的答案,如今触手可及。然而,在这智涌未来的时代,我们的问题是会越来越少,还是会以全新的形式涌现?」
尾声
微信扫码关注该文公众号作者