Redian新闻
>
大模型们参加2023高考了,成绩单已出炉

大模型们参加2023高考了,成绩单已出炉

公众号新闻
转载自 智源研究院
量子位 | 公众号 QbitAI

2023 年高考成绩陆续出炉,我们也来看看各大语言模型的“高考成绩”如何?

FlagEval 大模型评测团队从 2023年高考考卷中整理了 147 道客观题(其中语文 20道,英语 44道,历史 31道,数学 9道,物理 8道,政治 21道,生物 14道)形成 Gaokao2023 V1.0 评测集

排除特殊符号等因素之后,通过 5-shot 方式对参数量相近的开源大语言模型进行评测,如悟道·天鹰 AquilaChat、Alpaca、Chinese-Alpaca、StableLM-tuned-alpha、MOSS、BELLE、ChatGLM等。

鉴于 2023 高考题 6 月初才发布,尚未进入模型训练数据集,此次测试结果能较为直接地反映模型的知识运用能力。

ChatGPT 毫无悬念得分最高,GPT-4 和 GPT-3.5-turbo 正确率分别为 60.4%、42.5%。

悟道·天鹰 AquilaChat-7B 在国内外参数量相近的SFT开源模型中表现亮眼,以 37.2% 正确率的综合成绩位居首位,接近 GPT-3.5-turbo 水平。

ChatGLM2-6BChinese-Alpaca 紧随其后,正确率分别为 25.5%、24.7%。

经SFT微调的模型与基础模型在能力侧重点上具有明显差异。

公平起见,仅对比经SFT微调后的语言模型。

评测方式解释:

本次评测采用 5-shot 的 In-context 形式 prompt 作为输入,即在 Prompt 中给给出 5 个示例和答案作为 Context,最后附上一道评测题目,要求模型选择输出【A/B/C/D】中的正确选项,考察模型的 In-Context(上下文)学习能力和知识量。总成绩(TOTAL)为每个模型的 7 个学科成绩算数平均值。

从学科成绩中,还有几点有趣的发现:

  • AquilaChat 学科知识非常均衡,没有明显的短板,并且生物、物理成绩突出,正确率分别达到 50%、62.5%;

  • 相比英语成绩,所有模型的语文成绩普遍不高,AquilaChat 与 Chinese-Alpaca 以 15% 正确率并列第一,ChatGPT 的正确率也仅有 10% 。说明大模型在学习中文知识时难度较大,这对后续中英双语大模型训练提出了挑战。

这次针对2023高考的能力评测,主要对国内外7B量级开源大模型进行对比。7B 量级作为当前主流模型,因部署性价比高,广受产业欢迎。

“巨无霸”ChatGPT作为标志参照项,在“高考2023评测”等能力对比中依然“一览众山小”。

考虑到其在模型参数量、训练数据量方面的巨大差异,以 AquilaChat-7B 为代表的 7B 量级开源模型,依然实力不容小觑、未来可期!

目前尚未有公开信息

FlagEval 大语言模型评测榜单上新

Gaokao2023 V1.0(高考评测结果)已更新至 FlagEval 大语言模型评测榜单。我们将持续扩充题库能力,提升对模型评测结果的深入分析能力。

欢迎大模型研究团队评测申请:
flageval.baai.ac.cn

智源FlagEval大模型开放评测平台,创新构建了“能力-任务-指标”三维评测框架,划定了大语言模型的 30+ 能力维度,在任务维度集成了 20+ 个主客观评测数据集,不仅涵盖了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,还增加了智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

在最新 SFT 模型评测榜单中,AquilaChat 在“主观+客观”评测中排名第一。

据悉,悟道 · 天鹰 Aquila-7B基座模型及AquilaChat 对话模型最新版本权重已经更新至开源仓库,相比 6 月 9 日初始版本性能在常识推理、代码生成等维度,有了较高提升。目前可通过 FlagAI 开源项目或 FlagOpen 模型仓库下载权重。

GitHub:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

模型仓库:
https://model.baai.ac.cn/models

大咖云集,锚定新技术,稀土开发者大会主会场直播有奖预约中

2023 年稀土开发者大会主论坛议程出炉!主论坛演讲嘉宾分别是:火山引擎副总裁&字节跳动开源治理运营负责人张鑫、英特尔软件与先进技术事业部研发总监杨继国、Google Cloud 首席架构师于有志、LVS 创始人章文嵩、火山引擎边缘云资深架构师徐广治、北京大学王选计算机研究所教授、CCF 自然语言处理专委会秘书长万小军,他们将聚焦生成式 AI、云原生、边缘云、ChatGPT等热门话题,深入分析新技术给未来产业带来的挑战和机遇。

主会场还将为「掘金引力榜」的获奖项目和个人进行颁奖。点击扫码进入官网,点击直播间,即可参与评论互动与极米投影仪抽奖!


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最新!全国多地高考查分时间公布…… | 聚焦2023高考祭遇害55年的林昭高考应急处理全攻略,为平安高考护航!|聚焦2023高考在校大学生、公务员、教师是这样写今年高考作文的,一起来看!|聚焦2023高考权威发布!2023年高考物理全国卷试题评析,来了!|聚焦2023高考2023高考出分了,朋友圈被这段话刷屏:那个考砸了的孩子,是来报恩的权威解析!2023年高考全国卷地理试题有这些特点|聚焦2023高考ChatGPT参加了2023高考数学,它的分数超过你了吗?2023高考作文题出炉!你会如何下笔?【提示】@高考生,沪2023高考志愿填报特别提醒,请收好→权威发布!2023年高考化学全国卷试题评析,来了!|聚焦2023高考高考开启!高考后如何实现左手985/211,右手英国G5?英国专业排名TOP院校高考成绩大盘点!【提示】沪2023年高考成绩单明起投递,上海邮政全力做好寄递工作AI热度触顶?ChatGPT月访问量下滑10%,大模型们该重视游戏业了!俄国的侵略战争 (Russia\'s Aggression War)高考还没到,已经有酒店猛涨价了?查!|聚焦2023高考权威解析!2023年高考全国卷思想政治试题有这些特点|聚焦2023高考【尘封档案】系列之160:华南特案组之(二)李代桃僵(上)5月CFA二级成绩已出,成绩单怎么看?这些涉及高考的谣言,都别信!| 聚焦2023高考快转发收藏!2023高考志愿十问十答|聚焦2023高考教育部公布高考举报电话|聚焦2023高考2023年全国高考报名人数,1291万!|聚焦2023高考2023高考英语题目出炉,那些认为英语不重要的家长都惊呆了权威发布!2023年高考生物全国卷试题评析,来了!|聚焦2023高考2023年上海高考成绩6月23日公布!市教育考试院发布高考考后提醒权威发布!2023年普通高考语文作文试题解析及命题思路报告|聚焦2023高考权威解析!2023年高考全国卷历史试题有这些特点|聚焦2023高考2023高考即将驾到:回想当年高考,你最惨的是哪科?5月CFA二级今晚出成绩,成绩单看不明白怎么办?2023高考倒计时32天!美国哪些大学认可高考成绩?开考了!2023年高考A股卷,你能拿多少分?2023高考英语难出天际,小学阶段如何提前应对?我们把今年4套高考卷都做了,有好几个重大发现……七绝 归去来兮拯救被困小狐狸
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。