Redian新闻
>
我们用3000多道测试题,帮你找到了最聪明的大模型 | 文末附下载

我们用3000多道测试题,帮你找到了最聪明的大模型 | 文末附下载

公众号新闻

作者 | InfoQ 研究中心

截至 2023 年底,国产大模型数量近 200 个,通用大模型、行业大模型和行业大模型应用百花齐放。在经历了激烈的市场竞争后,行业焦点逐步转向应用层面的多元化发展。生成式人工智能已经成为主流领域的重要组成部分,不仅改善了用户体验和工作效率,还催生了新的商业模式和应用创新。

那么,这些热门大模型的综合能力到底如何呢?InfoQ 研究中心采用桌面研究和科学分析方法,聚焦语义理解、文学创作、知识问答、逻辑推理、编程能力等九大核心能力,对十款热门模型进行了超过 3000 道题目的测试。

InfoQ 研究中心将测试经过和结果总结成了《大语言模型综合能力测评报告 2024》(以下简称《报告》)中。本报告旨在通过全面、客观地评估当前流行的大模型,为大语言模型技术的具体实践和未来探索提供方向。

本次测试的模型产品和大模型主要包括:ChatGPT4(GPT-4)、Bard2.0(Gemini Pro)、文心一言专业版 (文心大模型 4.0)、通义千问 V2.1.1(通义大模型 2.0)、百川大模型 v1.0(百川大模型 53B)、讯飞星火 V3.0(星火认知大模型 3.0)、360 智脑 4.0(360 智脑 4.0)、智谱清言网页版(ChatGLM-3)、豆包(云雀大模型)、Kimi Chat 网页版(Moonshot AI 大模型)。


为了保证报告的客观性、公正性及计算结果的准确性,InfoQ 研究中心根据样本制造了一套科学的计算方法——通过实际测试获得各模型对 300 道题目的答案,针对答案进行评分,正确答案获得 2 分,部分正确的答案获得 1 分,完全错误的获得 0 分,模型表示不会做的获得 -1 分。计算公式为“某模型在某细分类别题目得分率 = 模型得分 / 模型总分”。举个例子,A 大模型在 7 道题目的类别中总得分为 10,该类题目可获得的总得分为 7*2=14,则 A 大模型在这个题目类别的得分为 10/14=71.43%。

基于以上评测方法,报告主要得出了许多值得大家关注的结论,希望下文的核心结论解读可以为各位的未来大语言模型技术具体实践和探索提供方向。

核心结论 1:整体能力大幅提升, 逻辑推理等进阶能力表现亮眼

据 InfoQ 研究中心的测评结果显示,相较于 2023 年 5 月,大语言模型的各项能力均有明显提升,整体得分率平均提升 23.39%(除多模态题),其中编程类、翻译题、知识题、商业写作、文学写作题目的得分率都超过了 80%。

大模型综合测试结果 👇



与 2023 年 5 月测试得分率比较结果 👇

2023 年 5 月测评结果请查阅《大语言模型综合能力测评报告 2023》

https://www.infoq.cn/minibook/vWO39J1tlb9xlSaIJoI6



数据说明:InfoQ 研究中心绘制测评结果仅基于上文所列模型,测评截止时间为 2024 年 1 月 5 日
核心结论 2: 进阶能力快速提升,编程分数遥遥领先

让人惊喜的是,大模型在进阶能力方面取得了显著进步。其得分率提升了高达 35.77%。在逻辑推理、编程题以及上下文理解等题目的得分率上,相较于 2023 年 5 月的测试结果,其得分率提升了 35.77%,这充分凸显出大模型在逻辑推理能力上的卓越表现。

(一)编程能力

在编程能力方面,大语言模型的表现更是令人瞩目。它不仅获得了所有题目的最高分,而且总得分率达到了 87%。这一成绩充分展示了大语言模型在编程领域的强大实力和巨大潜力,为未来更广泛的应用场景奠定了坚实基础。

通过调研 InfoQ 研究中心发现,开发者不但是第一批大语言模型的使用者, 良好的使用体验已经推动了 63.5% 的开发者已经开始付费试用产品。


(二)逻辑能力

逻辑推理能力,大语言模型的进步最快,平均得分为 51.92%,相比于上一次测试,提升幅度达到 49.45%。其中,商务制表和幽默题表现突出,得分超过 70%,中文特色推理、MBA 逻辑推理、数学计算和数学应用题细分领域存在较大提升空间,最低分仅为 44%,需要进一步加强训练和优化。



(三)上下文能力

在上下文推理方面,大语言模型的发展取得了显著进展。其平均得分率达到了 65.25%,相较于上一次测评,这一数字提高了 34.54%,进步之大可见一斑。特别值得一提的是,在连贯性测试中,大语言模型的表现尤为出色,得分超过了 80%,显示出其在这方面的强大实力。然而,我们也必须看到,在上下文推理方面,大语言模型仍有待进一步提升,需要继续努力以取得更好的成绩。

(四)翻译能力

在翻译能力方面,大语言模型展现出了优秀的性能。尤其在英文写作上,它获得了满分的佳绩。然而,相对而言,在英译汉题目上得分仅为 73%,大语言模型这方面能力还有待加强,需要进一步提升以更全面地发挥其翻译潜力。


(五)多模态能力

值得一提的是,多模态板块得分尽管当前平均得分率依旧不高,但与 2023 年 5 月的测试成绩相比,分数实现了 20 倍的显著增长。


文心一言专业版、讯飞星火、ChatGPT-4 等多项产品开始展现出强大的多模态能力,为大模型的发展开辟了更广阔的前景。


核心结论 3:基础能力普遍表现稳健,整体得分呈现高水平

(一)知识问答能力

大语言模型展现出了卓越的知识问答能力,其平均得分率高达近 84.68%。尤其在医学、地理和生活常识类题目中,成绩更是超过了 90%。然而,相对而言,在科学常识的细分领域,大语言模型还有待提升。


(二)文学写作能力

在文学写作领域,大语言模型在简单的中文写作和诗词创作方面表现突出,得分超过 85%。但随着写作难度的增加,其表现逐渐下滑,特别是在对联和富含中文特色的写作上显得力不从心。


(三)商业写作能力

在商业写作方面,大语言模型同样展现出了不俗的实力。在访谈提纲题目中更是获得了满分的好成绩,邮件写作题目的得分也超过了 90%。不过,在市场运营报告和市场分析报告等更为专业的领域,大语言模型仍显得较为生疏,存在较大的提升空间。


(四)词句理解能力

在词句理解方面,大语言模型的整体得分为 74.17%。在关键词提炼、语义相似判断和“怎么办”这三个题目分类中,大语言模型的表现呈现出较大的差异。其中,“怎么办”类题目获得了高达 94.5% 的得分率,关键字提炼能力则相对较弱,整体得分率仅为 51%。


核心结论 4: 头部企业呈现领先态势,文心一言得分率接近 ChatGPT

在 InfoQ 研究中心测评的十个模型中,ChatGPT-4 的综合能力位居第一,百度文心一言以 82.90% 的综合得分率位列榜单第二名。令人惊喜的是,文心一言的得分率与 ChatGPT 得分非常接近,仅仅相差 0.42%。

通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 以及豆包等八家模型在评测中均取得了不俗的成绩,得分率在 50%-70% 之间,展现了各自独特的优势和能力。然而,在众多国产大模型中,文心一言的综合表现尤为突出,不仅在中文语义理解、逻辑推理、代码编写、知识问答等基础能力上领先群雄,更在多模态处理等方面树立了国产大语言模型的新标杆。


核心结论 5:产品能力具有阶段性特征, 产品间仍然存在时间差

2023 年 6 月前发布的多数产品已至少完成两次更新,其中文心一言升级至 4.0 版本、讯飞星火升级至 3.0 版本、通义千问升级到 2.1 版本。这些产品的对话基础能力已相当成熟,并正逐步深化进阶功能。它们在产品逻辑、编程及上下文处理能力上,显著领先于 6 月以后发布的产品。

自 6 月以来发布的产品,例如豆包、百川智能等,多数仍处于首个版本阶段,产品多数拥有一项或两项突出的能力, 如常识对话(大部分产品)、视频脚本(豆包)、逻辑推理(百川智能和 Kimi Chat)等。但是从整体的综合能力考量,这些产品的综合能力相对较弱。

 2024 年大模型市场预测

(一)大模型产品有望诞生新的超级应用

一方面,中国的大模型产品在娱乐、教育等大用户基数领域具有广泛的应用场景,未来有望在全民 AI 浪潮的推动下,快速聚集超级量级的用户规模。另一方面,中国在软硬件结合领域,特别是在强大的手机制造业基础上,展现了其独特优势,这为中国在软件领域的进一步发展奠定了坚实基础。无论是由硬件厂商还是软件厂商主导,大模型产品的合作将在 2024 年成为行业内显著的发展趋势,这不仅预示着行业未来的发展方向,也将塑造行业的未来格局。

(二)企业级需求落地将成为重要的行业风向

InfoQ 研究中心基于深入研究预测,2024 年,企业级需求的实际落地将引领大语言模型发展的行业新趋势。金融、教育、医疗和能源等关键行业内的众多企业已开始深刻认识到大模型产品的巨大价值,并积极推动其应用,以提升员工的工作效能。随着企业数字化转型步伐的加快,大模型产品在企业级市场的应用前景愈发广阔。

展望 2024 年,大模型企业级市场有望进入一个高速发展的新阶段。统计数据显示,生成式 AI 的开发者们已在办公、工业制造、教育以及金融等多个领域积极开展研发工作。值得一提的是,在办公场景中,大模型的应用已经变得非常普遍,而在不久的将来,工业制造、教育、金融以及社交等更多场景也将迅速跟进,共同推动大模型行业的全面升级与快速发展。

 内容推荐

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。

关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。



今日荐文


炒到9万仍被开发者厌恶,苹果号称“下一代iPhone ”的Vision Pro还会被国内争相“借鉴”吗?


OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”


阿里员工抄袭YC初创公司并开源,老外:反正官司打不赢,不费那个劲了


国产GTPs上线!智谱AI推出GLM-4全家桶,我们浅试了一下


“AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!


工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃



你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
波士顿2024租房群来啦!信息共享、互助答疑,助你找到梦想家!藏有一个重洋 1“我们比云厂商做得好”!老师木新创业项目曝光:瞄准大模型成本问题,推理性能将得到数量级的提升清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!在美国想靠一份收入过退休生活?地产经纪帮你找到5城市专治冬季无聊综合症!多伦多户外滑冰场开放了:教你找到离家最近的冰场+免费租冰鞋屠光绍:美国股市搞了200多年,上市公司8000多家,我们搞了30多年,一下搞到5000多家,我们的退市步伐跟进的不够20万人次测试,它用30年探寻“聚糖衰老时钟”抗衰的可能性【衰老标志物检测】想靠一份收入过退休生活?地产经纪帮你找到5城市黄金涨至100年来新高,2024年还能涨20%?|聪明的钱破解大模型安全难题,360推出大模型安全能力框架30岁后才发现:把自己当孩子养,是一个人最聪明的活法58部按时间顺序整理的历史纪录片,比补课强100倍,一定要给孩子看(文末附观看链接)AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug2023感恩节下半场大模型元年,人类文明的操作系统正在大更新 | ifanRank娃哈哈重回神坛!宗馥莉,找到了最硬“后台”大胸显胖,小胸空杯?这款爆火的「豆乳内衣」,帮你一秒「换胸」北京获准的大模型占全国近半;OpenAI CEO筹建AI芯片公司;零一万物多模态语言模型上线丨AIGC大事日报张洁,读过点苹果也发布了自己的大模型,这是一件影响深远 的大事郑州父母卖车卖房带6岁儿子游学:为什么你听过很多道理,却依然教不好孩子?我们用3000多道测试题,帮你找到了最聪明的大模型30岁提前“垮脸”?有它在,帮你稳住年轻态劝你偷懒不做家务的理由,我又又又给你找到了【评论抽奖送取暖器!】《投行400问》全新升级!这道Technical面试题,99%的人答不出公寓内身亡!皇后区55岁女子脸上出现多道抓痕 遇害原因不明太烧脑!有史以来最疯狂的20道牛津剑桥面试题,来挑战思维极限!开源大模型火了!(附99个大模型微调模型/数据/工具)!人类考92分的题,GPT-4只能考15分:测试一升级,大模型全都现原形了文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市家居修理系列: 家用电器的修理(6)AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布长篇小说《谷雨立夏间》36 天下乌鸦全美都跟它拿货的LA宝藏卤味鸭货铺,帮你挖出来了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。