Redian新闻
>
数学能力超过ChatGPT!上海交大计算大模型登开源榜首

数学能力超过ChatGPT!上海交大计算大模型登开源榜首

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

国产数学大模型,能力已经超过了ChatGPT!

最新榜单中,上海交大GAIR实验室出品的Abel专有大模型:

准确率高达83.6%,在开源模型中位列第一

团队介绍,该模型是用挪威数学家尼尔斯·阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。

在GSM8k数据集上,70B参数量的Abel碾压所有开源模型,还超过了ChatGPT。

甚至在新数据集TALSCQ-EN上,Abel的表现比GPT-4还要强。

而实现这样效果的Abel,成分可以说是十分“单纯”:

  • 没有使用工具

  • 没有使用数学领域的大规模预训练数据

  • 没有使用奖励模型

  • 没有使用RLHF

  • 仅使用有监督精调(Supervised Fine-tuning,SFT)

那么Abel的效果究竟怎么样呢?

成绩超越开源模型SOTA

这里我们选择同样是开源的Llama-2来和Abel对比。

首先来看下这个鸡兔同笼问题的变体:

Brown由牛和鸡一共60只,鸡的数量是牛的两倍,一共有多少条腿?

这道题Llama-2出师不利,而且不是计算错误,是逻辑上就有问题:

Abel则成功地解决了这个问题。

再来看下一个问题:

12,21,6,11和30的中位数与平均数的和是多少?

两个模型都正确理解了所涉及的概念,但Llama还是在计算和排序上出了错。

而Abel依旧是正确地做出了这道题:

再从测试数据上看看Abel的表现。

首先是OpenAI提出的GSM8k数据集(大概是美国高中难度),这份榜单的前十名,Abel占了三个(不同参数规模)。

开源模型当中,70B规模的Abel打败了曾经的SOTA——WizardMath。

如果把商业闭源模型算进来,Abel也仅次于GPT-4、Claude-2和PaLM-2-Flan这些最著名的模型。

甚至ChatGPT也不是Abel的对手。

地球代表开源模型,锁代表闭源模型

在难度更高的MATH(竞赛题目)数据集中,开源模型的前三名被三个规模的Abel包揽,加上闭源也仅次于Google和OpenAI的产品。

研究团队还使用了新数据集TALSCQ-EN对Abel进行测试,结果超过了GPT-4

那么,研究团队是怎么调教出这样一款高性能模型的呢?

“保姆级”微调训练策略

核心奥义就是高质量的训练数据。

Abel使用数据是经过精心策划的,不仅包含问题的答案,还要能告诉模型找到正确答案是的方法。

为此,研究团队提出了一种叫做家长监督(Parental Oversight)的“保姆级”微调训练策略。

在家长监督的原则之下,团队仅通过SFT方式就完成了Abel的训练。

为了评价Abel的鲁棒性,研究团队还用GPT4对GSM8k中的数字进行了修改,测试Abel是否依然能解出正确的答案。

结果显示,在调整版GSM8k数据集下,70B参数的Abel鲁棒性超过了同等规模的WizardMath。

在Abel的介绍的最后,研究团队还留下了一个彩蛋:

Abel的下一代,将进化成为Bernoulli(伯努利)

不过团队并没有对其中的含义进行说明,我们不妨期待一番。

团队简介

Abel由上海交通大学GAIR(生成式人工智能研究组)团队打造。

该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。

该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。

对这个数学模型感兴趣的读者,可以到GitHub页面详细了解。

GitHub页面:
https://github.com/GAIR-NLP/abel

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名  

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
吹尽黄沙不见金(六十一): 胡姬代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞大模型和ChatGPT对计算机视觉的影响 | RACV 2023 观点集锦武汉AI方案出台六大计划;360讯飞WPS大模型面向全民开放;阿里云发布开源LLM开发框架俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPT危险的信号上海交大发布大模型双语编程评估基准CodeApex,机器真的开始挑战人类写代码了吗?首批AI大模型获批上线,BATH在列;华为Mate 60开售即火,接入盘古大模型;AI操控无人机能力超越人类冠军丨AI周报英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品特斯拉在德州总部布局超算Dojo;AMD收购AI软件公司Nod.ai;百度文心生物计算大模型登Nature子刊丨AIGC大事日报打工人干不过ChatGPT?为啥不让它帮你卷!广义相对论的主要危害,是拔苗助长,导致物理至今奄奄一息微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开Adobe推出三个新的生成式AI模型;AMD收购AI软件公司Nod.ai;百度文心生物计算大模型登Nature子刊丨AIGC日报电影欣赏(3)奥本哈默-我们能学到什么?AI大模型背后的惊人数字:问ChatGPT 5个问题,耗水500毫升?训练一次GPT-3,碳排放量相当于开车往返月球?北京内推 | 微软研究院科学智能中心招聘生物计算大模型实习生ChatGPT代码生成飙升10%!北大华人一作:细化prompt,大幅改进大模型代码能力谷歌助手团队约20名数据科学家被裁;研究称ChatGPT几乎无法通过CFA一二级考试丨AIGC日报对私改造“,错!错!错!上海交大梁晓峣:疯狂的大模型时代,开源GPGPU平台为国产AI芯片企业谋出路丨GACS 2023早财经丨乌军无人舰艇袭击,重伤俄大型登陆舰;华为发布鸿蒙4操作系统,接入AI大模型能力;蔚来手机已在工信部完成入网清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架北交大开源交通大模型TransGPT·致远,可免费商用DeepMind大模型登Science:1分钟预测10天天气数据,90%指标超越人类最强模型UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报从ChatGPT等大模型的兴起,看未来计算芯片的发展趋势用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。