Redian新闻
>
数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品

数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

AI生成的指令微调羊驼大模型,数学能力超ChatGPT——

微软最新开源大模型WizardMath来了。

如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型——

并且是在参数只有700亿,远不及后三者的情况之下。

HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。

比如解决下面这道四次多项式方程:

或者是一道简单的微积分:

亦或者是稍微修改过的拉格朗日方程推导:

它都全部正确(过程也不需要等太久)

有网友向作者表示:

效果真的很惊人,感谢你们对开源LLM的贡献。

目前,相关代码、复现方式以及论文也都开源或上线,GitHub短短几天已揽获4.8k标星

那么,WizardMath究竟是如何做到的?

用AI生成的指令增强大模型能力

OpenAI的大模型(InstructGPT、GPT-4等)能够取得巨大成功、去执行各种复杂和多样化的任务,一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。

然而,不是谁都能像这家公司一样获得这样的指令数据集。

一是因为整个注释过程极其昂贵且耗时,二是人工难以创建出足够比例的高难度指令。

因此,开发出一种成本相对较低的、大规模开放域指令自动生产方法,成为当下指令调优语言模型的关键。

在此,作者将他们的方法命名为Evol Instruction

它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。

具体而言,Evol Instruction分为指令进化器和指令消除器

其中指令进化器可通过深度进化(蓝线)或广度进化(红线)两种路径,将简单指令升级为更复杂的指令或创建一条全新指令。

具体执行哪一条?随机选择就好。

其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:

添加约束(add constraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increase reasoning steps)和使输入复杂化(complicate input)

由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。

以下是一个具体示例,该方法从“1+1=?”开始,最终通过以上步骤自动生成了相当多的新指令。

通过重复这一生成过程,最终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。

在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,最终获得25万条指令。

为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA 7B模型,最终得到WizardLM,结果WizardLM的性能明显优于Vicuna。

(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)

此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。

基于此,作者又利用Evol Instruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath

其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM 2之后。

以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)

团队介绍

本文共9位作者,全华人。

一作有3位:

Can Xu,微软亚洲互联网工程院S+D NLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;

Qingfeng Sun, Microsoft Research科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为Microsoft Bing和Office 365贡献了核心深度模型;

Kai Zheng,Microsoft Research科学家,研究方向为自然语言处理、搜索和推荐排名,同样为Microsoft Bing和Office 365贡献了核心深度模型。


通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业

另还有一位作者Jiazhan Feng,是北大学生,这篇合著论文是TA在微软实习时产出的。

项目主页: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

论文地址:
https://arxiv.org/abs/2304.12244(WizardLM)
https://arxiv.org/abs/2306.08568(WizardCoder)

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
5093 血壮山河之武汉会战 浴血田家镇 1百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光开源大模型FLM-101B:训练成本最低的超100B参数大模型国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE据称百度文心大模型内测多项得分超ChatGPT;OpenAI等将向英国政府开放模型 | 环球科学要闻史上最可怕白毛风 冷明俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPTGPT-3.5 Turbo支持微调了,打造专属ChatGPT,但价格小贵千奇百怪的日本(姓)氏名(前)医疗大模型火了!谷歌、微软全All in微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开微软全球资深副总裁侯阳:ChatGPT一夜爆红绝非偶然身首异处1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报0代码微调大模型火了,只需5步,成本低至150块浙江大学发布开源大模型知识编辑工具EasyEdit,效果超越传统微调方法微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型爆火「视频版ControlNet」开源了!靠提示词精准换画风,全华人团队出品20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT苹果市值数秒暴涨600亿美元!秘密开发大模型Apple GPT,员工自曝:复制的ChatGPT!AI界迎来「赶超ChatGPT」大战,看这24个免费国产大模型谁能笑到最后!国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差GPT-4被骗进「盗梦空间」!IBM发现ChatGPT极易受骗,微软发起红队攻击数学能力超过ChatGPT!上海交大计算大模型登开源榜首全球首个可商用生物医药大模型BioMedGPT-10B开源首批AI大模型获批上线,BATH在列;华为Mate 60开售即火,接入盘古大模型;AI操控无人机能力超越人类冠军丨AI周报20B跨级挑战70B性能!国产开源大模型打造大模型新标杆缴费5天用户破亿,Threads增速超ChatGPT,其它APP破亿用了多久?波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。