Redian新闻
>
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT

「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】用GPT-4辅助训练小模型,想会推理还得用「解释微调」。

自ChatGPT API开放后,大量的研究都选择利用ChatGPT和GPT-4等大型基础模型(LFM)的输出作为训练数据,然后通过模仿学习来提升小模型的能力。
 
但由于模仿信号流于表面、训练数据量不够大、缺乏严格的评估标准等问题,小模型的实际性能被高估了。
 
从效果上来看,小模型更倾向于模仿LFM的输出风格,而非推理过程。
 
论文链接:https://arxiv.org/pdf/2306.02707.pdf
 
为了应对这些挑战,微软最近发布了一篇长达51页论文,提出了一个130亿参数的Orca模型,可以学习模仿LFMs的推理过程。
 
研究人员为大模型设计了丰富的训练信号,使得Orca可以从GPT-4中学习到解释痕迹、逐步的思维过程、复杂的指令等,并由ChatGPT的教师协助指导;并通过采样和选择来挖掘大规模且多样化的模仿数据,可以进一步提升渐进式学习效果。
 
在实验评估中,Orca超过了其他SOTA指令微调模型,在BigBench Hard(BBH)等复杂的零样本推理基准中实现了比Vicuna-13B翻倍的性能表现,在AGIEval上也实现了42%的性能提升。
 
 
此外,Orca在BBH基准上还实现了与ChatGPT持平的性能,在SAT、LSAT、GRE和GMAT等专业和学术考试中只有4%的性能差距,并且都是在没有思维链的零样本设置下测量的。
 
 
研究结果表明,让模型从分步解释中学习,无论这些解释是由人类还是更高级的人工智能模型产生的,都是提高模型能力和技能的一个有前景的研究方向。
 

解释微调(Explanation Tuning)

 
数据集构造
 
在训练数据中,每个实例都包括三部分,即系统消息、用户查询和LFM回复。
 
系统消息(system message)放置在提示中开头的部分,提供给LFM基本的上下文、引导以及其他相关的细节。
 
系统消息可以用来改变回复的长度、描述AI助手的性格、建立可接受和不可接受的LFM行为,并确定AI模型的回复结构。
 
研究人员手工制作了16条系统信息来设计LFM不同类型的回复,可以生成创造性的内容以及解决信息查询问题,最重要的是能够根据提示生成解释和逐步推理的答案。
 
 
用户查询(user query)定义了希望LFM执行的实际任务。
 
为了获得大量的、多样化的用户查询,研究人员利用FLAN-v2集合,从中抽取500万个用户查询(FLAN-5M),并收集ChatGPT的回复;然后进一步从500万条指令中抽出100万条指令(FLAN-1M),收集GPT-4的回复。
 
FLAN-v2集合由五个子集合组成,即CoT、NiV2、T0、Flan 2021和Dialogue,其中每个子集包含多个任务,每个任务都是一个查询的集合。
 
每个子集合都与多个学术数据集相关,并且每个数据集都有一个或多个任务,主要关注零样本和少样本的查询。
 
在这项工作中,研究人员只取样训练Orca的零样本查询,并且没有从Dialogue子集中取样,因为这些查询往往缺乏背景,无法从ChatGPT中获得有用的回复。
 
让ChatGPT扮演Teaching Assistant
 
首先在FLAN-5M数据上训练Orca(ChatGPT增强),随后在FLAN-1M上进行第二阶段的训练(GPT-4增强)。
 
将ChatGPT作为中间的教师助手主要有两个原因:
 
1. 能力差距
 
虽然GPT-4的参数量没有公开,但130亿参数的Orca肯定比GPT-4要小很多倍,而ChatGPT和Orca之间的能力差距更小,更适合作为中间教师,并且这种方式已经被证明可以提高更小的学生模型在知识蒸馏中的模仿学习性能。
 
这种方式也可以看作是一种渐进式学习或课程学习,学生首先从较容易的例子中学习,然后再学习较难的例子,假定了较长的回复会比较短的回复更难模仿,可以从更大规模的教师模型中改进推理和逐步解释能力。
 
2. 成本和时间
 
从Azure OpenAI API进行大规模数据收集时会受到一些限制,包括每分钟请求的速率限制,防止流量过大;由于服务延迟问题,每分钟可用的token数量有限;提示长度和token补全的金钱成本。
 
 
相比之下,ChatGPT API比GPT-4终端更快、更便宜,所以从ChatGPT上收集了比GPT-4多5倍的数据。
 
 
从ChatGPT和GPT-4对应于不同系统消息的回复长度分布中可以观察到,GPT-4的回复平均比ChatGPT长1.5倍,使得Orca能够逐步从教师解释的复杂性中学习,并通过消融实验证明了教师帮助的影响。
 
训练
 
在分词阶段,研究人员利用LLaMA的字节对编码(BPE)分词器来处理输入的样本,其中多位数字会被分割成多个单数字,并回落到字节来分解未知的UTF-8字符。
 
为了处理可变长度的序列,在LLaMA分词器的词汇表中引入了一个填充词[[PAD]],最终的词汇表包含32001个token
 
为了优化训练过程并有效利用可用的计算资源,研究人员利用了packing技术,将多个输入实例串联成一个序列后再训练模型。
 
在packing的过程中,串联序列的总长度不超过max_len=2048 tokens,对输入的样本进行随机打乱后将分成几组,每组串联序列的长度最多为max_len
 
考虑到训练数据中增强指令的长度分布,每个序列的打包系数为2.7
 
为了训练Orca,研究人员选择只计算教师模型生成token的损失,也就是说学习生成以系统信息和任务指令为条件的回复,可以确保模型专注于从最相关和最有信息的token中学习,提高了训练过程的整体效率和效果。
 
最后在20个装有80GB内存的NVIDIA A100 GPU上训练Orca,先在FLAN-5M(ChatGPT增强)上训练4个epoch,花了160个小时;然后在FLAN-1M(GPT-4增强)上继续训练4个epoch
 
由于流量限制、终端负载以及回复的长度问题,从GPT-3.5-turbo(ChatGPT)和GPT-4的多个终端收集数据分别用了2周和3周的时间。
 

实验部分

 
研究人员主要验证了Orca在推理上的能力。
 
 
在AGIEval的实验中可以看到,Orca的表现与Text-da-Vinci-003相当,并实现了ChatGPT 88%的性能表现,不过明显落后于GPT-4
 
对于分析和推理任务,Vicuna的表现明显更差,只保留了62%的ChatGPT质量,表明这种开源语言模型的推理能力很差。
 
虽然Orca与Text-da-Vinci-003的表现相当,但仍然比ChatGPT低5分,Orca在与数学有关的任务(在SAT、GRE、GMAT中)上与ChatGPT表现出较大的差距。
 
与Vicuna相比,Orca显示出更强的性能,在每个类别上都超过了Vicuna,平均有42%的相对提高。
 
GPT-4的性能远远超过了所有其他模型,但在这个基准中仍有很大的提升空间,目前所有模型的性能都明显低于人类的得分。
 
 
Orca的性能根据系统信息的类型有很大的不同,对于训练的模型来说,空的系统消息往往效果很好。
 
 
Orca在不同任务的325个样本中超越了ChatGPT(Orca-beats-ChatGPT例子),其中大部分来自LogiQA(29%),而其他LSAT任务和SAT-英语任务各占不到10%
 
在Big-Bench Hard Results数据集上的推理评估结果显示,Orca在所有任务中的综合表现上略好于ChatGPT,但明显落后于GPT-4;比Vicuna性能高出113%
参考资料:
https://arxiv.org/abs/2306.02707




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品阿里50亿参数的AI画画模型火了,可再厉害的人工智能也无法模仿孩子的画苹果MR头显平价版或2025推出/莫言用ChatGPT给余华写颁奖词/GPT-4或具备人类推理能力清华第二代60亿参数ChatGLM2开源!中文榜居首,碾压GPT-4,推理提速42%《时光倒流七十年》&《最长的旅途》越千宠百爱,越悲观安卓手机上跑15亿参数大模型,12秒不到就推理完了GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升复旦新作:单机微调650亿参数大模型;蚂蚁、百度参投AI大模型创企;杭州检方对AI换脸案提起公诉丨AIGC大事日报参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数重回图书馆650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了OpenAI放大!将推出史上最强「模型商店」,打通所有ChatGPT应用参数是 ChatGPT 的近 6 倍!英特尔公布 AI 大模型 Aurora genAI,具备 1 万亿参数2023回国 宴会请客1500元的限制行得通吗?(图)OpenAI放大,将推出史上最强「模型商店」,打通所有ChatGPT应用国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!ChatGPT重大更新!prompt推荐瞬间解释超导,GPT-4成默认模型LLM+模仿学习,解决真实世界中的复杂任务:AI2提出SwiftSage十亿参数,一键瘦身!「模型减重」神器让大模型狂掉 3/4GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报巴黎市长将重修Châtelet 广场以方便行人为了测试ChatGPT的推理能力,哥本哈根大学甚至用上了宝可梦十亿参数,一键瘦身!「模型减重」神器增强型 SmoothQuant,让大模型狂掉 3/4UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑5050 血壮山河之武汉会战 鏖战幕府山 19结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力【城事】巴黎市长将重修Châtelet 广场以方便行人英特尔公布1万亿参数AI模型,比ChatGPT大570%OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。