Redian新闻
>
小模型怎么扩大参数?SOLAR: “自我嫁接”就行!

小模型怎么扩大参数?SOLAR: “自我嫁接”就行!

公众号新闻

作者:张俊林,新浪微博新技术研发负责人

编辑:青稞AI

SOLAR 这种“模型嫁接”很有意思! 

最近的Huggingface LLM榜单都快被SOLAR这种“嫁接模型”刷烂了,Top 10模型都是10.7B,很明显是SOLAR的魔改版。

SOLAR是模型嫁接的代表,主要利用Mistral 7B来进行自我嫁接,目前榜单上的嫁接模型应该都是用同一个模型自我嫁接的,这个方向挺有意思的,应该还可以做很多更有趣的事情,比如用不同预训练模型嫁接到一起,会是什么效果?我对这个答案很感兴趣。 

现在面临的问题是:我们已经有较小且强的基座模型比如Mistral 7B,现在希望把它参数稍微扩大一点,以进一步提升模型能力,该怎么做?

SOLAR 就是干这个的,问题是个好问题,SOLAR给自己的做法起了个很玄乎的名字,“Depth Up-Scaling”,其实做法很简单,就类似植物嫁接:训练好的Mistral 7B模型Transformer结构有32层,把Mistral的32层从第24层掰成两段(底层24层,高层8层),之后高层那段的8层上移,中间留出16层的参数空间,接下来把Mistral的第9层到25层这16层插入中间,通过这种嫁接形成48层的SOLAR模型,参数规模由Mistral 7B拓展到了10.7B(图2)。因为嫁接过程都是用的Mistral,所以是自我嫁接。 

嫁接完之后效果如何?比Mistral差,这个很正常,因为嫁接的两个部分参数还没有融合成为一个整体,第25层附近是个断层。于是用了3Trillion[注1]的数据进行“继续预训练”,这步应该主要是对嫁接模型参数进行融合的(不过貌似用的数据量有点大,很多人有这个数据量和算力,都能自己from scratch训一个新模型了),形成了SOLAR-base基座模型。盲猜经过继续预训练后,掰断处25层和41层附近层的中间层模型参数变化是最大的,底层和最上层可能变化不大。 

在继续预训练之后,又引入两个阶段:

一个是instruct tuning,这个环节采用开源instruct数据并改造出一个数学专用instruct数据,以增强模型的数学能力,这个环节对应常规的SFT阶段;

另一个是alignment tuning,也是开源+数学增强数据,采取DPO,这个环节对应传统的RLHF阶段。这样形成了SOLAR-chat版本。 

从实验对比看,可以得到如下结论: 

1、SOLAR-base基座模型和Mistral 7B 基座模型相比,6项测试任务中,只有数学测试GSM8K有大幅度提高(+18分),另外一个任务增加5分,其它四个任务增长都不太大(<3分),这些增长应该来自3T数据的继续预训练,数学能力增长巨大很可能在训练数据里增加了不少数学相关内容,但考虑到模型规模从7B增长到接近11B,数据量也比较大,其实这个指标增长一般般。 

2、SOLAR-chat模型相对SOLAR基座模型测试效果有大幅提升(6项任务平均分+8分多),这说明大模型Post-training阶段是可以注入新知识的(之前也有不少研究可以证实这一点)。尤其夸张的是TruthfulQA,经过SFT和DPO后,单项任务增加了超过26分,单单这一项任务就把榜单平均分提高了接近5分,这说明如果想要刷榜,用少量Instruct数据就够了,成本并不高(不是说SOLAR刷榜,是说刷榜应该比较容易)。 

3、SOLAR-base基座模型比其它基座模型(LLAMA2-70B/Yi-34B/Mixtra 8*7B)效果是不如的(SOLAR模型规模最小,所以不如也正常),但是也比较接近差不太多(平均分差1到4分之间),但是此类模型能够霸榜Huggingface,应该主要靠的是Post-Training阶段的数据质量好(OpenOrca/DeepFeedback/Alpaca-GPT4,都是最好的instruct数据)。这说明想要榜单排名好,高质Instruct数据少不了。只要找个最强的底座,你也可以作出最强模型,因为instruct成本并不太高。 

总而言之,SOLAR这种,找个最强基座,通过自我嫁接模型还是有效的,当然建立真正的优势还是在Post Training阶段。不过,我觉得追求更好的嫁接方法、甚至是不同模型的相互嫁接,是个很有意思的方向。 

注1:https://en.upstage.ai/newsroom/solar10b-huggingface-no1

这个PR稿早期版本说了继续预训练用了3Trillion的数据,不过现在的版本已经把这句话删掉了,从这个删除操作看,貌似透漏出了一些信息。



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
火遍全网的军大衣,“链接”来了!头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像这么高级的立体PPT图表肯定很难吧?别怕,有手就行!当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小聊一聊:除了价格,你挑手机最关注啥参数?好多医生正在“从中国内地直接”申请美国绿卡!HS获批率近100%,是怎么做到的?打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了大家装 solar panel 的多么?申请美国夏校要什么材料?体验型、课程型、研讨型怎么选?大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」龙宝宝备孕指南请收好,照着「做」就行!小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器聚焦巴蜀 || 2024年清华大学计算机系“大中衔接”研讨与教学活动在巴蜀中学圆满举行!Llama 3被爆7月解禁剑指GPT-4,最大参数超1400亿!2名核心团队成员却离职AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug鲍威尔告诫市场:将“好消息”视为“好消息”就行!720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源谎言AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布《幺妹和市场街》(3)人为何会反反复复过敏?Science Immunology 揭示过敏的具体发病机制民國50年駐台美軍拍攝高雄街景的彩照少样本轻量化:多个小模型互学习会比大模型好么?小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器一路走来(四十)网曝“快乐8”主持人提前播报中奖球号,福彩中心:视频系拼凑嫁接剪辑而成一头虎鲸多次撞击饲养池壁,疑似“自我伤害”!园方回应纯爱小说﹕ 风云赋 (53) 门当户对今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损COMSOL 全新发布COMSOL Multiphysics® 6.2 版本
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。