Redian新闻
>
Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

公众号新闻

随着 LLaMA,Mistral 等大模型的成功,各家大厂和初创公司都纷纷创建自己的大模型。但从头训练新的大模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。

为了整合不同来源、不同结构大模型的优势,减少重复预训练的昂贵开销,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于融合多个异构大模型。不同于以往的模型集成和权重合并,前者需要在推理时同时部署多个大模型,后者需要合并模型具备相同的结果,FuseLLM 从概率分布表征的角度来探讨大模型的融合,对于同样的输入文本,作者认为由不同模型生成的表征可以反映出它们在理解这些文本时的内在知识。因此,FuseLLM 首先利用多个源模型生成表征,将它们的集体知识和各自优势外化,然后将生成的多个表征取长补短进行融合,最后经过轻量级的持续训练迁移到一个目标模型。

为了实现 Chat 大模型的融合,团队提出 FuseChat 方案,其在 FuseLLM 的基础增强了可扩展性和灵活性。FuseChat 采用先融合后合并的策略,其首先对不同的源模型进行知识融合,得到具有相同结构和规模的多个目标模型,然后将这些目标模型的参数合并。这种先融合后合并的方式使得集成任意规模的新模型都是即插即用的。考虑到 Chat 大模型的频繁更新,FuseChat 在 Chat 大模型融合方面更具前景。

机器之心最新一期线上分享邀请到了 SOTA!模型社区 FuseLLM&FuseChat 项目主理人万凡琦,与大家分享使用 FuseChat 融合多个异构大模型的一手经验,并在直播期间在线对融合后的 FuseChat-7B-VaRM 和融合前的 NH2-Mixtral-8x7B、NH2-Solar-10.7B、OpenChat-3.5-7B 进行典型案例对比实测及技术分析,进行技术探讨。


分享主题:Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

环节1:FuseLLM&FuseChat技术方案分享

-异构大模型融合研究背景

-FuseLLM&FuseChat方法介绍

-实验结果分析

-手把手教你融合自己的 Base/Chat 大模型

环节2:实测分析 + QA 研讨

- 不同场景下与主流闭源/开源大模型性能对比

- 局限性&未来展望

分享嘉宾:万凡琦,FuseLLM&FuseChat 项目主理人;中山大学二年级硕士生,导师为权小军教授。其主要研究方向为自然语言处理与大语言模型,研究兴趣包含模型融合,幻觉缓解,指令微调。曾在 ICLR, ACL, EMNLP 等机器学习和自然语言处理顶级国际会议上以第一作者身份发表论文。

项目链接:

https://sota.jiqizhixin.com/project/fusellm

https://sota.jiqizhixin.com/project/fusechat

分享时间:3月27日19:00 - 20:00

直播间:关注机器之心机动组视频号,立即预约直播。

交流群:本次直播设有 QA 环节,欢迎加入活动群探讨交流。

扫码添加 SOTA!模型社区助手,回复关键词「特别活动」加入活动群
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报OpenAI大总管Brad Lightcap详谈如何拉客户,toC与toB的纠结,以及OpenAI的边界|现场实录倦侣18:流亡每周硅闻 | Meta净利$124亿;京东绷不住也下海;Dell、Supermicro紧急回应!苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?人生一世,如何求财不用再等 OpenAI ,全球首个 Open-Sora 全面开源!​美媒预测:这些大家喜欢的连锁超市商店将在2024年倒闭消失!Albertsons、Safeway、Family Dolla精选UX岗位丨PayPal、Johnson & Johnson、WellSky等公司开放岗位!IB、AP、A-level、SAT,到底哪个通过率最高?中国大模型融资暗战:罗曼蒂克的快速消亡英伟达 RTX 4080 SUPER GPU 跑分出炉:OpenCL 测试比非 SUPER 版高 7%浓人,nèng死淡人Out in the Cold: In Northeast China, a Season of Wild Extremes駐唱翁精选SDE岗位丨Western Digital、Motorola、Siemens等公司开放岗位!Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂Stability、Mistral、Databricks、通义、A21 Labs开源五连招,其中三个是MoE!|大模型一周大事光的心情现象腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生马伯庸新书,美食X权谋X悬疑,[hào]吃有多了不起?Colorado School of Mines 科罗拉多矿业大学 学术诚信政策及申诉指南传微软OpenAI领投人形机器人;OpenAI一键调用GPTs功能上线;年度大模型评测榜单公布丨AIGC大事日报美坛活动【Poem Reading Tuesday】Snow by Frederick SeidelSuperBench大模型综合能力评测报告南大周志华团队8年力作!「学件」系统解决机器学习复用难题,「模型融合」涌现科研新范式开源大模型火了!(附99个大模型微调模型/数据/工具)!hé bàng?hé bèng?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。