Redian新闻
>
11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023

11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】11个LLM臭皮匠,能不能比得上GPT-4?


随着Alpaca, Vicuna, Baize, Koala等诸多大型语言模型的问世,研究人员发现虽然一些模型比如Vicuna的整体的平均表现最优,但是针对每个单独的输入,其最优模型的分布实际上是非常分散的,比如最好的Vicuna也只在20%的任务里比其他模型有优势。


有没有可能通过集成学习来综合诸多开源的「弱」LLM的能力,来使得他们整体成为一个「强」LLM呢?


AI2,USC,和浙大的研究员由此提出了一个集成学习框架,LLM-Blender,它通过排序和融合来对各个LLM的输出进行集成,从而达到了较为稳定的提升。


论文链接:https://arxiv.org/abs/2306.02561

代码链接:https://github.com/yuchenlin/LLM-Blender


对于同一条指令来自不同LLMs的回答,LLM-Blender框架可以有效选择出其中质量更高的回答,再基于这些回答融合生成一个新的质量更高的回答。



为了促进集成学习在LLM社区的发展和测试LLM-Blender的能力,论文作者们构建了一个新的指令数据集MixInstrcut。


数据采样于Aplapa-GPT-4, Laion, ShareGPT等流行的指令数据集。对于每个指令,MixInstruct还包括了11个包括Vicuna, Baize, Open Asssistant等当前流行的开源大型语言模型的回答。


论文的进行了一系列实验评估了不同LLMs在MixInstruct数据集上的差异性,并测试了LLM-Blender在集成多个LLMs回答的能力。


实验证明了LLM-Blender集成得到的回答在所有LLM回答中平均排名为3.01,其中68.59%都排名在前三,这远超平均排名最好为3.90的单个模型Open Assistant,以及Vicuna(只有有52.88%的回答被排到前三)。


主要贡献


1. 提出了一个新的针对大型语言模型的集成学习框架LLM-Blender,用于对多个LLMs的回答进行排序与融合。LLM-Blender由两个简单有效的模块PairRanker与GenFuser组成。


2. 一个新的指令数据集MixInstruct。其中的每一条指令都包含了来自Vicuna等数十个当前流行的开源LLMs的回答,用来训练与评估集成学习框架LLM-Blender。


3. 首次证明了集成学习在LLM社区的显著效果与其应用价值。


4. 开源LLM-Blender工具包,方便LLM社区研究人员使用与进一步研究。


大型语言模型的集成学习


LLM-Blender: 排序+融合


LLM-Blender主要包含两个模块,PairRanker和GenFuser,分别对应框架运行的两个阶段:排序(Rank)与融合(Fuse)。


在排序阶段,论文首先通过PairRanker对不同的LLMs回答进行成对比较,得到这些回答的排名。


在融合阶段,论文选择其中的排名中的前k(如k=3)个回答,将其于原指令一起打包送到GenFuser模块作为输入,再重新生成一个融合回答。



对于第一个模块PairRanker,论文认为基于双向注意力的成对比较在候选回答较为相似的情况下十分重要。


以往的排序模型均采用将源文本和单个候选序列连接编码,并在推导时直接输出一个绝对分数作为对候选序列排序的依据。


而LLM-Blender的第一个模块PairRanker将源文本与一组(两个)候选序列同时连接进行编码,利用双向注意力来提高排序模型的表现,作者认为这种方法可以更好的捕捉不同候选回答之间的微小差异,从而提高比较的正确率。



此外,与传统的成对排序方法仅仅在训练过程中采用成对比较的损失函数不同的是,PairRanker在推导过程中同样采用成对比较。


论文提出了三种简单的聚合方法,MaxLogits, MaxWins, 与Bubble Sort来完成从比较矩阵到单个候选序列分数的计算,这三种方法在后续实验中均被证明有效。其中MaxLogits效果最好。



与现有的部分文本融合方法不同,GenFuser并未直接将所有候选序列(即数十个LLMs的回答)作为一起送入这一模块,而是在PairRanker的排序结果上选择最好的前k个,与源文本一起送入GenFuser进行融合。


这是因为论文认为部分未经筛选的低质量的候选序列可能会影响GenFuser模块的融合质量。


MixInstruct: 新的LLMs集成学习基准


为了更好地评估LLM-Blender地能力,论文构建了MixInstruct数据集。指令来源包括Alpaca-GPT4 等四种流行的大型指令数据集,标准回答来源于GPT-4, ChatGPT和人类标注。


其中每一条指令都包含Vicuna等数十个当前流行的大型语言模型的回答。



论文还使用ChatGPT对在测试集(5K)这些回答进行成对比较,并统计每个回答在比较中获胜的次数,将不同LLMs获胜次数排名第一的比例在图中进行了总结。可以明显看到不同LLM回答的质量各有千秋,并非一家独大。


此结果证明了不同LLMs之间能力的多样性,而这也正是集成学习框架LLM-Blender能够成功的原因之一。


实验


实验设置


论文实验中,LLM-Blender的两个模块PairRanker与GenFuser分别采用Deberta-v3-Large(400m)和Flan-T5-XL(3b)作为各自的骨架模型(backbone)。两个模型均在MixInstruct大小为100k的训练集上进行训练(更多细节见论文)。


为了更好地评估不同各种生成模型在MixInstruct上的能力,论文不仅采用了一些传统自动度量指标BERTScore, BLEURT和BARTScore, 并将ChatGPT的比较结果按照比较中获胜的次数归并为整体排名值(GPT-Rank)。


由于Vicuna与Open Assistant在LLM社区的显著表现,论文还特别将所有模型的结果与这两个模型进行了比较,给出了对应的获胜比例。此外,实验还统计了不同模型在与其他所有模型比较的过程中被排名为前3的比例(Top-3)。


LLMs:各有千秋


在这些模型中,Open Assistant、Vicuna和Alpaca是表现最好的三个模型,继它们之后,Baize、Moss和ChatGLM也在MixInstruction上表现出色。


而Mosaic MPT、StableLM和Flan-T5在评估中排名较为靠后。尽管如此,他们的GPT-Rank也并非一个接近最低排名(11)的数字,再次说明每个LLM的回答都有他们自己的优势。


此外,同样可以注意的是,尽管Open Assistant和Vicuna综合表现最为出色,在其他模型与这两个模型的比较中,仍旧有部分比例的回答被认为要优于他们。


Rankers:PairRanker优势明显


而在诸多排序模型的比较中,PairRanker作为成对比较的排序模型,表现明显要优于SummaReranker和SimCLS等非成对比较的模型。


尤其在GPT-Rank,BARTScore,BLEURT和Top-3的比例上,PairRanker取得了所有排序模型中最好的效果,并且要优于任意一个LLM。


除了对排序模型得到的Top-1选择进行分析外,论文还对排序模型的整体排序质量通过Pearson相关系数,Spearman相关系数和Searman’s Footrule距离进行了评估。


正如表中所示,在所有的自动度量指标的排序中,BartScore的排序结果与GPT-Rank相关性最高。而PairRanker的排序结果在所有排序模型中取得的相关性最高,甚至超过BARTScore。


GenFuser进一步提高PairRanker效果


论文最后比较了整个LLM-Blender框架生成的回答的质量。LLM-Blender将PairRanker排序得到的前3个回答送入到GenFuser中进行融合生成。


最终发现,融合生成的回答不仅在三个自动度量指标BARTScore等上取得了巨大的提升,还在GPT-Rank和Top-3比例上取得了最佳的结果,LLM-Blender在实验的评估中展现了预期中的卓越性能。


结语


LLM-Blender是一个简单的集成学习框架,适用于任何LLMs和任务。它通过学习通过成对比较的方式来排序每个回答的质量,再通过融合生成的方式来决定最后的输出。在MixInstruct的测试集上取得了最优的效果。


作者简介



Dongfu Jiang 姜东甫, 本科毕业于浙江大学[1] 计算机学院,南加州大学INK Research Lab科研实习生,将前往加拿大滑铁卢大学攻读计算机科学博士学位。他在本科期间曾获国家奖学金等荣誉。



Xiang Ren 任翔(USC)南加州大学副教授,领导INK Research Lab。曾获得Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,Facebook Sponsored Research Award, 2021,NSF CAREER Award, 2021等荣誉。



Yuchen Lin 林禹臣(AI2)现任Allen Institute for AI(AI2)研究员。他本科毕业于上海交通大学IEEE试点班(2018),博士毕业于USC南加州大学 (2022)。曾获得WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次担任NLP和ML领域顶级会议审稿人,Area Chair (ACL2023; EMNLP 2023),多次参与组织workshop和tutorials。他目前的研究兴趣在将大语言模型的分析和增强,以及如何利用常识知识构建通用的智能体。


参考资料:
https://github.com/yuchenlin/LLM-Blender




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023 樱花之约(三):唯美京都Met Gala 2023 红毯造型来啦!(更新到安妮海瑟薇、维拉·王、Gigi、刘思慕啦)XR泡沫和趋势:从多边形游戏到现实融合|此话当真 EP08增强版开源Llama2 终可商用;5G消息真的要来了,工信部最新通知;微软英伟达市值一夜飙升1750亿美元 | AIoT情报12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统更强大、更全面的高性能任务调度框架:Openjob 重磅来袭!锦瑟Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比🥰2023国际棋联国际象棋世界冠军赛(World Chess Championship 2023)🥰GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增CodeGeeX2-6B开源,最低6GB显存,性能优于 StarCoder​ICML 2023 | 可证明的动态多模态融合框架:一个简单而有用的理论GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023Mass shootings in the U.S. 1982《月光如水》&《种花闲》Vite 4.3正式发布,性能提升,为应对Rust写的Turbopack?拾象硅谷见闻系列:打破围绕开源LLM的6大迷思博采众长!我全都要!Allen AI推出集成主流大语言模型的LLM-BLENDER框架AI帮助人类打破十年算法瓶颈:谷歌 DeepMind 发现更快排序算法,已集成到C++库Redis主从、哨兵、 Cluster集群一锅端!可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练七绝 翻看老照片可商用多语言聊天LLM开源,性能直逼GPT-4Chinese Climbers Scale Everest, Tragedy and Daring Rescue Ensue2023 USAMO Awardees 名单《雾》及点评——by 梅雨叮!你的提现已到账!Ehomie小程序再升级!转发就能拿奖励!LLM 全景图 (The Landscape of LLM)不用LLM,遗传编程可控Python代码!谷歌DeepMind等提出全新ARZ框架|IROS 2023ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?清华提出开源工具学习框架,接入真实世界 16000+API, 效果达 ChatGPT懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架中文版开源Llama 2同时有了语言、多模态大模型,完全可商用斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二As Live Music Booms, Disabled Fans Call for More Inclusion心情就像风一样自由---我们不需要枚举在Graphcore IPU上高效部署Meta开源Llama 2
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。