Redian新闻
>
大模型搅拌机来了!把11个AI的结果融合输出,艾伦研究所华人团队出品

大模型搅拌机来了!把11个AI的结果融合输出,艾伦研究所华人团队出品

公众号新闻
尚恩 发自 凹非寺
量子位 | 公众号 QbitAI

大模型这么多,到底该用哪一个?并且生成结果时好时坏,怎么破。

现在有一种方法,一招整合各家LLM特长,性能值拉满!让你不做选择全都拿捏。

现在通过LLM-Blender大模型集成框架,你输入问题,自动帮你排序各家LLM结果,然后“融合生成”最佳答案。

就像一个水果榨汁机,各个开源LLM代表不同水果,一箩筐放进去,根据不同水果特点,调配比例榨出好喝的果汁。

这个方法不仅可以有效减轻单一LLM中偏见错误和不确定性信息,且输出结果比“单用效果最好的LLM”还要高不少。

对此网友惊呼:简直太赞了!

博采众长,一个大模型搅拌机

现在开源大模型这么多,说到性能也是千差万别。通常我们都会直接选择最好的模型,来Prompt结果。

然鹅,这种方法也有一些限制。比如我们无法考虑所有可能的模型输出,并且新的数据可能导致我们选择不同的最佳结果。

现在的方法,要么是直接通过打分对比输出答案,要么也会对不同LLM答案进行融合,但整个过程仍会保留有害、或不正确的信息,输出结果相应也会大打折扣。

因此,为了解决这个问题和提高LLM的鲁棒性、泛化和准确性,Allen AI实验室联合南加大和浙江大学的发表最新研究论文。

论文提出一个用集成框架“LLM-Blender”,集合多个开源大模型(LLM)的优势,通过排序和融合生成两种方式,比较不同LLM生成结果,然后融合择优输出。

LLM-Blender主要包含两个模块“PairRanker”和“GenFuser”。

PairRanker模块是一个BERT结构的编码器,通过双向注意机制捕捉输出结果之间的细微差异,然后对候选输出进行排名。

PairRanker的运行流程是这样的。

首先,它会收集N个模型对每个输入的输出,并创建所有可能的输出对。

然后,使用特殊的编码器来比较这些输出对,以确定哪个候选输出更好,捕捉到微小的差异。

在推理阶段,计算一个矩阵,其中包含了所有输出对的比较结果。再根据矩阵确定给定输入的所有输出排名顺序。

最后,选择每个输入中排名最高的候选输出作为最终结果。

GenFuser模块则是一个基于Transformer的编码器-解码器结构,使用单个编码器对输入文本和一些候选者进行编码,然后使用单个解码器解码融合的输出。

值得注意的是,它只将排名靠前的输出结果放入编码器,这样既避免了“噪音”感染,还能提升输出结果质量。

总结一下,LLM-Blender的运转流程:

PairRanker比较N个LLM的输出,然后通过GenFuser将它们融合,从排名前N的输出中生成最佳结果。

按照论文解释,通过这个运作流程,就能有效筛选并集合生成优质答案。

那么到底效果如何,下面是团队的评估过程。

集成LLM结果优于单个LLM

为了保证可以在大量数据基础上进行评估,团队专门引入基准数据集MixInstruct,用于在指令跟随任务中对LLM的集成模型进行基准测试。


团队对数据集中的10万个样本进行训练,5000个用于验证,5000个用于测试。然后,在这11万个示例上测试11个当下热门的开源大模型,比如Vicuna、OpenAssistant、Alpaca、MPT等。

根据对多个LLM模型在MixInstruct数据集上的表现,可以看到不同模型在表现上存在显著差异,各有优劣。其中,Open Assistant、Vicuna和Alpaca是表现最好三个模型,而Mosaic MPT、StableLM和Flan-T5排名则较低。

其次,实验还得出部分优秀的模型表现并不稳定,许多其他模型的表现都优于它们。

例如,Koala的平均GPT-Rank为6.76,但大约40%的测试结果表明Koala产生了更好或同样优于Open Assistant和Vicuna的结果。

另外也可以看到,在排名工具这部分,与BARTScore和GPT-Rank的最佳模型(Open Assistant)相比,PairRanker表现出更好的性能。

并且团队表示,使用从PairRanker中选出的前三名,并将其作为GenFuser的候选。在此基础上,LLM-Blender展示了预期的卓越性能。尤其是在GPT-Rank方面,达到了3.01,明显超过了最佳模型Open Assistant的(3.90)。

在BERTScore(79.09)、BARTScore(-3.02)和BELURT(-0.17)三个排名里得分也都不错。

实验证明,通过将LLM-Blender框架进行排名和融合,显著提高了LLM最终输出结果的质量。

团队提出LLM-Blender一个创新的集成框架,通过排名的方式来减少单个LLM的弱点,并通过融合生成来整合优势,来提高LLM的能力,可以说非常新颖。

不过该方法仍有一些可以优化的地方,比如引入更多的语言模型、使用不同的相似度计算方法等。

研究团队

论文由Allen AI实验室联合南加大和浙江大学一同发表,三位作者都来自中国,且都与南加大(USC)有关联。

姜东甫(Dongfu Jiang)是浙江大学计算机工程专业大四学生,即将去加拿大滑铁卢大学读PhD,此前曾在南加大(USC)做过研究实习生,当时的导师正好是另外两名作者。

任翔(Xiang Ren)是南加大计算机科学系副教授和INK实验室主任,在艾伦人工智能研究所研究机器常识,也是谷歌学者。

林禹臣(Bill Yuchen Lin)是现任艾伦人工智能研究所青年研究员,本科在上海交大读计算机,PhD在南加大也是计算机相关专业。

此外,南加大NK实验室、艾伦人工智能研究所的Mosaic团队的学者也参与了这一项目。

论文传送门:
https://arxiv.org/abs/2306.02561

参考链接:
[1]https://yuchenlin.xyz/LLM-Blender/#bg

[2]https://twitter.com/billyuchenlin/status/1668666357058277377

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文七绝 翻看老照片传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报亚马逊白菜!抢智能门铃、冰熊短靴、天梭表、缝纫机、搅拌机、铲雪机、 智能挖耳勺!爆火「视频版ControlNet」开源了!靠提示词精准换画风,全华人团队出品BBC揭恐怖跨国虐猴产业链!把小猴扔进搅拌机,拍斩首视频赚翻,观众还在疯狂叫好接连恐怖意外!加拿大两岁女童掉入搅拌机惨死!奥村男童溺亡生日派对...张一鸣熬夜看论文,AI博士年薪500万,大模型搅动创业圈|封面故事陈天奇TVM团队出品:A卡跑大模型,性能达到4090的80%,价格仅一半把猴子摔墙上,电钻钻穿脑袋,搅拌机绞死… 这个虐猴群,终于!「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事《月光如水》&《种花闲》降薪内卷,桃色频出,券商研究所真的走到了一个危险关头......呱呱随笔:远离危险与试探,由我吃牛油果差点噎死说起7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型从感知到理解-融合语言模型的多模态大模型研究“大一统”大模型论文爆火,4种模态任意输入输出阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl广东省科学院微生物研究所叶伟研究团队Bioresource Technol | 深海真菌埃德菌胶霉毒素生物合成转录调控机制解析剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型惊!纽约毒品泛滥!直接地下室制毒!压丸器、搅拌机设备超全...羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品5057 血壮山河之武汉会战 鏖战幕府山 26科学匠人 | 边江:在研究院的七年“技痒”,探寻大模型助力AI与产业融合之道无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型中国科学院微生物研究所高福研究组与刘龙超研究组联合培养博士后招聘启事大模型与知识图谱融合?爱数推出基于大模型的领域认知智能产品与方案恐怖突发!加拿大两岁女童掉入搅拌机惨死...中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺心情就像风一样自由---我们不需要枚举
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。