大模型搅拌机来了！把11个AI的结果融合输出，艾伦研究所华人团队出品

公众号新闻

2023-06-25 04:06

尚恩发自凹非寺
量子位 | 公众号 QbitAI

大模型这么多，到底该用哪一个？并且生成结果时好时坏，怎么破。

现在有一种方法，一招整合各家LLM特长，性能值拉满！让你不做选择全都拿捏。

现在通过LLM-Blender大模型集成框架，你输入问题，自动帮你排序各家LLM结果，然后“融合生成”最佳答案。

就像一个水果榨汁机，各个开源LLM代表不同水果，一箩筐放进去，根据不同水果特点，调配比例榨出好喝的果汁。

这个方法不仅可以有效减轻单一LLM中偏见错误和不确定性信息，且输出结果比“单用效果最好的LLM”还要高不少。

对此网友惊呼：简直太赞了！

博采众长，一个大模型搅拌机

现在开源大模型这么多，说到性能也是千差万别。通常我们都会直接选择最好的模型，来Prompt结果。

然鹅，这种方法也有一些限制。比如我们无法考虑所有可能的模型输出，并且新的数据可能导致我们选择不同的最佳结果。

现在的方法，要么是直接通过打分对比输出答案，要么也会对不同LLM答案进行融合，但整个过程仍会保留有害、或不正确的信息，输出结果相应也会大打折扣。

因此，为了解决这个问题和提高LLM的鲁棒性、泛化和准确性，Allen AI实验室联合南加大和浙江大学的发表最新研究论文。

论文提出一个用集成框架“LLM-Blender”，集合多个开源大模型（LLM）的优势，通过排序和融合生成两种方式，比较不同LLM生成结果，然后融合择优输出。

LLM-Blender主要包含两个模块“PairRanker”和“GenFuser”。

PairRanker模块是一个BERT结构的编码器，通过双向注意机制捕捉输出结果之间的细微差异，然后对候选输出进行排名。

PairRanker的运行流程是这样的。

首先，它会收集N个模型对每个输入的输出，并创建所有可能的输出对。

然后，使用特殊的编码器来比较这些输出对，以确定哪个候选输出更好，捕捉到微小的差异。

在推理阶段，计算一个矩阵，其中包含了所有输出对的比较结果。再根据矩阵确定给定输入的所有输出排名顺序。

最后，选择每个输入中排名最高的候选输出作为最终结果。

GenFuser模块则是一个基于Transformer的编码器-解码器结构，使用单个编码器对输入文本和一些候选者进行编码，然后使用单个解码器解码融合的输出。

值得注意的是，它只将排名靠前的输出结果放入编码器，这样既避免了“噪音”感染，还能提升输出结果质量。

总结一下，LLM-Blender的运转流程：

PairRanker比较N个LLM的输出，然后通过GenFuser将它们融合，从排名前N的输出中生成最佳结果。

按照论文解释，通过这个运作流程，就能有效筛选并集合生成优质答案。

那么到底效果如何，下面是团队的评估过程。

集成LLM结果优于单个LLM

为了保证可以在大量数据基础上进行评估，团队专门引入基准数据集MixInstruct，用于在指令跟随任务中对LLM的集成模型进行基准测试。

团队对数据集中的10万个样本进行训练，5000个用于验证，5000个用于测试。然后，在这11万个示例上测试11个当下热门的开源大模型，比如Vicuna、OpenAssistant、Alpaca、MPT等。

根据对多个LLM模型在MixInstruct数据集上的表现，可以看到不同模型在表现上存在显著差异，各有优劣。其中，Open Assistant、Vicuna和Alpaca是表现最好三个模型，而Mosaic MPT、StableLM和Flan-T5排名则较低。

其次，实验还得出部分优秀的模型表现并不稳定，许多其他模型的表现都优于它们。

例如，Koala的平均GPT-Rank为6.76，但大约40%的测试结果表明Koala产生了更好或同样优于Open Assistant和Vicuna的结果。

另外也可以看到，在排名工具这部分，与BARTScore和GPT-Rank的最佳模型(Open Assistant)相比，PairRanker表现出更好的性能。

并且团队表示，使用从PairRanker中选出的前三名，并将其作为GenFuser的候选。在此基础上，LLM-Blender展示了预期的卓越性能。尤其是在GPT-Rank方面，达到了3.01，明显超过了最佳模型Open Assistant的（3.90）。

在BERTScore（79.09）、BARTScore（-3.02）和BELURT（-0.17）三个排名里得分也都不错。

实验证明，通过将LLM-Blender框架进行排名和融合，显著提高了LLM最终输出结果的质量。

团队提出LLM-Blender一个创新的集成框架，通过排名的方式来减少单个LLM的弱点，并通过融合生成来整合优势，来提高LLM的能力，可以说非常新颖。

不过该方法仍有一些可以优化的地方，比如引入更多的语言模型、使用不同的相似度计算方法等。

研究团队

论文由Allen AI实验室联合南加大和浙江大学一同发表，三位作者都来自中国，且都与南加大（USC）有关联。

姜东甫（Dongfu Jiang）是浙江大学计算机工程专业大四学生，即将去加拿大滑铁卢大学读PhD，此前曾在南加大（USC）做过研究实习生，当时的导师正好是另外两名作者。

任翔（Xiang Ren）是南加大计算机科学系副教授和INK实验室主任，在艾伦人工智能研究所研究机器常识，也是谷歌学者。

林禹臣（Bill Yuchen Lin）是现任艾伦人工智能研究所青年研究员，本科在上海交大读计算机，PhD在南加大也是计算机相关专业。

此外，南加大NK实验室、艾伦人工智能研究所的Mosaic团队的学者也参与了这一项目。

论文传送门：
https://arxiv.org/abs/2306.02561

参考链接：
[1]https://yuchenlin.xyz/LLM-Blender/#bg
[2]https://twitter.com/billyuchenlin/status/1668666357058277377

— 完 —

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「电商零售」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

大模型搅拌机来了！把11个AI的结果融合输出，艾伦研究所华人团队出品

尚恩 发自 凹非寺量子位 | 公众号 QbitAI

博采众长，一个大模型搅拌机

集成LLM结果优于单个LLM

研究团队

尚恩发自凹非寺
量子位 | 公众号 QbitAI