Redian新闻
>
爱丁堡大学出新招,大小语言模型配合节约成本!

爱丁堡大学出新招,大小语言模型配合节约成本!

科技

夕小瑶科技说 原创
作者 | 墨墨
在大语言模型的应用中,往往面临着成本性能权衡的问题。

一方面,大型LLM的参数量极大(如70B),每次调用都可能带来更多的成本,而小型LLM(如7B)的成本则更容易被接受。

另一方面,更大的参数量明显带来了更好的性能。

鱼与熊掌真的不可得兼吗?

爱丁堡大学的研究者带来了全新的大小模型协同方案,不需要额外训练任何辅助模型,即可取得非常优秀的效果!

实验表明,在27个实验设置中,这一方法可以其中25个优于现有主流协同方法。

让我们来看看他们的思路吧~

论文标题
Optimising Calls to Large Language Models with Uncertainty Based Two-Tier Selection

论文链接
https://arxiv.org/pdf/2405.02134.pdf

现有主流方法介绍

首先,研究者介绍了现有大小模型协同方案的两种主流思路。

假设我们有两个LLM,其中大型LLM比小型LLM更昂贵,但性能更好。为了让它们协同工作,方案包括:

(1)路由(Routing)(下图左):通过用户传入的查询,来选择最合适的LLM(即权衡成本与性能)。

(2)级联(Cascading)(下图右):先让小模型根据用户的查询生成结果,随后通过查询和小型LLM的结果,来选择是否调用大型LLM。

而研究者认为,使用额外的辅助模型来进行这些判断(上图蓝框),增加了这些方案的复杂性。并且,辅助模型不仅需要额外的训练,而且通常还需要特定的训练数据,可能无法推广到其他任务。

那么,抛开辅助模型,有什么其他方法呢?

研究者决定使用级联的方式,并从小型LLM生成结果的过程中,提取置信度度量。这样,判断小型模型的生成结果是否可信不再需要辅助模型,而是通过小型LLM的简单置信度来决定是否需要进一步调用大模型。

大小模型协同的问题定义

首先,我们要来定义需要解决的问题。

定义小型LLM调用的平均成本为:

其中, 表示第 个查询 在小型LLM上的成本,而 表示查询总数量。

同理,我们可以得到大型LLM调用的平均成本为:

显然可得

级联与路由的具体方法

定义问题之后,作者列举了目前主流的一些大小模型协同方法。

(1) 路由

对于路由方案,成本可以被定义为如下公式,其中 是在路由中调用大型LLM的概率。

由此,我们可以展开说明一些主流方案:

(1-1)随机路由(Random routing):指对于每个传入的查询,以概率 随机调用大型LLM。此方法用于作为所有方法的参照指标。

(1-2)路由(Routing,Sakota et al., 2023; Lu et al., 2023):训练一个辅助模型,在给定查询的情况下预测小型LLM的性能,判断是否需要调用大型LLM。

(1-3)HybridLLM(Ding et al., 2024):训练一个辅助模型,预测小型LLM是否比大型LLM能更好的解决传入的查询。

上述提到的辅助模型,最终判断的相关阈值都与 相关。

(2)级联

对于级联方案,成本可以被定义为如下公式,其中 是在级联中调用大型LLM的概率。

(2-1)FrugalGPT(Chen et al., 2023):训练一个辅助模型,根据给定的用户查询和小型LLM生成的候选答案,预测后者是否正确。

(2-2)Margin Sampling(我们的方法):根据小型LLM输出的不确定性,即margin,定义为:

其中 分别是第一和第二最可能的token,根据第一个预测出的token的概率分布,得到两个token之间的概率之差,可以被理解为小型LLM生成该token的确定程度(置信度)。

值得注意的是,上述所有方法都需要设置决策标准的阈值,我们在这项工作中选择动态阈值

初始阈值是使用前 10 个查询计算的,通过获取辅助模型的输出,或者 Margin Sampling 的margin值,确定初始的 数值。在后续的查询中,继续使用辅助模型做出是否调用大型 LLM 的决定,并根据所有过去的查询动态更新阈值。

实验结果与讨论

介绍了包含路由和级联两种思路的上述5种方法后,我们需要通过实验来确认它们的效果。

首先,我们研究了3对大型和小型的LLM,它们分别是:

  • Mistral 7B 和 Mixtral 8x7B
  • Llama-2 13B 和 Llama-2 70B
  • GPT-3 和 GPT-4

对于开源系列的模型(Mistral和Llama-2),我们的所有实验均在 4-bit 量化后,在一张 NVIDIA A100 GPU (80 GB) 中完成。

而在测试数据集方面,我们选取了分类任务(情感分类ISEAR,事实核查FEVER,情感分析RT-Polarity/CR/SST-2),多项选择任务(世界常识Openbook)和 QA任务(人类真实问题NaturalQuestions,含知识库的百科问答Wikifact,语言理解和推理bAbI)

基于上述这些数据集,我们在上表中实验了3对大小模型。为了引入成本因素,我们将报告准确率的AUC,并将其除以 。同时,我们的结果假设了一个简单的成本方案 ,这点与商业API的价格和其他成本方面的工作保持一致。最后,对于上表,加粗的结果表示最佳性能,下划线的结果表示第二好的性能。

将上表的所有任务结果求取平均后,我们得到了准确率曲线,如下图。

通过观察实验结果,作者也给出了一些结论。

  • 在所有 9 个任务和 3 个 LLM 组合中(共27组配置),Margin Sampling 仅对 2 个没有实现最佳或第二佳的性能。作者认为,Margin Sampling 的性能会随着小型LLM性能的提高而提高,小型LLM在特定任务中表现太差,导致了 Margin Sampling 的性能波动。

  • FrugalGPT 平均而言是表现第二好的策略。然而,在更具挑战性的多项选择任务 Openbook 上,它的表现比随机基线差;在 QA 任务中的表现也不一致。作者认为,FrugalGPT 的辅助模型更擅长简单的分类问题,在困难问题上则有所欠缺。

  • Routing 和 HybridLLM 似乎在 QA 任务中表现良好,而在分类任务中表现较差。我们注意到,HybridLLM 的平均性能在GPT模型对上与随机基线性能相同,这是一个令人惊讶的发现。

作者也合并上述9个不同任务的数据,来模拟多任务情况。实验结果如下表,Margin Sampling 依然取得了最佳结果。

最后,为了确保 Margin Sampling 的鲁棒性,作者尝试从改变辅助模型的训练数据比例和改变成本配置两方面进行实验。

结果表明,使用一倍的数据量训练辅助模型后,Margin Sampling 仍然具有竞争力,如下表。

而在控制的前提下,改变的值,也基本不会影响 Margin Sampling 的性能表现。

总结

在本文中,作者提出了一种全新的大小模型协同级联方法 Margin Sampling,它无需使用任何辅助模型,仅靠小型 LLM 生成第一个 token 的 margin 值即可作出判断。

实验表明,这种方法具有优秀的表现和强大的鲁棒性,在大小LLM性能与成本的权衡上,提供了令人惊喜的思路!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准全球游之欧洲--英格兰伦敦/剑桥/曼彻斯特/湖区/巨石阵/温莎堡/爱丁堡/格拉斯哥10天8晚!和阴阳交措的几首看图说话用大语言模型控制交通信号灯,有效缓解拥堵!AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司大模型如何用因果性?最新《大型语言模型与因果推断在协作中的应用》全面综述LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」科研实习 | 南方科技大学-香港中文大学(深圳)联合招收大语言模型算法实习生AI早知道|Kimi智能助手升级;Meta开源推出新一代大语言模型Llama3在上海时装周后台实习后,我同时拿下了UCL和爱丁堡!和朵朵爷爷和朵朵等的几首诗Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型喜报|加州圣芭芭拉+1、纽大+1、塔夫茨+1、波士顿+1、爱丁堡+1带房私 | 伦敦、卡迪夫、爱丁堡、布里斯托、布莱顿求租ing, 需要暑假房一间!鱼水之欢组诗赠票福利 | 英国新锐导演全新力作,爱丁堡艺穗节售罄佳作《HOME(故乡)》WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型《她之歌》&《浓情淡如你》深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员爱丁堡大一在读重申拿IC BME无条件录取offer,这一次我要拿回我失去的G5!捷报:西北大学、3枚范德堡大学(6000刀奖学金)、埃默里大学录取到!简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法脑认知与类脑智能重点实验室/剑桥大学/香港大学/港中文/范德堡大学等招聘RA/PhD/实习生等|海内外心理学相关RA&工作极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻注意!来澳洲留学出新规!上调学生签证存款要求,已经生效!英国私家小众包团4-7人9天7晚游:伦敦+剑桥+爱丁堡+格特纳格林+温德米尔+曼彻斯特+斯特拉福德+牛津大学 LHRLHR9V今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报英国爱丁堡大学临床脑科学中心招募科研助理买了个壶铃全英语言班房源,继续招租!爱丁堡£207/周;利兹£230/周;南安£239/周;格拉£235/周;更多房源持续更新!ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。