Redian新闻
>
小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式

小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式

科学


大模型的 In-context Learning(ICL)一直是比较热门的方向之一,包括探索 ICL 的内在形成原因、效果提升方案等等。近期在 arXiv 上看到了一个由北航等提出的一个非常有意思的 ICL 增强的工作《Grimoire is All You Need for Enhancing Large Language Models》。


与以往的 ICL 优化方式不同的是,这篇工作期望借助强弱模型协同的方式,去增强弱小模型在各类通用问题上的表现和效果。颇有让学习能力较差的学生直接去看好学生的“学习笔记”的意味。


论文标题:

Grimoire is All You Need for Enhancing Large Language Models

论文地址:

https://arxiv.org/pdf/2401.03385.pdf


下面我们细看下整篇文章的核心要点:


大语言模型可以通过零样本、少样本等 ICL 方法显著提升其在多种自然语言处理任务中的性能表现。通常而言,参数规模越大的语言模型的ICL能力往往越强。现有的 ICL 性能提升的相关研究主要集中于如何构造示例样本,即示例样本排序和示例样本选择等方面。


这篇文章不同于传统的 ICL 性能提升方法,提出了一种新的 ICL 范式,SLEICL 方法(Strong LLM Enhanced ICL):通过强语言模型总结下游任务的规律及解题技巧,即 Grimoire,并将其作为弱语言模型的提示,指导弱模型完成下游任务,对比传统的 ICL 方法,在许多任务上的结果得到了显著提升。



SLEICL增强方法


如下图所示,为 SLEICL 方法的完整流程图。整体而言包含三个步骤:1)代表性样例选取;2)基础候选 Grimoire 生成;3)Grimoire 有效性排序。

PART 1. 代表性示例样本选取。为了让强模型总结得到的 Grimoire 具有更好的代表性和有效性,需要针对提高的候选样例进行挖掘,筛选出更能代表和解决当前问题所蕴含的解题策略的样本集合。同时,考虑到不同的任务所包含的示例样本具有较大的差异性,因此很难使用某种统一的范式选取具有代表性的样本。

所以文章主要通过以下四种示例样本选择方法进行示例样本构造,用于提示强语言模型生成 Grimoire,尽可能的丰富初始化 Grimoire 的种类样例来源,具体样例选取方法包括: 

  • K-means Clustering Selection (KCS) 该方法是指使用 K-means 算法对样本集的语义表示进行聚类,并选择离 K 个聚类中心最近的 n 个样本作为示例样本的;

  • Hierarchical Clustering Selection (HCS) 该方法采用分层聚类算法对样本集进行详细的分层聚类以选择示例样本;

  • Hard Samples Selection (HSS) 该方法是指选择被弱模型预测错误的样本作为示例样本;

  • Random Samples Selection (RSS) 随机样本选择是一种以完全随机的方式从数据集中选择示例样本的方法。 

PART 2. Grimoire 生成:当完成了初步的代表性样例选取之后,文章设计了两种 Grimoire 生成范式,即:Profound Grimoire (PG)  以及 Simple Grimoire (SG)  ,以适应不同参数规模的大语言模型的 ICL 能力。

作者认为:即使是弱模型,不同参数规模的弱模型之间也存在较大的性能差异,因此需要考虑设计两种典型不同复杂度的 Grimoire 来匹配下游弱模型的学习需求。所以,作者设计了如下图所示的生成范式:


首先基于选择的样例生成一个非常详尽描述解题思路或秘诀的 Grimoire,即 Profound Grimoire (PG) ,然后将 PG 二次传递给强大模型,让强大模型进行缩减和优化,生成更加简洁、明了的 Grimoire,即 Simple Grimoire (SG) ,通过这样两种次序生成的方式,获取不同复杂度的 Grimoire 结果。 

以下是一个仇恨言论检测任务的 Simple Grimoire 示例结果: 

Below are some skills needed to solve the task; you need to carefully learn and consider the process and methods step by step: 
1. Look for slurs or derogatory language aimed at a group's identity (race, gender, etc.). 
2. Check if the sentence encourages hostility, discrimination, or violence against a group. 

3. If no hate speech signs are found, label it as \"no hate.\""


从上面的示例可以看到,生成的 Grimoire 结果基本上都能概括解决当前问题所需注意的事项以及一些必要的解决思路或者方案。

PART 3. Grimoire 排序。通过上面的步骤一和步骤二,针对特定任务将获取得到 12 个候选 Grimoire。在实际的应用过程中,通常只有某一个 Grimoire 能够使得特定的弱模型获得最优的结果。因此,作者还设计了基于相似度的方法和基于分类器的方法对用于该任务的所有 Grimoire 进行排序,从而选择得分最高的 Grimoire 作为下游弱模型的提示。

其中,基于相似度的方法是通过计算测试问题和 Grimoire 之间的相似度,以选择相似度最高的 Grimoire:



而基于分类器的方法是通过训练了一个神经网络模型,综合考虑了测试问题和 Grimoire 之间的相似性、以及任务类型和大语言模型的参数规模等用于选择最合适的 Grimoire。具体模型结构如下图所示:



实验结果讨论
为了评估模型的有效性,作者在一组主流的自然语言处理任务的数据集上,测试了包括情感分类任务、主题分类任务、自然语言推断任务和仇恨言论检测任务,评测了以下 6 个大模型(其中,GPT4-1106-preview 是作为强模型生成 Grimoire)。


测试模型包括:


如下图所示,从结果上来看,SLEICL 方法在五个较弱的大语言模型上相较于基准对比方法均得到了不同程度的提升,具体可观测到的有意思的结论包括:

  • 基座模型越弱,在使用 SLEICL 方法后,模型效果提升的增益幅度越大;

  • 从单个 Grimoire 的最优结果来看,相比 Zero-shot 的基准对照,提升幅度非常明显,较弱的如 7B/13B 等模型能够取得超过 20% 的绝对性能增量。即使相比 Few-shot 的结果,也能取得绝对值超过 10% 以上的增量;

  • 而基于分类器的 SLEICL 方法,与 Zero-shot 提升相比,LLaMA2-13B-Chat、Baichuan2-7B-Chat 和 Phi-2 平均提高了 8%~25%。



除此之外,作者还分析了部分模型基于 Grimoire 后的性能与 GPT4 的最优模型 GPT4-1106-preview 的对比结果。如下图所示,从对照效果上来看,多个小模型在经过 Grimoire 增强后,甚至能够取得超过 GPT4-1106-preview 的模型 Zero-shot 的结果。


从结果上来看,这篇文章提出的 SLEICL 方法可以显著提高不同规模的弱语言模型在各类任务上的性能,同时越小的模型表现出更加显著的改进。然而,文章中基于分类的方法虽然相比于零样本和少样本提示方法有较大增益,但并没有超过单个 Grimoire 的表现,因此仍然具有进一步优化的潜力,如果能够得到一致性排序能力更强的 Ranking 模型,该方法将有更大的延展空间。


论文小结

文章讨论了一种新的 ICL 增强的范式 SLEICL,即利用强模型的 ICL 能力对样例进行学习、总结和表达,并将学习结果传输给弱模型,从而降低弱模型直接进行样例学习所带来的难度,最终提高弱模型在任务上的表现效果。这类学习范式也比较符合类似“教科书”“学习经验小结”之类的思路,比较有意思。最后附上相关的代码和 Paper,感兴趣的读者可以进一步详细探索。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is MoreChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱北大等提出MoE-LLaVA:将多模态大模型稀疏化参数量13B模型全方位碾压GPT-4?这背后有什么猫腻直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?AMD最强生成式AI核弹发布!跑大模型性能超H100,预告下一代AI PC处理器Claude 3全面超越GPT-4?我们上手实测了一波。RAG+GPT-4 Turbo让模型性能飙升!更长上下文不是终局,「大海捞针」实验成本仅4%华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议吴恩达最新推出基于大模型的《AI高级检索》课程,限时免费白嫖!NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5优等生归来,谷歌最强大模型Gemini能否打败GPT4?|甲子光年媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式葡萄牙金乔海滩(Guincho beach),景点打卡长篇小说连载《此世,此生》第五十六章三性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损《歌德堡变奏曲1469》碾压GPT-4?谷歌发布最强AI模型,解读来了伙计干得不错,只是太晚太弱了点。。。。AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法苹果iOS作出重大让步/俞敏洪称公司不应只依赖董宇辉/通义千问新模型性能比肩GPT-4V微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源\'Red Rose of Normandy\' by Tino StruckmannPPT【广发策略】新范式回眸,中资股启航! —24年年度策略展望Cell Metabol | 科学家提出人类1型糖尿病发生的新范式CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。