Redian新闻
>
AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值

AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值

公众号新闻



大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。


在 AAAI 2024 上,小红书搜索算法团队提出了一个创新框架,在蒸馏大模型推理能力的过程中充分利用负样本知识。负样本,即那些在推理过程中未能得出正确答案的数据,虽常被视为无用,实则蕴含着宝贵的信息。



论文标题:

Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data

论文链接:

https://arxiv.org/pdf/2312.12832.pdf


论文提出并验证了负样本在大模型蒸馏过程中的价值,构建一个模型专业化框架:除了使用正样本外,还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤,包括负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC),涵盖从训练到推理的全阶段过程。通过一系列广泛的实验,我们展示了负向数据在 LLM 知识蒸馏中的关键作用。



背景


如今,在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。然而,思维链已被证明是千亿级参数模型才具有的涌现能力。这些模型的繁重计算需求和高推理成本,阻碍了它们在资源受限场景中的应用。因此,我们研究的目标是使小模型能够进行复杂的算术推理,以便在实际应用中进行大规模部署。

知识蒸馏提供了一种有效的方法,可以将 LLMs 的特定能力迁移到更小的模型中。这个过程也被称为模型专业化(model specialization),它强制小模型专注于某些能力。

先前的研究利用 LLMs 的上下文学习(ICL)来生成数学问题的推理路径,将其作为训练数据,有助于小模型获得复杂推理能力。然而,这些研究只使用了生成的具有正确答案的推理路径(即正样本)作为训练样本,忽略了在错误答案(即负样本)的推理步骤中有价值的知识。

如图所示,表 1 展示了一个有趣的现象:分别在正、负样本数据上训练的模型,在 MATH 测试集上的准确答案重叠非常小。尽管负样本训练的模型准确性较低,但它能够解决一些正样本模型无法正确回答的问题,这证实了负样本中包含着宝贵的知识。此外,负样本中的错误链路能够帮助模型避免犯类似错误。

另一个我们应该利用负样本的原因是 OpenAI 基于 token 的定价策略。即使是 GPT-4,在 MATH 数据集上的准确性也低于 50%,这意味着如果仅利用正样本知识,大量的 token 会被浪费。因此,我们提出:相比于直接丢弃负样本,更好的方式是从中提取和利用有价值的知识,以增强小模型的专业化。

模型专业化过程一般可以概括为三个步骤:

1)思维链蒸馏(Chain-of-Thought Distillation),使用 LLMs 生成的推理链训练小模型。

2)自我增强(Self-Enhancement),进行自蒸馏或数据自扩充,以进一步优化模型。

3)自洽性(Self-Consistency)被广泛用作一种有效的解码策略,以提高推理任务中的模型性能。

在这项工作中,我们提出了一种新的模型专业化框架,该框架可以全方位利用负样本,促进从 LLMs 提取复杂推理能力。
  • 我们首先设计了负向协助训练(NAT)方法,其中 dual-LoRA 结构被设计用于从正向、负向两方面获取知识。作为一个辅助模块,负向 LoRA 的知识可以通过校正注意力机制,动态地整合到正向 LoRA 的训练过程中。

  • 对于自我增强,我们设计了负向校准增强(NCE),它将负向输出作为基线,以加强关键正向推理链路的蒸馏。

  • 除了训练阶段,我们还在推理过程中利用负向信息。传统的自洽性方法将相等或基于概率的权重分配给所有候选输出,导致投票出一些不可靠的答案。为了缓解该问题,提出了动态自洽性(ASC)方法,在投票前进行排序,其中排序模型在正负样本上进行训练的。



方法
我们提出的框架以 LLaMA 为基础模型,主要包含三个部分,如图所示:
  • 步骤 1 :对负向 LoRA 进行训练,通过合并单元帮助学习正样本的推理知识;
  • 步骤 2 :利用负向 LoRA 作为基线来校准自我增强的过程;
  • 步骤 3 :在正样本和负样本上训练排名模型,在推理过程中根据其得分,自适应地对候选推理链路进行加权。

2.1 负向协助训练(NAT)

我们提出了一个两阶段的负向协助训练(NAT)范式,分为负向知识吸收动态集成单元两部分:

2.1.1 负向知识吸收

通过在负数据 上最大化以下期望,负样本的知识被 LoRA 吸收。在这个过程中,LLaMA 的参数保持冻结。

2.1.2 动态集成单元

由于无法预先确定 擅长哪些数学问题,我们设计了如下图所示的动态集成单元,以便在 学习正样本知识的过程中,动态集成来自 的知识:

我们冻结 以防止内部知识被遗忘,并额外引入正 LoRA 模块 。理想情况下,我们应该正向集成正负 LoRA 模块(在每个 LLaMA 层中输出表示为 ),以补充正样本中所缺乏但对应 所具有的有益知识。当 包含有害知识时,我们应该对正负 LoRA 模块进行负向集成,以帮助减少正样本中可能的不良行为。

我们提出了一种纠正注意力机制来实现这一目标,如下所示:

我们使用 作为查询来计算 的注意力权重。通过在添加校正项 [0.5;-0.5], 的注意力权重被限制在 [-0.5,0.5] 的范围内,从而实现了在正、负两个方向上自适应地集成来自 的知识的效果。最终, 和 LLaMA 层输出的总和形成了动态集成单元的输出。

2.2 负向校准增强(NCE)

为了进一步增强模型的推理能力,我们提出了负校准增强(NCE),它使用负知识来帮助自我增强过程。我们首先使用 NAT 为中的每个问题生成对作为扩充样本,并将它们补充到训练数据集中。对于自蒸馏部分,我们注意到一些样本可能包含更关键的推理步骤,对提升模型的推理能力至关重要。我们的主要目标是确定这些关键的推理步骤,并在自蒸馏过程中加强对它们的学习。


考虑到 NAT 已经包含了 的有用知识,使得 NAT 比  推理能力更强的因素,隐含在两者之间不一致的推理链路中。因此,我们使用 KL 散度来测量这种不一致性,并最大化该公式的期望:

β 值越大,表示两者之间的差异越大,意味着该样本包含更多关键知识。通过引入 β 来调整不同样本的损失权重,NCE 将能够选择性地学习并增强 NAT 中嵌入的知识。


2.3 动态自洽性(ASC)


自洽性(SC)对于进一步提高模型在复杂推理中的表现是有效的。然而,当前的方法要么为每个候选者分配相等的权重,要么简单地基于生成概率分配权重。这些策略无法在投票阶段根据(rˆ, yˆ)的质量调整候选权重,这可能会使正确候选项不易被选出。为此,我们提出了动态自洽性方法(ASC),它利用正负数据来训练排序模型,可以自适应地重新配权候选推理链路。

2.3.1 排序模型训练

理想情况下,我们希望排序模型为得出正确答案的推理链路分配更高的权重,反之亦然。因此,我们用以下方式构造训练样本:

并使用 MSE loss 去训练排序模型:

2.3.2 加权策略

我们将投票策略修改为以下公式,以实现自适应地重新加权候选推理链路的目标:

下图展示了 ASC 策略的流程:

从知识迁移的角度来看,ASC 实现了对来自 LLMs 的知识(正向和负向)的进一步利用,以帮助小模型获得更好的性能。



实验

本研究专注于具有挑战性的数学推理数据集 MATH,该数据集共有 12500 个问题,涉及七个不同的科目。此外,我们还引入了以下四个数据集来评估所提出的框架对分布外(OOD)数据的泛化能力:GSM8K、ASDiv、MultiArith 和 SVAMP。


对于教师模型,我们使用 Open AI 的 gpt-3.5-turbo 和 gpt-4 API来生成推理链。对于学生模型,我们选择 LLaMA-7b。


在我们的研究中有两种主要类型的基线:一种为大语言模型(LLMs),另一种则基于 LLaMA-7b。对于 LLMs,我们将其与两种流行的模型进行比较:GPT3 和 PaLM。


对于 LLaMA-7b,我们首先提供我们的方法与三种设置进行比较:Few-shot、Fine-tune(在原始训练样本上)、CoT KD(思维链蒸馏)。在从负向角度学习方面,还将包括四种基线方法:MIX(直接用正向和负向数据的混合物训练 LLaMA)、CL(对比学习)、NT(负训练)和 UL(非似然损失)。

3.1 NAT 实验结果

所有的方法都使用了贪婪搜索(即温度 = 0),NAT 的实验结果如图所示,表明所提出的 NAT 方法在所有基线上都提高了任务准确性。


从 GPT3 和 PaLM 的低值可以看出,MATH 是一个非常困难的数学数据集,但 NAT 仍然能够在参数极少的情况下表现突出。与在原始数据上进行微调相比,NAT 在两种不同的 CoT 来源下实现了约 75.75% 的提升。与 CoT KD 在正样本上的比较,NAT 也显著提高了准确性,展示了负样本的价值。


对于利用负向信息基线,MIX 的低性能表明直接训练负样本会使模型效果很差。其他方法也大多不如 NAT,这表明在复杂推理任务中仅在负方向上使用负样本是不够的。

3.2 NCE 实验结果

如图所示,与知识蒸馏(KD)相比,NCE 实现了平均 10%(0.66) 的进步,这证明了利用负样本提供的校准信息进行蒸馏的有效性。与 NAT 相比,尽管 NCE 减少了一些参数,但它依然有 6.5% 的进步,实现压缩模型并提高性能的目的。

3.3 ASC 实验结果

为了评估 ASC,我们将其与基础 SC 和 加权(WS)SC 进行比较,使用采样温度 T = 1 生成了 16 个样本。如图所示,结果表明,ASC 从不同样本聚合答案,是一种更有前景的策略。

3.4 泛化性实验结果

除了 MATH 数据集,我们评估了框架在其他数学推理任务上的泛化能力,实验结果如下。



结语

本项工作探讨了利用负样本从大语言模型中提炼复杂推理能力,迁移到专业化小模型的有效性。小红书搜索算法团队提出了一个全新的框架,由三个序列化步骤组成,并在模型专业化的整个过程中充分利用负向信息。


负向协助训练(NAT)可以从两个角度提供更全面地利用负向信息的方法。负向校准增强(NCE)能够校准自蒸馏过程,使其更有针对性地掌握关键知识。基于两种观点训练的排序模型可以为答案聚合分配更适当的权重,以实现动态自洽性(ASC)。大量实验表明,我们的框架可以通过生成的负样本来提高提炼推理能力的有效性。


作者简介


李易为

现博士就读于北京理工大学,小红书社区搜索实习生,在 AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文,主要研究方向为大语言模型蒸馏与推理、开放域对话生成等。


袁沛文

现博士就读于北京理工大学,小红书社区搜索实习生,在 NeurIPS、AAAI 等发表多篇一作论文,曾获 DSTC11 Track 4 第二名。主要研究方向为大语言模型推理与评测。


冯少雄

负责小红书社区搜索向量召回。在 AAAI、EMNLP、ACL、NAACL、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文。


道玄(潘博远)

小红书交易搜索负责人。在 NeurIPS、ICML、ACL 等机器学习和自然语言处理领域顶级会议上发表数篇一作论文,在斯坦福机器阅读竞赛 SQuAD 排行榜上获得第二名,在斯坦福自然语言推理排行榜上获得第一名。


曾书(曾书书)

小红书社区搜索语义理解与召回方向负责人。硕士毕业于清华大学电子系,在互联网领域先后从事自然语言处理、推荐、搜索等相关方向的算法工作。



招聘


小红书社区搜索算法工程师(全职 / 实习)

岗位职责:

1、对小红书搜索效果进行优化,包括搜索算法和策略的调研、设计、开发、评估等环节,提升用户体验;

2、发现并解决搜索场景中在查询分析、意图识别、排序模型、去重等方向的问题;

3、解决小红书搜索实际问题,更好地满足用户的搜索需求;

4、跟进业内搜索相关模型和算法的前沿进展,并在实际业务中进行合理应用。

任职资格:

1、本科及以上学历,计算机相关专业背景;

2、有搜索、推荐、广告、图像识别等相关背景优先;

3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法,并能在业务中灵活解决实际问题;

4、在国际顶级会议(KDD、SIGIR、WSDM、ICML、ACL等)以第一作者发表过高水平论文者、知名数据挖掘比赛(例如 KDD Cup 等)中取得领先名次者优先;

5、积极向上,踏实勤奋,自我驱动,善于沟通,解决问题优先。

欢迎感兴趣的同学发送简历至 [email protected]并抄送至:[email protected] 



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一份遗书,四个人背诵转达New Year's fireworks 2024 LIVE: NYC's Times Square ball drop扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力Strong start 2024EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU小红书推出新框架:负样本也能提升大模型的推理能力浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法相聚多伦多(二十四) 美丽中国年取代 Vue 和 React?新框架 Nue JS,能将代码量减少 10 倍!0.3%参数推理,实现78倍加速!ETH团队提出UltraFastBERT,构筑语言模型巨人【美坛综艺秀假日篇】Best wishes for 2024!《幸福永相随》&《数羊》2024 rav4 油车 le四驱AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity医学顶刊Nature Medicine!上海交大盛斌团队提出DeepDR Plus:预测糖尿病视网膜病变进展时间的深度学习系统小红书直播业务负责人银时:小红书买手,一份三赢的职业丨WISE·未来消费大会浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用小红书:小红书遛遛生活节-城市嘉年华版【周末综艺会10期】— 面食无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式1吨甘蔗糖蜜可生产136公斤糖苷和60公斤阿洛酮糖,北化工团队提出合成双酶系统,可高效环保生产高值产品AAAI 2024 | 武大提出神经元分类全新框架,联合学习神经元骨架与大脑回路拓扑结构GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉小红书&新华网:2024小红书父母观察报告复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色Runner’s Tradition——2024 Opening单GPU运行数千大模型!UC伯克利提出全新微调方法S-LoRA​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP红色日记 学农基地 4.21-30视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24趣图:第一次使用新框架小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。