南大发布最新综述!全面解析如何使用预训练模型进行持续学习
研究方向 | 预训练模型、MLLM
论文标题:
Continual Learning with Pre-Trained Models: A Survey
论文地址:
https://arxiv.org/abs/2401.16386
代码链接:
摘要
然而,随着预训练模型(Pre-trained Models, PTM)时代的到来,如何利用 PTM 的强大能力来进行 CL 成为一个新的研究热点。本文综述了基于 PTM 的 CL 研究的最新进展,将现有方法分为三大类,并对它们之间的相似性、差异性及各自的优势和劣势进行了深入的比较分析。此外,我们通过实证研究对比不同最新方法,探讨了比较中的公平性问题。
▲ 图1 传统 CL 于 PTM-based CL 的区别
引言
我们提出了第一份全面的综述,涵盖了基于预训练模型的持续学习的最新进展,包括问题定义、基准数据集和评估协议。通过基于这些方法的定义特征,将它们系统地分类为三个子类别,我们提供了一个完整且有结构的主题概述。
我们的评估不仅涉及每个子类别中的代表性方法在七个基准数据集上的应用,而且我们还识别了一个可能影响基于预训练模型的持续学习中比较公平性的关键因素,为方法论评估提供了洞察。
我们突出了基于预训练模型的持续学习当前面临的挑战和潜在的未来方向。我们旨在揭示那些未被充分研究的方面,以激发进一步的调查,探索该领域内各种可能的路径及其相互之间的关系。
▲ 图2 PTM-based CL 的分类
另一方面,ViT 的结构使得可以通过冻结预训练权重进行轻量级调整。 技术如 prompt learning 和 adapter learning 使 PTMs 能够快速适应下游任务,同时保持泛化能力。因此,与从头开始训练相比,使用 PTMs 的持续学习在抵抗遗忘方面表现出更强的性能。
最后,基于模型混合的方法在学习过程中设计了一套模型,并利用模型融合、模型集成等混合技术来得出最终预测。我们在图 2 中展示了基于 PTM 的 CL 的分类,并列出了代表性工作。在接下来的部分中,我们将介绍每个类别,并深入讨论它们的优缺点。
观察到预训练模型(PTMs)的强大泛化能力后,如何调整 PTM 涉及到一个权衡:完全微调权重以捕获下游任务会抹除可泛化的特征,而固定骨干网络则无法将下游信息编码入骨干网络。
因此,优化式 4 也使键与编码特征相似。上述 key-query 匹配过程是一个期望最大化(EM)过程。具体来说,在 E 步骤中,根据它们与查询特征的相似性选择前 N 个键。在 M 步骤中,然后将键拉近查询。
prompt 生成:虽然 CODA-Prompt 解决了基于注意力的提示组合问题,组合过程仍受到提示池的限制。因此,许多工作进一步设计元网络(meta-networks),能够生成实例级的提示。相应地,DAP 通过将提示生成编码进一个 MLP 网络来实现这一目标。它通过以下方式生成实例级的提示:
基于提示方法的总结:我们在图 3 中总结了提示选择的方式,包括 L2P 中的提示检索方式、DualPrompt 中的任务特定和通用提示、CODA-Prompt 中的基于注意力的组合以及 DAP 中的提示生成。除了选择提示外,一些工作也考虑将所有提示附加到查询实例上,或学习视觉提示(即像素级参数)。
▲ 图3 不同种类的 prompt 选择方式
优势与劣势:基于提示的方法通过轻量级提示,在预训练知识和下游任务之间取得平衡,带来许多优势。首先,提示有助于桥接领域差异并有效编码任务特定知识。其次,由于这些轻量级模块与特征具有相同的维度,保存提示是参数高效的,这自然适合一些边缘场景,如联邦学习。最后,学习提示池充当 PTM 的外部记忆,使得能够进行自适应知识检索和实例级预测。
然而,这类方法也存在一些缺点。首先,一些工作发现式 3 中的提示选择过程会收敛到单一点,使得提示选择只集中在特定子集上。此外,由于键和提示值在整个学习过程中不断变化,这些参数的更新将抹除前任务的更新。这进一步导致匹配级别和提示级别的遗忘,使得提示选择过程成为持续学习中的瓶颈。
此外,如果我们使用固定大小的提示池,表示能力将受到限制。相比之下,如果提示池随着数据的演化而增长,它将导致训练和测试之间的不匹配,因为旧任务可能会检索到新提示。
串联 backbone:观察到 PTMs 的强大泛化能力,ADAM 方法进一步通过比较原型基分类器和完全微调模型在新类上的性能。令人惊讶的是,它发现如果适应下游任务,PTMs 可以在新类上获得更好的性能。这表明 PTMs 虽然具有泛化能力,但并不拥有下游数据的任务特定信息。因此,ADAM 建议使用参数高效的模块(例如提示或适配器)微调 PTM,并串联预训练模型和适应后模型的特征:
利用随机投影:基于 ADAM,RanPAC 方法进一步发现,通过式 8 计算出的原型在类之间经常相关。因此,它建议使用在线 LDA 分类器去除类间相关性以获得更好的可分性。此外,为了使特征分布适合高斯拟合,它设计了一个额外的随机投影层 ,将特征投影到高维空间。之后,在投影空间中计算原型,即
优势与劣势:基于表示的方法旨在充分利用预训练特征,在各种任务中展示出竞争性能。这一系列工作具有许多优点。首先,由于类原型代表相应类别的最常见模式,因此使用它们构建识别模型既直观又可解释。使用基于原型的分类器也提供了一种简单而有效的方式来探索基于 PTM 的 CL 的 baseline。
此外,这一系列工作主要是冻结骨架并更新分类器权重。轻量级的更新成本使它们在现实世界应用中成为可能,例如,将类似技巧应用于联邦学习,通过在各个客户端同步全局原型。
模型集成:鉴于 PTMs 展示出可泛化的特征,基于 PTM 创建一组模型变得可能。ESN 方法创建了一组基于相同 PTM 的独立分类器,即每遇到一个新任务时,它就初始化并训练一个新的分类器头。在推理过程中,它通过采用一组温度参数设计了这些分类器头的投票策略。LAE 方法采用了类似的推理策略,通过选择不同模型中的最大 logit 值。
由于集成的核心因素取决于学习者的差异,一些工作旨在增强模型间的多样性,而不是构建一组具有相同 PTM 的分类器。PromptFusion 方法利用一个预训练的 ViT 和一个 CLIP,并在推理过程中动态组合 logit 值,即
与多个骨架的集成不同,PROOF 方法设计了一个更全面的推理格式,仅使用单个 CLIP。由于 CLIP 能够实现视觉和文本特征的跨模态匹配,PROOF 设计了一个考虑图像到文本、图像到图像原型以及图像到调整文本的三级集成,包括跨模态融合。
模型融合:另一系列工作考虑模型融合,即将多个不同的模型合并成一个统一的模型,无需额外训练。LAE 方法定义了在线和离线学习协议,其中在线模型通过交叉熵损失更新,旨在新任务中获取新知识。相反,离线模型通过模型融合更新,例如,指数移动平均(EMA):
与 LAE 类似,ZSCL 方法将融合技术应用于 CLIP 模型,旨在持续学习期间保持其零样本性能。然而,它发现随着权衡参数在式 9 中的变化,性能并不稳定。因此,它提议每隔几次迭代就合并参数,使模型训练期间的损失轨迹更加平滑。
此外,注意到式 9 在合并时给每个参数赋予了相同的重要性,CoFiMA 方法认为不同参数对任务的重要性应该不同。因此,它在合并过程中引入了 Fisher 信息作为每个参数的估计重要性。
优势与劣势:在基于 PTM 的 CL 中,构建多个模型进行混合是直观的。因此,基于模型混合的方法有一些优点。首先,学习多个模型使模型集合内部能够做出多样化的决策。因此,使用模型合并或集成自然会产生更稳健的结果。
其次,由于模型直接合并以得出统一预测,可以调整先前和后来模型的权重,以突出不同阶段共享知识的重要性。最后,由于模型集将在推理期间合并,因此随着更多模型添加到模型集中,最终推理成本不会增加。也可以应用重参数化技术进行模型合并,使边缘设备的模型大小受限。
CL的方法评估
4.1 数据集及其划分
数据集:由于预训练模型通常使用 ImageNet21K 进行训练,因此使用 ImageNet 来评估方法的有效性并不具有意义。因此,我们遵循 [Zhou 等人,2023c; McDonnell等人,2023] 的做法,在 CIFAR100、CUB200、ImageNet-R、ImageNet-A、ObjectNet、Omnibenchmark 和 VTAB 共 7 个数据集上评估模型的性能。
除了 CL(持续学习)的典型基准数据集(例如 CIFAR 和 CUB)之外,其他五个数据集与 ImageNet 存在较大的领域差异,这降低了 PTM 的泛化能力,增加了 CL 的难度。
数据集划分:遵循 [Zhou 等人,2023a] 的定义,我们将数据划分为 B-m, Inc-n,即第一个数据集包含 m 个类别,每个后续数据集包含 n 个类别。m=0 意味着所有类别均等分配到每个任务中。在划分之前,我们使用相同的随机种子随机排列所有类别 [Zhou 等人,2023a],以确保公平比较。
4.2 实验结果
根据图 2 中的分类,我们比较了三个类别中的九种方法。其中,L2P、DualPrompt、CODA-Prompt 和 DAP 属于基于提示的方法;SimpleCIL、ADAM 和 RanPAC 属于基于表示的方法;ESN 和 HiDe-Prompt 属于基于模型混合的方法。我们在表 1 中报告了七个基准数据集上的结果,并使用不同颜色代表不同类别的方法。从这些结果中,我们得出三个主要结论:
几乎所有方法在典型的 CL 基准上表现良好,即 CIFAR100,而一些方法在与预训练数据集存在较大领域差异的基准上存在问题(例如,ImageNet-A)。这表明,在 PTMs 时代,应提出更具挑战性的基准来作为 CL 基准。 基于表示的方法(例如,ADAM 和 RanPAC)比其他方法(除了 DAP,稍后讨论)展现出更具竞争力的性能。这表明基于提示和基于模型混合的方法中的表示可以进一步培养,以提高它们的性能。 简单的基线 SimpleCIL 比典型的基于提示的方法(例如,L2P 和 DualPrompt)表现更好,验证了 PTMs 的强大表示能力。这意味着更复杂的学习系统并不保证更好的性能,甚至可能在不兼容的模块间引入噪声。
5.1 大语言模型的增量学习
在当前由预训练模型(PTMs)主导的技术格局中,对于大型语言模型(LLMs)如 GPT 的持续学习能力日益显得至关重要。这些模型需要适应不断变化的信息,比如全球事件的变化。例如,在 2020 年选举之后,GPT 需要从“美国当前总统是谁?→ “Donald Trump” 更新为 “Joe Biden”。
通常,这需要使用更新后的数据集进行全面的重新训练,因为增量微调可能会导致覆盖其他相关知识。这一过程耗费资源巨大,涉及数千个 A100 GPU 运行数月,导致大量电力消耗,并对二氧化碳排放造成显著影响。
5.2 超越单一模态的识别
本综述主要关注基于 PTM 的 CL 在视觉识别领域的进步,这是机器学习中的一个关键领域。然而,预训练的最新进展范围已经超越了单一模态模型,扩展到了包括多模态 PTMs,如 CLIP。这些多模态 PTMs 能够处理、响应并与各种类型的输入进行推理。尽管在视觉识别方面取得了显著进步,特别是在利用文本信息来增强和选择适当提示方面,但对于超越视觉识别的兴趣正在增长。
5.3 有限计算资源下的持续学习
大型 PTMs 在各种任务中的熟练程度是不可否认的,但这些模型的持续调整经常会带来显著的计算成本。在 PTMs 的背景下,模型的部署不仅限于基于云的环境,还扩展到边缘设备。
5.4 超越PTM知识的新基准
CL 的本质是赋予学习系统获取以前缺乏的知识的能力。然而,鉴于用于 PTMs 的广泛训练数据集,如 ImageNet,这些模型很少遇到不熟悉的信息。因此,在其预训练数据集的子集上训练 PTMs 可能是多余的。迫切需要新的数据集,与 ImageNet 相比显示出显著的领域差异,以有效挑战这些模型。
5.5 关于 PTMs 优势的理论研究
实际应用需要模型具备持续更新而不遗忘的能力。最近,预训练模型的引入显著改变了我们进行持续学习的方式。在本文中,我们提供了一个关于使用预训练模型进行持续学习的全面综述,将它们分类学地分为三个类别。
此外,我们在七个基准数据集上进行了广泛的实验,以全面评估这些类别中方法的性能。我们总结了实验结果,并提出了一个与 batch 无关的公平比较协议。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者