一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章

科技

2023-11-22 04:11

本文汇总了 NeurIPS 2023 中几篇与大模型、预训练以及 In-Context Learning 相关的文章。

Prompt Diffusion

论文标题：

In-Context Learning Unlocked for Diffusion Models

论文链接：

https://arxiv.org/abs/2305.01115

代码链接：

https://github.com/Zhendong-Wang/Prompt-Diffusion

Motivation：NLP 中 in-context-learning 取得了巨大的成功，但是对于大规模的视觉模型，有两个挑战制约了 ICL 的发展。（1）prompt 的设计，对特定领域的输入输出，需要有有效的视觉 prompt。（2）CV 中大模型往往是为了特定任务训练了比如分割检测等。

这篇文章主要介绍了一种名为 Prompt Diffusion 的框架，用于在基于扩散模型的生成模型中实现上下文学习。该框架通过给定一对特定任务的示例图像和文本指导，自动理解底层任务，并根据文本指导在新的查询图像上执行相同的任务。

为了实现这一目标，作者提出了一种可以建模各种视觉-语言任务的视觉-语言提示，并将其作为输入传递给扩散模型。通过使用这些提示，扩散模型在六个不同的任务上进行联合训练。最终得到的 Prompt Diffusion 模型成为了第一个能够进行上下文学习的基于扩散的视觉-语言基础模型。该模型在训练任务上展示了高质量的上下文生成，并且通过各自的提示有效地推广到新的、未见过的视觉任务。该模型还展示了引人注目的文本引导图像编辑结果。该框架旨在促进计算机视觉领域的上下文学习研究。

PRODIGY

论文标题：

PRODIGY: Enabling In-context Learning Over Graphs

论文链接：

https://arxiv.org/abs/2305.12600

代码链接：

https://github.com/snap-stanford/prodigy

这篇文章介绍了一种名为 PRODIGY 的预训练框架，它可以实现在图上的上下文学习。文章指出，大型语言模型已经展示了在上下文学习方面的能力，但如何在图上进行上下文学习尚未被探索。PRODIGY 的关键思想是使用一种新颖的提示图表示来构建图上的上下文学习，并提出了相应的图神经网络架构和一系列上下文预训练目标。通过 PRODIGY，预训练模型可以通过上下文学习直接在未见过的图上执行新的下游分类任务。

实验证据表明，PRODIGY 在涉及引文网络和知识图谱的任务中具有强大的上下文学习性能。相比于硬编码适应的对比预训练基线，我们的方法平均提高了 18% 的上下文学习准确率。此外，相比于有限数据的标准微调，我们的方法平均提高了 33% 的上下文学习准确率。

▲ 图1：在PRODIGY 中使用图上下文的少样本提示的边分类的提示图。（A）给定源图 G，我们提供了由输入头/尾节点及其标签以及查询组成的提示示例 S。（B）对于来自提示示例和查询的每个数据点，我们首先通过从源图 G 中检索上下文来构造其数据图 GD。（C）然后，我们创建一个任务图，以捕获每个数据点与每个标签之间的连接，其中包括每个数据点的数据节点 vx 和每个 Y 中的标签节点 vy。每对数据和标签节点都用与其二进制标签对应的边属性连接。

Promptist

论文标题：

Optimizing Prompts for Text-to-Image Generation

论文链接：

https://arxiv.org/abs/2212.09611

代码链接：

https://github.com/microsoft/LMOps/tree/main/promptist

Motivation：现有工作在文本到图像生成中存在的主要缺陷是手动设计 prompt 的工作量大且耗时，并且往往无法适用于不同的模型版本。此外，手动设计的 prompt 往往无法很好地与用户意图对齐，导致生成的图像质量不高。这些缺陷启发了本文的研究。

这篇文章主要介绍了一种优化文本到图像生成 prompt 方法。作者提出了一个自动适应用户输入的提示框架，通过强化学习来探索更好的提示。首先，他们使用预训练语言模型对一小部分手动设计的提示进行监督微调。然后，他们使用强化学习来进一步优化提示。他们定义了一个奖励函数，鼓励模型生成更具美感的图像，同时保留原始用户意图。

实验结果表明，他们的方法在自动评估指标和人类偏好评分方面优于手动设计的提示。此外，强化学习进一步提升了性能，特别是在领域外的提示上。

NLGraph

论文标题：

Can Language Models Solve Graph Problems in Natural Language?

论文链接：

https://arxiv.org/abs/2305.10037

代码链接：

https://github.com/Arthur-Heng/NLGraph

LLMs 越来越多地用于具有隐式图结构的任务，如机器人技术、结构化常识推理、多跳问题回答等，这表明需要其明确的图形推理能力。虽然 LLMs 在具有隐式结构的任务中表现出色，但其明确的图推理能力尚未充分探索。该论文旨在探讨 LLMs 是否能够使用自然语言在图上执行结构化操作。

基准创建：该论文引入了 NLGraph 基准，这是一个综合性的测试平台，用于评估 LLMs 的图推理能力。NLGraph 包含 29,370 个问题，涵盖了各种图推理任务，涵盖了不同复杂性，从直观简单的任务，如连通性、循环和最短路径，到更复杂的问题，如拓扑排序、最大流、二部图匹配、哈密尔顿路径以及模拟图神经网络。
图推理评估：该研究使用不同的提示方法在 NLGraph 基准上评估 LLMs，包括 GPT-3/4。它检查 LLMs 在多种图推理任务中展现出的程度。
提示技术：研究探讨了各种提示技术，并评估其对 LLMs 的图推理的影响。它研究 LLMs 在使用不同提示的简单和复杂图推理任务中的性能。
基于指令的方法：该论文引入了两种基于指令的提示方法：构建图提示和算法提示。这些方法旨在通过提供具体的指令来增强 LLMs 在解决自然语言图形问题方面的能力。
性能改进：实验证明，构建图提示和算法提示成功提高了 LLMs 在图推理任务中的性能，性能提升幅度在多个任务中达到 3.07% 至 16.85%。

尽管有所改进，使用 LLMs 解决最复杂的图推理问题仍然是未解的研究问题，突显了在这一领域进一步探索的必要性。论文承认 LLMs 具有初步的图形推理能力，对复杂任务中先进提示的影响减弱，存在在上下文学习中的挑战，以及 LLMs 对问题设置中的偶然相关性的敏感性。

LLMs and Planning

论文标题：

On the Planning Abilities of Large Language Models - A Critical Investigation

论文链接：

https://arxiv.org/abs/2302.06706

代码链接：

https://github.com/karthikv792/LLMs-Planning

Motivation：以往的工作在探索大型语言模型（LLMs）的规划能力方面存在以下问题：

1. 以往的工作主要集中在常识领域/任务上，如在厨房中移动物品、婚礼/菜单规划等，这种评估方式并不包含关于特定领域的任何信息。因此，生成的计划很难评估，因为它们并不针对任何计划执行者，人们往往会对一个看似可行但实际上不可执行的计划给予 reward。本文的研究则通过将领域作为提示的一部分来简化这个问题。

2. 另一种评估规划能力的方式是用户与 LLMs 逐步交互，并重新提示 LLMs 指出其计划中的缺陷，希望 LLMs 最终能够生成可执行的计划。然而，这种评估方式实际上是由人类在交互中进行规划，而不是 LLMs 本身。因此，本文将评估分为自主模式和辅助模式，以明确 LLMs 的规划能力。

3. 还有一些工作主要依赖 LLMs 作为将自然语言问题/目标规范转化为形式规范的“翻译器”，然后将其交给可靠的外部规划器。这种方法并不能揭示 LLMs 本身的内部规划能力，而本文的评估在自主模式和辅助模式下进行，可以更好地了解 LLMs 的规划能力。因此，本文的研究是由于以往工作中存在的评估问题而引发。

这篇文章主要调查了大型语言模型（LLMs）的规划能力。研究者旨在评估 LLMs 在常识规划任务中自主生成计划的效果，以及 LLMs 作为启发式指导其他代理（AI规划器）进行规划任务的潜力。

研究通过生成一系列与国际规划竞赛中使用的领域类似的实例，并以自主模式和启发式模式评估 LLMs。研究结果显示，LLMs 自主生成可执行计划的能力相当有限，最佳模型（GPT-4）在各个领域的平均成功率仅为 12%。然而，在启发式模式下的结果显示更有希望。在启发式模式下，研究人员证明 LLM 生成的计划可以改善底层规划器的搜索过程，并且外部验证者可以帮助提供对生成计划的反馈，并促使 LLM 生成更好的计划。

AltUp

论文标题：

Alternating Updates for Efficient Transformers

论文链接：

https://arxiv.org/abs/2301.13310

Motivation：先前的方法主要关注于 transformer 的处理能力，而在高效地整合扩展的学习表示方面存在研究空白。最近的研究已经在实证和理论上证明，更宽的 token 表示（即更大的模型维度）有助于通过在表示向量中打包更多信息来学习更复杂的函数。然而，简单地扩展学习表示需要相应地增加模型维度，这会导致前馈计算量的平方级增加。

因此，本文的研究目标是在不增加计算成本的情况下，通过引入交替更新（AltUp）技术，以一种简单高效的方式整合更宽的表示。

这篇文章介绍了一种名为 Alternating Updates（AltUp）的技术，用于在 Transformer 模型中引入更宽的表示向量，以提高模型的性能。AltUp 通过将扩展后的表示向量分成多个块，在每个 Transformer 层中只处理一个块，并使用高效的预测机制来推断其他块的输出。这样，AltUp 能够保持模型维度和计算成本不变，同时利用增加的标记维度。

与之前的方法相比，AltUp 易于实现，需要较少的超参数调整，并且不需要分片。此外，AltUp 专注于增加表示维度，可以与其他技术如 Mixture-of-Experts（MoE）相结合，以获得互补的性能提升。

▲ 在不使用交替更新（左侧）和使用交替更新（右侧）的情况下，对 token represnetation 进行扩宽的示例。这种扩宽导致了在普通 transformer 中计算几乎呈平方增长，这是由于层宽度增加引起的。相反，交替更新保持层宽度不变，并通过在每一层上对表示的子块进行操作来高效地计算输出。

文章还介绍了 AltUp 的两个改进方法：Recycled-AltUp 和 Sequence-AltUp。Recycled-AltUp 通过在最后一个线性 + softmax 操作之前将表示向量进行下投影，从而减少了计算量。Sequence-AltUp 则通过对序列长度进行采样，只处理部分标记，从而减少了注意力机制的计算成本。

总的来说，这篇文章主要讨论了如何通过 Alternating Updates 技术来提高 Transformer 模型的效率，并介绍了两种改进方法。

Human-Alignment

论文标题：

Alignment with human representations supports robust few-shot learning

论文链接：

https://arxiv.org/abs/2301.11990

随着人工智能系统越来越多地融入涉及人类互动的环境中，调查这些系统在多大程度上与人类的表征相协调变得至关重要。以前的人工智能协调研究主要侧重于调整人工智能的 value 与人类的 value（reward alignment），但本文强调了将人工智能系统的表征与人类的表征相协调的重要性。

▲ 两个代理人 Alice 和 Bob 之间的表征协调示意图。A：共享数据（x）被展示给两位代理人。B：两位代理人分别形成观察到的对象的表征（和）。C：代理人被要求生成与他们的表征相对应的成对相似性矩阵。然后可以比较相似性判断以测量代理人之间的协调程度。

表征协调：以与人类类似的方式表现世界被认为是人工智能系统能够表达共同价值、有效泛化和从有限数据中学习的重要前提。表征协调可以增强人工智能模型在实际应用中的性能。

信息论框架的开发：本文引入了一个信息论框架，用于分析表征协调对人工智能系统的影响。该框架提供了有关表征协调如何影响人工智能模型性能的见解，特别是在少样本学习任务中。

U 形关系：理论框架预测表征与人类表征之间的程度与人工智能模型在少样本学习任务中的性能之间存在 U 形关系。这意味着与人类高度协调或表征相协调较低的模型可能表现优于表征中等协调的模型。

实证验证：为验证他们的预测并探索与表征协调相关的其他性质，本文使用了 491 个计算机视觉模型进行了实验。结果揭示了与人类协调的模型的三个重要性质：

与高度协调或低度协调的模型相比，中等协调模型在少样本学习任务中表现更好。
与自然对抗攻击相比，与人类协调的模型更加鲁棒
与领域变化相比，与人类协调的模型表现更加稳定

协调的充分性：本文指出，表征协调通常是实现人工智能模型有效利用有限数据、保持鲁棒性和良好泛化的充分但不是必要条件。

Pre-training and Fine-tuning

论文标题：

On the Connection between Pre-training Data Diversity and Fine-tuning Robustness

论文链接：

https://arxiv.org/abs/2307.12532

Motivation：这篇论文旨在理解深度学习中预训练分布的属性如何影响微调模型的稳健性，特别是在自然分布转移的背景下。本文的主要动机和目标可以总结如下：

关键要点：

迁移学习和预训练：本文承认预训练在深度学习中提高模型性能的有效性，特别是在目标任务的数据有限时。像 ImageNet 这样的数据集的预训练已经成为各种计算机视觉任务的标准做法。

着重于 Robustness：与以往主要关注模型准确性的研究不同，本文将焦点转向了在面对分布转移时微调模型的稳健性，这是在实际部署机器学习系统时的一个关键问题。

预训练分布的属性：本文旨在分析预训练分布的各种属性如何影响微调模型的稳健性。研究中调查的属性包括：

数据数量：在预训练中使用的数据数量。
标签空间：预训练期间使用的标签粒度。
标签语义：标签之间的语义相似性。
图像多样性：数据集内图像的多样性。
数据领域：用于预训练的数据来源。

数据数量的主要影响：根据实证结果，本文认为影响下游模型稳健性最显著的因素是预训练分布中的数据数量。数据数量的增加显著提高了稳健性。例如，即使使用来自 ImageNet 或 iNaturalist 的较小数据子集（25,000 张图像）也会显著提高稳健性。

其他因素的影响有限：尽管数据数量是稳健性的主要驱动因素，但本文发现标签粒度、标签语义和图像多样性的变化对稳健性影响较小。极端减少标签粒度或包括更多语义相似的类别并不显著影响微调模型的稳健性。

数据来源的重要性：本文还研究了不同的预训练数据来源，包括自然数据和合成数据集。在数据数量受控的情况下，自然数据来源（如 ImageNet 和 iNaturalist）在下游稳健性方面表现相似。此外，合成预训练数据，如合成的 fractal 数据，相对于从头开始训练，提供了一些稳健性增益，但不如自然数据明显。

ID and OOD Performance

论文标题：

ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets

论文链接：

https://arxiv.org/abs/2209.00613

这篇论文的动机在于研究深度学习模型的内部分布（ID）与外部分布（OOD）性能之间的关系，特别关注它们在真实世界数据集上的逆相关关系。论文旨在解决逆相关关系的实证证据不足的问题，尽管从理论上讲，这种逆相关关系是可能存在的。它试图探索为什么以及何时 ID 和 OOD 性能会呈现逆相关关系，以及过去的研究可能如何忽略了这些关系。

研究发现：

论文呈现了实证证据，证明在真实世界的数据集中 ID 和 OOD 性能之间存在逆相关关系，而不仅仅存在于人为最坏情况的情境中。
论文理论上解释了逆相关关系是如何发生的，以及过去的研究可能由于方法偏差而未能识别这些关系。

研究结果的含义：

达到高 OOD 性能有时需要与 ID 性能进行权衡。这意味着在 OOD 任务中表现出色的模型可能在 ID 任务上表现较差，反之亦然。
仅专注于优化 ID 性能可能不会导致最佳 OOD 性能。论文提出，集中精力进行 ID 泛化可能会导致 OOD 性能的递减或负面回报。
在 OOD 泛化研究中使用 ID 性能进行模型选择的常见做法可能导致一个盲点。这可能会忽视那些在 OOD 性能方面表现最佳的模型，从而忽略了机器学习中的一系列现象。

逆相关关系的解释：

论文引入了“误规范化”的概念，作为“欠规范化”的扩展，以解释为什么在 ID 性能相似的模型中，OOD 性能可能会有显著差异。在误规范化的情况下，用于训练模型的经验风险最小化（ERM）目标与最大化 ID 性能一致，但与实现高 OOD 性能发生冲突。因此，ID 和 OOD 指标呈现逆相关关系。
数据中健壮特性和虚假特性（robust and spurious）的存在有助于逆相关关系的出现。根据分布变化的幅度，观察到不同的 ID 和 OOD 性能模式。

Continual Learning

论文标题：

Continual Learning for Instruction Following from Realtime Feedback

论文链接：

https://arxiv.org/abs/2212.09710

这篇论文的动机是解决通过互动中的实时用户反馈改进 instruction-following agent 的挑战。作者旨在利用用户提供的反馈，特别是二进制信号的形式，来不断训练代理。动机可以总结如下：

语言学习信号：人类用户和自动代理之间的语境化语言互动提供了有价值的语言学习信号。用户在指导代理执行任务时提供明确的反馈。

学习范式转变：这种方法将学习范式从仅依赖注释数据转变为通过用户互动学习。这降低了数据成本，允许通过与用户的持续互动实现持续改进。

反馈与演示：与使用演示数据的传统方法不同，这种方法侧重于用户反馈，直接针对代理的当前行为。它与代理的当前策略更相关。

通过互动学习：本文旨在通过与用户的持续互动来弥合训练和部署之间的鸿沟。但是这些信号由用户实时提供，可能是嘈杂和不可预测的，因此作者了提出了特殊的设计来克服这个困难。

Conclusion

这些 Spotlight，囊括了将 ICL 拓展到多模态大模型，图模型的方法，还有很大程度一部分单纯的试验工作，去揭示目前大模型存在的一些问题，可以看到 LLM 虽然火热，但是遗留下来的问题也相当多，如何在其他领域复刻 LLM 的成功，以及更好的预训练数据/方式仍然是一个 open question.

更多阅读