一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章
本文汇总了 NeurIPS 2023 中几篇与大模型、预训练以及 In-Context Learning 相关的文章。
论文链接:
代码链接:
https://github.com/Zhendong-Wang/Prompt-Diffusion
PRODIGY
论文标题:
PRODIGY: Enabling In-context Learning Over Graphs
https://arxiv.org/abs/2305.12600
实验证据表明,PRODIGY 在涉及引文网络和知识图谱的任务中具有强大的上下文学习性能。相比于硬编码适应的对比预训练基线,我们的方法平均提高了 18% 的上下文学习准确率。此外,相比于有限数据的标准微调,我们的方法平均提高了 33% 的上下文学习准确率。
▲ 图1:在PRODIGY 中使用图上下文的少样本提示的边分类的提示图。(A)给定源图 G,我们提供了由输入头/尾节点及其标签以及查询组成的提示示例 S。(B)对于来自提示示例和查询的每个数据点,我们首先通过从源图 G 中检索上下文来构造其数据图 GD。(C)然后,我们创建一个任务图,以捕获每个数据点与每个标签之间的连接,其中包括每个数据点的数据节点 vx 和每个 Y 中的标签节点 vy。每对数据和标签节点都用与其二进制标签对应的边属性连接。
Promptist
论文标题:
Optimizing Prompts for Text-to-Image Generation
https://arxiv.org/abs/2212.09611
https://github.com/microsoft/LMOps/tree/main/promptist
实验结果表明,他们的方法在自动评估指标和人类偏好评分方面优于手动设计的提示。此外,强化学习进一步提升了性能,特别是在领域外的提示上。
NLGraph
论文链接:
代码链接:
https://github.com/Arthur-Heng/NLGraph
LLMs 越来越多地用于具有隐式图结构的任务,如机器人技术、结构化常识推理、多跳问题回答等,这表明需要其明确的图形推理能力。虽然 LLMs 在具有隐式结构的任务中表现出色,但其明确的图推理能力尚未充分探索。该论文旨在探讨 LLMs 是否能够使用自然语言在图上执行结构化操作。
基准创建:该论文引入了 NLGraph 基准,这是一个综合性的测试平台,用于评估 LLMs 的图推理能力。NLGraph 包含 29,370 个问题,涵盖了各种图推理任务,涵盖了不同复杂性,从直观简单的任务,如连通性、循环和最短路径,到更复杂的问题,如拓扑排序、最大流、二部图匹配、哈密尔顿路径以及模拟图神经网络。 图推理评估:该研究使用不同的提示方法在 NLGraph 基准上评估 LLMs,包括 GPT-3/4。它检查 LLMs 在多种图推理任务中展现出的程度。 提示技术:研究探讨了各种提示技术,并评估其对 LLMs 的图推理的影响。它研究 LLMs 在使用不同提示的简单和复杂图推理任务中的性能。 基于指令的方法:该论文引入了两种基于指令的提示方法:构建图提示和算法提示。这些方法旨在通过提供具体的指令来增强 LLMs 在解决自然语言图形问题方面的能力。 性能改进:实验证明,构建图提示和算法提示成功提高了 LLMs 在图推理任务中的性能,性能提升幅度在多个任务中达到 3.07% 至 16.85%。
尽管有所改进,使用 LLMs 解决最复杂的图推理问题仍然是未解的研究问题,突显了在这一领域进一步探索的必要性。论文承认 LLMs 具有初步的图形推理能力,对复杂任务中先进提示的影响减弱,存在在上下文学习中的挑战,以及 LLMs 对问题设置中的偶然相关性的敏感性。
LLMs and Planning
论文链接:
代码链接:
https://github.com/karthikv792/LLMs-Planning
研究通过生成一系列与国际规划竞赛中使用的领域类似的实例,并以自主模式和启发式模式评估 LLMs。研究结果显示,LLMs 自主生成可执行计划的能力相当有限,最佳模型(GPT-4)在各个领域的平均成功率仅为 12%。然而,在启发式模式下的结果显示更有希望。在启发式模式下,研究人员证明 LLM 生成的计划可以改善底层规划器的搜索过程,并且外部验证者可以帮助提供对生成计划的反馈,并促使 LLM 生成更好的计划。
AltUp
论文链接:
与之前的方法相比,AltUp 易于实现,需要较少的超参数调整,并且不需要分片。此外,AltUp 专注于增加表示维度,可以与其他技术如 Mixture-of-Experts(MoE)相结合,以获得互补的性能提升。
▲ 在不使用交替更新(左侧)和使用交替更新(右侧)的情况下,对 token represnetation 进行扩宽的示例。这种扩宽导致了在普通 transformer 中计算几乎呈平方增长,这是由于层宽度增加引起的。相反,交替更新保持层宽度不变,并通过在每一层上对表示的子块进行操作来高效地计算输出。
总的来说,这篇文章主要讨论了如何通过 Alternating Updates 技术来提高 Transformer 模型的效率,并介绍了两种改进方法。
Human-Alignment
论文链接:
表征协调:以与人类类似的方式表现世界被认为是人工智能系统能够表达共同价值、有效泛化和从有限数据中学习的重要前提。表征协调可以增强人工智能模型在实际应用中的性能。
信息论框架的开发:本文引入了一个信息论框架,用于分析表征协调对人工智能系统的影响。该框架提供了有关表征协调如何影响人工智能模型性能的见解,特别是在少样本学习任务中。
U 形关系:理论框架预测表征与人类表征之间的程度与人工智能模型在少样本学习任务中的性能之间存在 U 形关系。这意味着与人类高度协调或表征相协调较低的模型可能表现优于表征中等协调的模型。
与高度协调或低度协调的模型相比,中等协调模型在少样本学习任务中表现更好。 与自然对抗攻击相比,与人类协调的模型更加鲁棒
与领域变化相比,与人类协调的模型表现更加稳定
Pre-training and Fine-tuning
论文标题:
On the Connection between Pre-training Data Diversity and Fine-tuning Robustness
https://arxiv.org/abs/2307.12532
Motivation:这篇论文旨在理解深度学习中预训练分布的属性如何影响微调模型的稳健性,特别是在自然分布转移的背景下。本文的主要动机和目标可以总结如下:
关键要点:
迁移学习和预训练:本文承认预训练在深度学习中提高模型性能的有效性,特别是在目标任务的数据有限时。像 ImageNet 这样的数据集的预训练已经成为各种计算机视觉任务的标准做法。
着重于 Robustness:与以往主要关注模型准确性的研究不同,本文将焦点转向了在面对分布转移时微调模型的稳健性,这是在实际部署机器学习系统时的一个关键问题。
数据数量:在预训练中使用的数据数量。 标签空间:预训练期间使用的标签粒度。 标签语义:标签之间的语义相似性。 图像多样性:数据集内图像的多样性。 数据领域:用于预训练的数据来源。
数据数量的主要影响:根据实证结果,本文认为影响下游模型稳健性最显著的因素是预训练分布中的数据数量。数据数量的增加显著提高了稳健性。例如,即使使用来自 ImageNet 或 iNaturalist 的较小数据子集(25,000 张图像)也会显著提高稳健性。
其他因素的影响有限:尽管数据数量是稳健性的主要驱动因素,但本文发现标签粒度、标签语义和图像多样性的变化对稳健性影响较小。极端减少标签粒度或包括更多语义相似的类别并不显著影响微调模型的稳健性。
论文标题:
ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets
这篇论文的动机在于研究深度学习模型的内部分布(ID)与外部分布(OOD)性能之间的关系,特别关注它们在真实世界数据集上的逆相关关系。论文旨在解决逆相关关系的实证证据不足的问题,尽管从理论上讲,这种逆相关关系是可能存在的。它试图探索为什么以及何时 ID 和 OOD 性能会呈现逆相关关系,以及过去的研究可能如何忽略了这些关系。
研究发现:
论文呈现了实证证据,证明在真实世界的数据集中 ID 和 OOD 性能之间存在逆相关关系,而不仅仅存在于人为最坏情况的情境中。 论文理论上解释了逆相关关系是如何发生的,以及过去的研究可能由于方法偏差而未能识别这些关系。
研究结果的含义:
达到高 OOD 性能有时需要与 ID 性能进行权衡。这意味着在 OOD 任务中表现出色的模型可能在 ID 任务上表现较差,反之亦然。
仅专注于优化 ID 性能可能不会导致最佳 OOD 性能。论文提出,集中精力进行 ID 泛化可能会导致 OOD 性能的递减或负面回报。
在 OOD 泛化研究中使用 ID 性能进行模型选择的常见做法可能导致一个盲点。这可能会忽视那些在 OOD 性能方面表现最佳的模型,从而忽略了机器学习中的一系列现象。
逆相关关系的解释:
论文引入了“误规范化”的概念,作为“欠规范化”的扩展,以解释为什么在 ID 性能相似的模型中,OOD 性能可能会有显著差异。在误规范化的情况下,用于训练模型的经验风险最小化(ERM)目标与最大化 ID 性能一致,但与实现高 OOD 性能发生冲突。因此,ID 和 OOD 指标呈现逆相关关系。 数据中健壮特性和虚假特性(robust and spurious)的存在有助于逆相关关系的出现。根据分布变化的幅度,观察到不同的 ID 和 OOD 性能模式。
Continual Learning
论文标题:
Continual Learning for Instruction Following from Realtime Feedback
这篇论文的动机是解决通过互动中的实时用户反馈改进 instruction-following agent 的挑战。作者旨在利用用户提供的反馈,特别是二进制信号的形式,来不断训练代理。动机可以总结如下:
语言学习信号:人类用户和自动代理之间的语境化语言互动提供了有价值的语言学习信号。用户在指导代理执行任务时提供明确的反馈。
学习范式转变:这种方法将学习范式从仅依赖注释数据转变为通过用户互动学习。这降低了数据成本,允许通过与用户的持续互动实现持续改进。
反馈与演示:与使用演示数据的传统方法不同,这种方法侧重于用户反馈,直接针对代理的当前行为。它与代理的当前策略更相关。
通过互动学习:本文旨在通过与用户的持续互动来弥合训练和部署之间的鸿沟。但是这些信号由用户实时提供,可能是嘈杂和不可预测的,因此作者了提出了特殊的设计来克服这个困难。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者