Redian新闻
>
牛皮吹破?大模型长输入能力不能拿来做上下文学习

牛皮吹破?大模型长输入能力不能拿来做上下文学习

公众号新闻

夕小瑶科技说 原创
作者 | 谢年年
LLMs已经进入了长序列时代。众多的LLMs已经发布支持从32K到2M tokens的长序列窗口。

不过,面对如此庞大的输入,我们不禁要问:这些模型真的能够吃透超长文本,捕捉到其中的精华信息吗?

为了解答这一疑问,滑铁卢大学的学者们精心打造了一套名为LongICLBench的基准测试,专门用来评估LLMs在长上下文理解方面的能力。这套基准专注于极端标签分类中的长上下文学习,涵盖了六个难度不一的数据集,标签数量从28到174类不等,输入长度则从2K到50K tokens都有。它要求LLMs必须全面理解输入内容,准确识别庞大的标签空间,并作出精准预测。

先说结论。

由上图可以看到,作者评估了常见的13个长序列LLMs,LLMs在处理较不具挑战性的任务,且长度较短时,能有效利用长上下文窗口,表现相对较好。

随着难度提升,LLM在理解任务定义时遇到困难,性能大幅下降。

在最具有挑战性的Discovery数据集(174个标签)上,没有任何LLM能够理解长示例,导致准确率为零。这表明当前LLMs在处理和理解长、内容丰富的序列方面存在显著差距

论文标题:
Long-context LLMs Struggle with Long In-context Learning

论文链接
https://arxiv.org/pdf/2404.02060.pdf

长上下文基准

作者收集了包含从短到长的上下文长度的六个数据集,用于评估模型的长上下文学习能力。

为了保持每个数据集内的序列token长度平衡以及对长序列学习的评估目标,从所有类别中选择一部分,分别构建对应于1轮、2轮、3轮、4轮和5轮的评估集,每轮代表包含所有独特选择标签的完整示例集。从每个类别中均匀采样实例数,以减少由标签分布导致的偏差。各数据集的详细统计信息见下表:

  • BANKING77 :是一个包含13,083个标注样本的银行业务领域意图检测数据集,涵盖了77个意图。作者保留了所有意图类型,每个实例大约包含28个tokens。
  • TacRED:是一个大规模的基于新闻和网页文本的实体关系抽取数据集,共有106,264个例子,源自年度TAC知识库人口普查的语料库。每个句子仅标注一个关系,共涵盖41种关系类型,每个例子的平均长度为80个tokens。
  • DialogRE: 是一个基于人类标注的对话式关系抽取数据集,由《老友记》中的1788个对话组成,共有36种可能的关系类型存在于对话中的论点对之间。每个例子平均包含约226个tokens。
  • Discovery :是一个自动发现具有相关语用标记的句子对并精心编纂的大规模数据集,包含174个语用标记,每个标记至少有10,000个例子。每个例子平均包含约61个tokens。共有174种语用标记类型,这是最具有挑战性的任务,具有细致的标签。

模型和实验设置

在探索极端标签分类的无监督学习中,作者对一系列近期开源的约70亿参数的长序列语言模型进行了全面评估,包括Gemini和GPT-4-turbo等最先进的模型,如下表所示:

▲使用预训练后进行指令调优的 基线模型。LF表示在预训练后对模型进行更长上下文语料的微调。

作者为每个数据集构建提示:

为了公平地评估开源模型和基于API的模型,作者为所有模型随机抽取了相同数量的示例,确保了上下文演示的无偏分布。例如,一轮输入将包含涵盖所有类型的示例集,而五轮则包含每个标签的实例五次。

在测试阶段,从每个数据集的测试集中抽取500个例子,同时保证标签类型的分布均匀。所有的开源模型从HuggingFace1加载预训练权重,而基于API的模型则通过官方文档中的脚本进行调用。

实验结果

作者在以上提到的数据集上做了实验,实验结果如下表所示:

BANKING77是相对简单的任务,其1轮到5轮的上下文长度从2K到14K,大多数模型可以从更多的示例中获益。从2K到4K,大多数开源模型要么出现了几乎翻倍的准确率大幅增长,要么完全失败。在3轮之后,增加更多示例的性能提升有限。

▲意图检测数据集BANKING77

而对于更复杂的任务,TacRED和DialogueRE,则更需要长期上下文理解能力,所有少量样本模型的整体性能相比BANKING77有所下降。只有GPT4-turbo能持续从更多示例中获益,其他模型在上下文长度约为20K时达到峰值。

▲基于新闻和网页文本的实体关系抽取数据集TacRED随上下文长度增长的结果:
▲对话式关系抽取数据集DialogRE随着上下文长度增加的结果:

Discovery数据集极具挑战性,其标签空间异常庞大,涵盖了多达174个类别。仅仅是遍历一轮所有可能性的上下文长度,就已经达到了惊人的10K。在这种极端条件下,即便是顶尖的GPT-4-turbo模型也难以准确区分细微的类型差异,因而得分归零。

▲Discovery随着上下文长度增加的结果:

从以上不同难度的任务可以看出,模型在理解和处理不同类型任务时的能力差异。初步推测,即便是强大的LLMs,如GPT-4-turbo,在处理DialogRE和Discovery等复杂任务时,也似乎存在某种能力上限

ICL中的性能可能与任务复杂性之间存在潜在的数学关联。

另外作者还显示了不同数据集上代表性模型的性能结果。

随着任务难度的增加,性能大幅下降。Qwen和Mistral的性能甚至与演示长度呈线性衰减。这表明ICL中的性能可能与任务复杂性之间存在潜在的数学关联。

实例的位置分布是否会影响长序列的上下文学习性能

分散分布

作者在中等复杂度的数据集TacRED上进行了试点实验,每个标签类型重复三次,总共得到123个不同的实例(计算为41 × 3)。在这些实验中,作者随机分布了具有相同标签的实例,形成了分散的分布。对每个实例,详细记录了它在提示中的相对位置及其对应的标签,随后计算了每个标签类别的准确性。

如上图的第一行所示,以可视化的方式展示了每个标签的准确性,与提示中的位置一一对应,不同的颜色用以区分不同的标签类型。

在类别分布分散的情况下,像InternLM2-7B-base这样的模型在某些特定标签上表现出了可接受的性能(如上图中红色圆圈标记的部分),其准确率大约为60%,且这一性能并不受实例位置的影响。

相对而言,ChatGLM3-6B-32K模型在广泛的标签上比较稳点。

而GPT4-turbo模型在大多数标签类型上持续保持着超过80%的准确率,仅有个别例外。

分组分布

为了便于在分散分布和分组分布之间进行清晰的比较,作者将同一类别的实例放在在演示提示中相邻位置。这种重新组织对模型的性能产生的影响,如下表所示:

▲分组表示将同类的示例示例紧密排列在一起, 而不是随机分布在提示中

在将实例按类别分组后,大多数模型的性能普遍下降。Mistral-7B-v0.2-base和InternLM2-7B-base等模型表现出显著的性能下降,对实例分组的很敏感。

为了更深入地探究这一现象,作者可视化了分组标签在提示中位置与准确性的关系,如下图第二行所示:

可以明确地看出,一些模型,如InternLM2-7B-base,对实例的分布非常敏感,只能处理标签位于提示末尾的实例。

相反,其他开源模型如ChatGLM3-6B-32K很稳健,准确性仅下降了3.3%。

令人惊讶的是,GPT4-turbo也无法免除分组分布带来的挑战,性能下降明显,达到了20.3%。

这种观察到的性能下降在各个模型中都是一致的,不受标签在提示中具体位置的影响。

结论

总的来说,本文探讨了LLMs在长序列的无监督学习任务中的能力。作者构建了一个数据集——LongICLBench,包含不同长度上下文难度的长序列学习任务。研究发现,尽管语言模型在处理不超过20,000个tokens的输入时表现出色,但其处理和理解更长序列的能力显著下降。

因此对于现有的LLMs来说,长序列理解和推理仍然是一个艰巨的任务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens微软发布!提示工程进化为位置工程,有效提升RAG与上下文学习Meta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4破解大模型安全难题,360推出大模型安全能力框架马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文无可奈何花落去:“友情”在消亡?愚人节集体整活儿!这帮大厂和二游公司,牛皮吹的太大了...元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!Meta革命新架构掀翻Transformer!无限上下文处理!32K上下文,Mistral 7B v0.2 基模型突然开源了给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2苹果和百度讨论 AI 合作;雷军公布第二批小米汽车交付中心城市候选名单;阿里、百度将推出大模型长文本功能 | 极客早知道我为何不喜欢网络辩论:深入探讨虚拟争吵的背后拾起久远的记忆:学习女红(gong)一次性支持 200 万字无损上下文!Kimi智能助手玩了个大的——月之暗面「登月」最新进展!LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文百万token上下文窗口也杀不死向量数据库?CPU笑了我们的那些故事(剧终)多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免褚会长输了990万,却赢了人品;愿赌服输,是成年人的最大体面月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型58行代码把Llama 3扩展到100万上下文,任何微调版都适用大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMathCVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解一口气读完甄嬛传剧本、大部头医书:月之暗面200万字上下文Kimi开启内测春天的魅力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。