Redian新闻
>
EMNLP2023 | LLMs也许不擅长少样本信息提取,但可以为候选答案重新排序!

EMNLP2023 | LLMs也许不擅长少样本信息提取,但可以为候选答案重新排序!

科技

大型语言模型(LLMs)在各种任务上展现出卓越的能力。近期的研究抛出了一个挑战性的问题:在执行少样本信息提取(Information Extraction, IE)任务时,LLMs是否真正胜过了小型语言模型(SLMs)?这个问题看似简单,却引起了激烈的争论。不同的研究,依赖于不同的IE子任务、使用的数据集和实验设置,呈现了完全对立的视角和结论。这些分歧正是我们在这里要深入探讨的焦点。

今天介绍的这篇研究系统评估了LLMs在各种少样本IE任务上的竞争力,并提出了一个结合了LLMs和SLMs的新框架。让我们来一起了解一下吧🧐!

深度学习自然语言处理 原创
作者:Winnie

Paper: Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples!  
Link: https://arxiv.org/pdf/2303.08559.pdf

进NLP群—>加入NLP交流群

前言

针对信息提取(IE)的研究有的强调LLMs是出色的少样本提取器,而有的却持反对意见。究竟什么导致了这些不同的观点呢?

最近的一篇研究进行了一番系统评估,探寻在多种少样本IE任务中LLMs是否真的表现优秀,并且这样的评估将对进一步的研究发挥关键作用。研究人员尝试回答以下几个问题:

  • LLMs在少样本IE任务中是否真的比SLMs更出色?
  • 增加更多的注释是否能优化LLMs和SLMs的表现?
  • 从财务和时间的角度来看,哪个模型更划算?
  • LLMs和SLMs是否各自在处理不同类型的样本时有所擅长?

实验设置和初步结果

任务和数据集

带着这些问题,这篇研究进行了一场系统的探究,在三大IE任务上开展了实验——命名实体识别(NER)、关系提取(RE)和事件检测(ED),涉及以下八个相关的数据集:

  • 命名实体识别:CONLL’03、OntoNotes 5.0 和 FewNERD;
  • 关系抽取:TACRED 和 TACREV;
  • 事件检测:ACE05、MAVEN 和 ERE。

小模型的选择

在实验中选择了RoBERTa-large作为基于抽取的方法的核心,选择了T5-large作为基于生成的方法的核心。调查了以下4种方法:

  • Fine-tuning (FT):仅需在SLMs上增加一个分类器头,即可为每个句子/词预测标签。
  • FSLS:目前在少样本NER任务中表现最佳的基于抽取的方法。
  • KnowPrompt:目前为止,在少样本RE任务中最顶尖的基于抽取的方法。
  • UIE:这是一种在少样本IE任务中表现出色的统一的基于生成的方法。

大模型的选择

大模型选择CODEX而不是InstructGPT。两者的规模和功能都非常接近,最近的研究表明CODEX在ICL方面的能力要么就是更好,要么至少与InstructGPT相当。此外, 使用API调用InstructGPT的费用是天文数字,而CODEX现在是免费的。

  • Vanilla ICL:简单地使用包含指示、示例和问题的提示。
  • ICL w. AutoCoT :从初始示例中引导出论据,然后在示例中使用这些论据作为推理步骤。
  • ICL w. DS :为测试示例寻找相似的训练示例,使用了一个无监督的方法,通过句子的嵌入来评估它们的相似度。
  • ICL w. SE:通过多次预测来评估每个测试示例。然后,通过多数投票整合这些预测,得出最终结果。

初步实验结果

下图展现了8个数据集上各模型的表现:

初步结果有以下发现:

  • 当样本超级少时,LLMs确实能胜过SLMs,但加入更多样本后,SLMs开始发挥出色。
  • SLMs在简单样本上表现亮眼,但LLMs更擅长处理难度较大的样本。

初步的结果展现出LLMs只有在注释非常稀缺的情况下才能超过SLMs。而当提高样本数量时(比如数量增至几百),SLMs的表现开始大幅领先。这一现象可能与ICL的某些局限性有关。由于ICL的输入长度的最大限制,只有少数可用样本能够作为示范来提示LLMs。此外,提示中更多的样本并不一定能带来更好的性能提升。

但是!LLMs在处理难度较大的样本时却展现出了出色的能力,这可能因为这些复杂样本(例如,置信度较低的样本)需要更多的外部知识或复杂推理,而这恰恰超出了SLMs的能力范围,但对LLMs来说不在话下。

Filter-then-rerank

基于这些发现,研究人员设计了Filter-then-rerank框架,融合了SLMs和LLMs的优势。简单说,就是让SLMs先进行筛选,再让LLMs做决策。

仅通过对0.5% - 13.2%的样本进行重新排序,Filter-then-rerank框架就超过了先前的最先进方法,平均提高了2.1%的F1分数。

结语

在进行的广泛实证研究中,研究团队对三个任务的八个数据集上的大型语言模型(LLM)和小型语言模型(SLM)进行了深入分析。研究揭示了一个显著的现象:尽管LLM携带了巨大的潜力,但由于任务格式、有限的样本容量和模型的庞大规模,它们未能成为理想的少镜头信息提取工具。相较于SLM,LLM引入了显著的时间和财务成本。

令人注目的是,研究团队发现LLM能在相当大的程度上协助SLM,尤其是在重新排列和纠正硬样本方面。基于这些发现,他们提出了一个自适应Filter-then-rerank范式。这种方法精巧地利用了LLM和SLM各自的优势,同时巧妙地避开了它们的局限性。

在这种新方法中,首先利用SLM进行初始样本的过滤,然后仅在挑战性的样本上部署LLM进行重新排序。这种策略不仅在多个小样本IE任务上实现了平均F1增益达2.1%的显著效果,而且极大地减小了因调用LLM API而产生的延迟和预算成本。

该团队的研究呈现了一个探索和平衡的故事——一方面是利用更强大的模型来提高性能,另一方面是在实际应用中保持经济效益和实用性的考虑。通过精明地整合两种模型的优点,他们为研究者和开发者在小样本学习领域打开了一扇新的大门,同时保留了务实的观点。在未来的研究中,探索这一范式的其他应用和扩展将是一个引人入胜的研究方向。



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
MSU冲击TOP20名校录取拿不完!常青藤北美MSU校园行专场圆满收官,期待未来与你们顶峰相遇EMNLP2023 | LLM作用下的成分句法分析基础研究学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?EMNLP 2023 | 用于开放域多跳推理的大语言模型的自我提示思想链清华智能产业研究院周浩:开发「少样本依赖分子生成模型」以实现鲁棒精准的分子设计苹果计划每年投资 10 亿美元发展生成式 AI;微信更新聊天消息提示功能;LLM 新缺陷曝光 | 极客早知道COLING/EMNLP/NAACL/NLPCC群,快来~【五律】 癸卯仲夏行吟--- 问候兼答沁文兄EMNLP 2023 | 大模型对话系统的内功与外功走近艺术宝藏NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)​EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性EMNLP 2023评审内幕公开这是流行离开的世界,但我们并不擅长告别CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器医药代表的真实故事 17 渐入佳境【七绝】球场偶题兼赠沁文兄EMNLP 2023 | 基于知识图谱嵌入的关系感知集成学习算法“悦己”与“悦家”也许不是选择题EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习不擅长招人喜欢李飞飞团队新作:脑控机器人做家务,让脑机接口具备少样本学习能力斯坦福NLP提出EFT:如何不实际微调而“假装”微调了LLM?萝卜刀也许不适合小学生,但适合我!「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍EMNLP 2023 Best Paper公布啦!墨西哥饼(Mission Carb Balance Flour Tortillas)换换做法,好吃到舔盘 (视频+图文)EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?EMNLP2023 | 计算语言揭秘认知扭曲:SCIR推出C2D2中文数据集长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法EMNLP 2023 | 解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型不擅长发疯的年轻人都去看掰掰跳水了?天津,一座“先疯为敬”的城市EMNLP 2023录用结果公布,高分仍然被拒?评审内幕公开​EMNLP 2023 findings | 生成式框架下解决输入扰动槽填充任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。