Redian新闻
>
北大王选实验室 | 摘要已死?

北大王选实验室 | 摘要已死?

科技

深度学习自然语言处理 原创
作者:Winnie

最新一篇研究里探索了大型语言模型(LLMs)在文本摘要这一领域的表现。他们设计了新的数据集,通过一系列人类评估实验评估LLMs在不同摘要任务中的表现。

惊人的是,大多数人类评估者实际更倾向于选择LLM生成的摘要,甚至超过了参考摘要(人工编写)的标准。

这个结果意味着,LLMs的介入可能会使许多传统的文本摘要工作(在特定的数据集上微调)变得多余。

当然,我们也看到了未来的发展方向,包括创建更高质量的评估数据集和发展更可靠的评估方法来提升LLM的表现。

让我们一起深入了解一下这项研究吧!

Paper: Summarization is (Almost) Dead
Link: https://arxiv.org/pdf/2309.09558.pdf

进NLP群—>加入NLP交流群

数据集

为了避免LLMs在训练时“见过”数据的情况,研究者们采用了最新的数据来构建专门用于每个摘要任务的人类评估数据集。数据集一共包括5个任务,每个任务都包含了50个样本。

在构建用于单一新闻、多新闻和对话摘要任务的数据集时,他们借鉴了CNN/DailyMail, Hermann Multi-News和Mediasum等现有数据集的构建方法。例如,他们从DailyMail网站中选择最新的资讯来制作数据集。

在跨语言摘要任务中,他们先使用Google Translate将参考摘要从英语翻译成中文,再进行后编辑来确保翻译的准确性。

对于代码摘要任务,研究团队借鉴了Bahrami等人在2021年的方法来创建数据集,源文件选自Go语言程序。

模型

研究团队选择了GPT-3、GPT-3.5和GPT-4这三款模型。此外,他们还选用了1-2款已在特定任务数据集上微调过的较小模型。例如,在单一新闻任务中选择了BART和T5,而在多新闻任务中则选用了Pegasus和BART。

实验配置

为了全面评估LLMs在各种摘要任务中的性能,他们进行了人类评估实验,聘请了两名注释者来完成这项任务。每名注释者负责50个问题,涉及成对比较不同系统生成的摘要。

在评估过程中,注释者不仅需要比较不同摘要系统生成的摘要,还要基于源文章进行评估。为了衡量注释者之间的一致性,他们计算了Cohen's kappa系数,得出了0.558的结果,表明注释者之间有可接受的一致性。

实验结果

摘要的整体质量比较

在这个实验中,通过人类评估员来比较不同摘要的整体质量,采用WinRateNM评估指标,这是一个表明系统M相对于系统N的优先程度的指标。

在所有任务中,LLMs生成的摘要都超越了人类生成的摘要和经过微调的模型生成的摘要。

为什么LLMs能够超越人类编写的摘要呢?初步观察表明,LLM生成的摘要展示了高度的流畅性和连贯性。但是,LLM摘要和人类编写的摘要之间的相对事实一致性仍然不确定。

摘要的事实一致性比较

在第二个实验中,他们进一步探讨了摘要的事实一致性问题,尤其是分析了LLMs和人类生成的摘要中的“句子级幻觉”。他们发现人类生成的摘要和GPT-4生成的摘要存在相似或更高的幻觉数量。

他们将这些幻觉分为两类:内在幻觉和外在幻觉。内在幻觉指的是摘要中的事实信息与源文本之间的不一致,而外在幻觉是指摘要包含源文本中没有的某些事实信息。他们发现发现人类生成的摘要中外在幻觉的比例较高,特别是在多新闻和代码摘要任务中。

对比分析

人类参考摘要 vs. LLM摘要

人类编写的参考摘要相比LLM摘要存在一个特定问题,即缺乏流畅性。人类编写的参考摘要有时信息不完整,存在缺陷。另一个问题是人类编写的参考摘要存在幻觉。

微调模型生成的摘要 vs. LLM摘要

与LLM摘要相比,我们发现微调模型生成的摘要往往有固定和僵硬的长度,而LLMs能够根据输入的信息量调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对这些主题的覆盖较低,而LLMs在生成摘要时可以捕获所有的主题。

结论与未来研究方向

人工评估结果表明,LLMs生成的摘要的质量在许多数据集中超越了参考摘要。可以预见,随着未来LLMs的不断改进,它们的能力将进一步增强。以前的摘要方法通常是为特定的类别、领域或语言量身定制的,从而导致其通用性有限,其重要性也逐渐减弱。然而,作者认为以下方向依旧值得探索:

摘要数据集

数据集的角色从模型训练转向测试,这要求更高质量的参考摘要。之前生成的数据集将逐渐被淘汰,未来的参考摘要将需要人类专家的注释。

目前大多数的摘要数据集都是英文的,侧重于新闻文章、科学文章或维基百科。源文档相对较短。为了全面评估LLMs的摘要能力,有必要纳入其他多元化的数据类型和其他语言,尤其是那些资源较少的语言。此外,还需要在数据集中包含更长的文档,如书籍,以便进行全面的评估。

定制化摘要

通过LLMs来实现根据个体用户的偏好、阅读历史或专业水平来定制摘要的可能性。这意味着可以将摘要过程个性化,以更好地适应每个用户的需求和背景。

实时摘要

实时摘要是另一个待发展的领域,它可以在各种场合发挥关键作用,比如实时流、股票市场波动或社交媒体监控。研究可以集中于提高LLMs的及时性和效率,以更好地服务于这一需求。

交互式摘要

作者强调了开发能与用户互动、在摘要过程中征求澄清或反馈的模型的重要性。这不仅可以提高摘要准确性,还可以增强其相关性。

摘要评估

已过时的评估指标如ROUGE已不再适应摘要领域的发展。近期研究表明,未来的自动摘要评估技术有望依赖于LLMs来实现。同时,在摘要评估方面需要更多地考虑摘要的实际应用和实用性,而不仅仅是基于某些指标来评估摘要的质量。

此外,未来的摘要评估应该更侧重于外部评估,即通过将摘要用作另一个任务(如问答或决策制定任务)的输入来衡量其有效性,以验证是否保留了关键信息。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​走后门入剑桥的实验室“混子”,被迫自掏腰包做实验!却斩获两次诺奖!MIT中国博士生去世,是自杀?还是实验室爆炸?本科就读于北大,原定明年毕业...不做实验室破坏王,要做科研显眼包,这些实验室规则务必熟悉中美俄实验室同日复现常温超导晶体,美国超导股票盘前暴涨140%刚刚,常温常压超导首被证明理论可行:美顶尖实验室论文出炉半导体全球并购,已死?LK-99超导验证重大进展!多个实验室宣称有望复现!孙茂松实验室开招硕士!专攻大模型方向,还有博士博后科研助理名额哭了!科研小白实验室不停踩坑,被师兄无情嘲笑:不配在实验室混……美国劳伦斯伯克利国家实验室(LBNL)在 arXiv 上提交了一篇论文,其结果支持 LK-99 作为室温环境压力超导体DevOps 是否已死?AI 和大语言模型给云计算和 DevOps 带来了哪些影响?|InfoQ 趋势报告常温常压超导首被证明理论可行:美顶尖实验室论文出炉北大法宝丨最高法公报:与公司有关的纠纷裁判摘要汇编(下)中山二院“涉癌”实验室,未见明显拆除迹象!专家:建议尽快调查现存实验室数据Nature Communications | 脑机接口新进展!清华大学柔性电子技术实验室在耳内柔性三维神经电子领域取得重要进展中科院博士实验Protocol遭疯传,让你在实验室横着走!(快码上)你对爱情的期待真的合理吗? | KY测评实验室高迪的奎尔公园突发!美国两名华男被捕!被指控向母国提供美军信息!还有中国人非法经营病毒实验室...汉莎航空三遇 之一 六国游变成七国游中美俄实验室同日复现常温超导材料!网友齐刷见证历史,第四次工业革命来了?上山下鄉赤腳醫别用GPT-4直出文本摘要!MIT、哥大等发布全新「密度链」提示:实体密度是摘要质量的关键刚刚,常温常压超导首被证明【理论】可行:美顶尖实验室论文出炉!近墨者不黑,谁能做到?《水韵江南》&《等待》北大法宝丨最高法公报:与公司有关的纠纷裁判摘要汇编(上)美总统候选人曝光:美国正收集中国人DNA!回想乌克兰生物实验室,病毒是不是人为的?大模型架构创新已死?重磅!常温常压超导首被证明理论可行:美顶尖实验室论文出炉痛心!MIT中国留学生身亡!是自杀?还是实验室爆炸?本科就读于北大,原定明年毕业...苹果Vision Pro开发者实验室海外遇冷,国内开发者兴趣较大北京/杭州内推 | 阿里达摩院视觉技术实验室招聘计算机视觉算法工程师/实习生MIT中国博士生去世,毕业于北大!是自杀?还是实验室爆炸?打破科研资源分配不均,这家“共享”实验室让科研更简单
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。