Redian新闻
>
如何评估一个大语言模型?

如何评估一个大语言模型?

公众号新闻


(本文阅读时间:9分钟)


编者按:大型语言模型(Large language models, LLMs)因其在学术界和工业界展现出前所未有的性能而备受青睐。随着 LLMs 在研究和实际应用中被广泛使用,对其进行有效评估变得愈发重要。近期已有多篇论文围绕大模型的评估进行研究,但尚未有文章对评估的方法、数据、挑战等进行完整的梳理。日前,微软亚洲研究院的研究员们参与完成了介绍大模型评估领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》。该论文一共调研了219篇文献,以评估对象 (what to evaluate)、评估领域 (where to evaluate)、评估方法 (How to evaluate)和目前的评估挑战等几大方面对大模型的评估进行了详细的梳理和总结。研究员们也将持续维护大模型评估的开源项目以促进此领域的发展。


为什么要研究大模型评测?


通俗来讲,大模型是一个能力很强的函数 f,与之前的机器学习模型并无本质不同。那么,为什么要研究大模型的评测?大模型评测跟以前的机器学习模型评测有何不同?


首先,研究评测可以帮助我们更好地理解大模型的长处和短处。尽管多数研究表明大模型在诸多通用任务上已达到类人或超过人的水平,但仍然有很多研究在质疑其能力来源是否为对训练数据集的记忆。如,人们发现,当只给大模型输入 LeetCode 题目编号而不给任何信息的时候,大模型居然也能够正确输出答案,这显然是训练数据被污染了。


其次,研究评测可以更好地为人与大模型的协同交互提供指导和帮助。大模型的服务对象终究是人,那么为了更好地进行人机交互新范式的设计,我们便有必要对其各方面能力进行全面了解和评估。如,我们最近的研究工作 PromptBench:首个大语言模型提示鲁棒性的评测基准,便详细地评测了大模型在“指令理解”方面的鲁棒性,结论是其普遍容易受到干扰、不够稳定,这便启发了我们从 prompt 层面来加强系统的容错能力。


最后,研究评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。大模型一直在不断进化,其能力也越来越强。那么,通过合理、科学的评测机制的设计,我们能否用演化的角度来评测其能力?如何提前预知其可能的风险?这都是重要的研究内容。


因此,研究大模型的评测具有十分重要的意义。


综述主要内容


自 ChatGPT 去2022年10月问世以来,关于大模型的研究变得炙手可热起来。我们希望探讨大模型研究的一个重要方向:模型评估。根据不完全统计(见下图),大模型的评估方面发表的文章呈上升趋势,越来越多的研究着眼于设计更科学、更好度量、更准确的评估方式来对大模型的能力进行更深入的了解。



为此,我们于近期完成了介绍大模型评估领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》。该论文一共调研了219篇文献,以评估对象 (what to evaluate)、评估领域 (where to evaluate)、评估方法 (How to evaluate)和目前的评估挑战等几大方面对大模型的评估进行了详细的梳理和总结。其研究目标是增强对大模型当前状态的理解,阐明它们的优势和局限性,并为其未来发展提供见解。同时,我们也将该项工作进行了开源,希望有更多同行参与,共同促进该领域的发展。



论文链接:

https://arxiv.2307.03109


开源链接:

https://github.com/MLGroupJLU/LLM-eval-survey


大模型评测相关研究:

https://llm-eval.github.io/





作为大型语言模型(Large language models, LLMs)评估的首次全面综述,本文主要从三个方面对现有工作进行了探索:



  • 评估内容 (What to evaluate),对海量的 LLMs 评估任务进行分类并总结评估结果;

  • 评估领域 (Where to evaluate),对 LLMs 评估常用的数据集和基准进行了总结;

  • 评估方法 (How to evaluate),总结了目前流行的两种 LLMs 评估方法。


研究框架


此外,研究还对大模型评估不可或缺的三个维度内容进行了综合总结。最后,研究讨论了大模型评估时可能面临的重大挑战,为今后的研究提供了建议。


评估什么


本文的主要目的是总结和讨论目前在大型语言模型上的评估工作。在评估 LLMs 的性能时,选择合适的任务和领域对于展示大型语言模型的表现、优势和劣势至关重要。为了更清晰地展示 LLMs 的能力水平,文章将现有的任务划分为以下7个不同的类别:


  1. 自然语言处理:包括自然语言理解、推理、自然语言生成和多语言任务

  2. 鲁棒性、伦理、偏见和真实性

  3. 医学应用:包括医学问答、医学考试、医学教育和医学助手

  4. 社会科学

  5. 自然科学与工程:包括数学、通用科学和工程

  6. 代理应用:将 LLMs 作为代理使用

  7. 其他应用


这样的分类方式能够更好地展示 LLMs 在各领域的表现。需要注意的是,几个自然语言处理领域有交叉点,因此这种领域的分类只是一种可能的分类方式。


评估内容


在哪评估


我们通过深入探讨评估基准来回答在哪里评估的问题,如下图所示,评估基准主要分为通用基准(General benchmarks)和具体基准(Specific benchmarks)。


评估领域


随着 LLMs 基准测试的不断发展,目前已有许多受欢迎的评估基准。下表综述总结了19个流行的基准测试,每个基准关注不同的方面和评估标准,为各自的领域做出了贡献。


评估基准


如何评估


在本节中,文章介绍了两种常用的评估方法:自动评估和人工评估。这两种方法在评估语言模型和机器翻译等任务时起着重要的作用。自动评估方法基于计算机算法和自动生成的指标,能够快速且高效地评估模型的性能。而人工评估则侧重于人类专家的主观判断和质量评估,能够提供更深入、细致的分析和意见。了解和掌握这两种评估方法对准确评估和改进语言模型的能力十分重要。


综述总结


在这一部分,文章总结了 LLMs 在不同任务中的成功和失败案例。


LLMs 能够在哪些方面表现出色?1. LLMs 在生成文本方面展现出熟练度,能够产生流畅且准确的语言表达。2. LLMs 在语言理解方面表现出色,能够进行情感分析和文本分类等任务。3. LLMs 具备强大的语境理解能力,能够生成与输入一致的连贯回答。4. LLMs 在多个自然语言处理任务中表现出令人称赞的性能,包括机器翻译、文本生成和问答任务。


LLMs 在什么情况下可能会失败?1. LLMs 在生成过程中可能会表现出偏差和不准确性,导致产生有偏差的输出。2. LLMs 在理解复杂的逻辑和推理任务方面能力有限,在复杂的环境中经常出现混乱或错误。3. LLMs 在处理大量数据集和长期记忆方面面临限制,这可能会在处理冗长的文本和涉及长期依赖的任务方面带来挑战。4. LLMs 在整合实时或动态信息方面存在局限性,使得它们不太适合需要最新知识或快速适应变化环境的任务。5. LLMs 对提示非常敏感,尤其是敌对提示 ,这些提示会触发新的评估和算法,提高其鲁棒性。6. 在文本摘要领域,可以观察到 LLMs 可能在特定的评估指标上表现出低于标准的性能,这可能归因于那些特定指标的内在限制或不足。7. LLMs 在反事实任务中 的表现不令人满意。




重大挑战


评估作为一门新学科:我们对大模型评估的总结启发我们重新设计了许多方面。在本节中,我们介绍了以下7个重大挑战。


  1. 设计 AGI 基准测试。什么是可靠、可信任、可计算的能正确衡量 AGI 任务的评估指标?

  2. 设计 AGI 基准完成行为评估。除去标准任务之外,如何衡量 AGI 在其他任务,如机器人交互中的表现?

  3. 稳健性评估。目前的大模型对输入的 prompt 非常不鲁棒,如何构建更好的鲁棒性评估准则?

  4. 动态演化评估。大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评估方法?

  5. 可信赖的评估。如何保证所设计的评估准则是可信任的?

  6. 支持所有大模型任务的统一评估。大模型的评估并不是终点、如何将评估方案与大模型有关的下游任务进行融合?

  7. 超越单纯的评估:大模型的增强。评估出大模型的优缺点之后,如何开发新的算法来增强其在某方面的表现?


研究的重点是,评估应该被视为推动 LLMs 和其他人工智能模型成功的基本学科。现有的研究方案不足以对 LLMs 进行全面的评估,这可能为未来的 LLMs 评估研究带来新的机遇。


结论


评估具有深远的意义,在人工智能模型的发展中变得势在必行,在 LLMs 不断发展的背景下尤其如此。本文首次从评估什么、如何评估、在哪里评估三个方面对 LLMs 的评估进行了全面的概述。通过封装评估任务、协议和基准,研究的目标是增强对 LLMs 当前状态的理解,阐明它们的优势和局限性,并为未来 LLMs 的发展提供见解。


研究的调查显示,目前的 LLMs 在许多任务中都存在一定的局限性,尤其是推理和鲁棒性任务。与此同时,对当代评估系统进行调整和发展的需求依然明显,以确保对 LLMs 的内在能力和局限性进行准确评估。最后,本文确定了未来研究应该解决的几个重大挑战,并希望 LLMs 能够逐步提高大语言模型为人类服务的水准。


我们还在以下网站中汇总了本团队所有的大模型评测相关研究,欢迎关注:

https://llm-eval.github.io/

https://github.com/microsoft/promptbench












你也许还想看:






微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」QCon 15 年特别策划:大语言模型如何给前端开发者带来新体验古希腊文明真伪探讨之三:地球是圆的吗?幻象 or 事实 | HaluEval:大语言模型的幻象评估基准微软:中国无条件批准收购动视暴雪;国家超算中心发布中文大语言模型;JDG 登顶《英雄联盟》总决赛 | 极客早知道大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机商汤大模型全面升级!「商量SenseChat 2.0」大语言模型疯狂上分大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型UCLA发布SciBench,评估大语言模型的科学问题解决能力作为首席执行官,如何评估新出现的各类生成式人工智能模型?When RS Meets LLM:推荐系统如何从大语言模型中取长补短?面向应用视角的全面综述大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐竹间智能总裁兼COO孙彬:大语言模型如何在企业落地清华大学:2023大语言模型综合性能评估报告如何判别大语言模型生成的文本?黄志澄:怎样评估一个国家的太空实力PromptBench: 首个大语言模型提示鲁棒性的评测基准今天,大语言模型革新百度搜索大模型时代,如何评估人工智能与人类智能?学习生成式大语言模型,东北大学自然语言处理实验室有一堂课简单理解高温等离子流驱动力企业怎么才能用上大语言模型?选校评估是美国低龄留学的最大痛点之一,从哪些方面选校?哪些方面评估一所学校?| FS问答精选如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍国产中文大语言模型 “天河天元” 发布,涉及各种小说、古文、百科、新闻、中医、法律等!这个周未伯克利的喜玛拉雅集市ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态苹果AIGC招兵买马!挖角Meta,数十个大语言模型岗位招聘硬核科普:大语言模型,都是如何生成内容的阿里换 CEO;​国内多个大语言模型通过算法备案微软发布 Guidance 语言,用于控制大语言模型星期日义务劳动懒人福音!谷歌让机器训练机器,用大语言模型定制专属于你的家务机器人永居 (四十四)北爱 (一)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。