Redian新闻
>
台湾李宏毅:如何让LLMs更好评估文本质量?

台湾李宏毅:如何让LLMs更好评估文本质量?

科技

深度学习自然语言处理 原创
作者:Winnie

大型语言模型(LLMs)在自然语言处理领域的应用越来越广泛,但如何更好地使用它们来评估文本质量一直是个挑战。最近有一篇研究,深入探讨了如何最大程度地提高自然语言生成模型的评估性能,并提供了一些重要的指导原则。让我们一起来了解一下吧!

Paper: A Closer Look into Automatic Evaluation Using Large Language Models
Link: https://browse.arxiv.org/pdf/2310.05657.pdf

进NLP群—>加入NLP交流群

背景

大型语言模型(LLM)能够遵循自然语言指令来完成任务,最近的研究使其有潜力成为自动评估工具。其中,Chiang和Lee(2023)提出的LLM评估以及Liu等人(2023)提出的G-Eval均展示了这种能力,其中LLM可以产生与人类评估接近的评分结果。但两者的方法存在细微差异,对未来研究者如何使用LLM进行自动评估带来了困惑。本文旨在分析这两种方法中的关键组件,并提供如何更好地使用LLMs进行自动评估的指南。

主要发现:

本研究提供了一些关键的指南,以帮助研究人员更好地使用LLMs进行文本自动评估:

  • Auto-CoT不总是有效的:  使用自动CoT(由G-Eval提出)并不总是能够显著提高LLMs评分与人类评分之间的相关性。

  • 始终要求LLMs解释评分: 要求LLMs解释其评分可以显著提高评估结果的相关性,使其更加接近人类评分。

  • 选择适当的温度参数: 在生成LLMs输出时,选择适当的温度参数可以确保评估结果的稳健性,不受温度变化的影响。

  • 灵活的提示方式: 不限制LLMs输出形式的提示方式可以提高评估结果的相关性,使其更加接近人类评分。

实验设置

在实验环节,研究人员选择了ChatGPT(gpt-3.5-turbo)在SummEval和Topical-Chat两个数据集上进行实验,探索LLM评估和G-Eval的关键组件如何影响LLM与人类评分的相关性。评估的标准是LLM评分与人类评分之间的相关系数。

LLM评估和G-Eval评估方法都要求LLM使用k点Likert量表对样本进行评分,但具体实施细节存在以下差异:

  • 自动思维链: LLM评估和G-Eval中的任务描述和评分标准都是人工编写的。然而,Liu等人(2023)认为一些要评估的属性需要更多的不仅仅是简单的定义和评估标准,因此他们使用LLMs确定评估步骤。具体来说,他们将属性的任务描述、定义和标准连接起来,并附上一行“评估步骤:”来提示LLM。然后,LLM生成一个有序列表,其中包含逐步评估步骤。他们称这个过程为自动思维链(CoT)。G-Eval使用人工编写的任务说明和自动生成的评估步骤来提示LLM对样本进行评分。
  • 输出提示:在LLMs的输入末尾,G-Eval使用提示“{{占位符}}(仅评分):”来限制LLM仅输出数值评分;占位符将被评估属性替换。相反,LLM评估使用以下问题来要求LLM分配评分:“样本{{占位符}}有多{{占位符}}?(在1-k的范围内,其中1表示最低)”。LLM的输出形式没有限制。

实验结果与分析

LLM评估性能的衡量方式是LLM评分与人类评分之间的相关系数。

实验结果表明,在某些情况下,使用Auto CoT确实可以提高评估的一致性、连贯性和相关性,并具有统计学显著性。然而,在其他情况下,比如在Topical-Chat的案例中,使用Auto CoT并未显示出一致且有意义的改进。

研究团队还探讨了提示ChatGPT的方式如何影响其生成的评分与人类评分的一致性。实验发现,允许ChatGPT自由回答问题(不仅仅是生成一个数值分数)会产生更高的Pearson's r和Kendall's τ,尽管模型在大多数情况下还是会输出一个数值分数。有趣的是,模型在知道它需要解释其评分时倾向于生成更容易解释且与人类评分更一致的评分。:

结语

这篇研究探讨了如何通过使用ChatGPT更加有效地进行自动评估工具的运用,提供了一系列具体的指导原则。这些原则基于对Large Language Models (LLM) 评估和G-Eval的详细研究,并且指出,在评分时要求ChatGPT提供解释/分析是一个有效的方法。文中还进行了一系列实验来验证这些指导原则的稳健性,包括在生成过程中改变采样输出的温度和改变给ChatGPT的提示。实验结果表明,与G-Eval方法相比,rate-explain和analyze-rate在相关性方面总是表现更好。另外,在不同采样温度和使用不同提示下,rate-explain和analyze-rate方法相对稳定。最终,文章表明,使用ChatGPT的多个评估属性的相关性可以高于或与使用GPT-4的评分相媲美。尽管如此,这篇研究有其局限性,包括实验主要基于ChatGPT的应用、分析仅基于两个任务,并且无法与先前的一些研究结果进行完全公平的比较。



加下方微信(id:DLNLPer),

备注:昵称-学校(公司)-方向,进入技术群;

昵称-学校(公司)-会议(eg.ACL),进入投稿群。

方向有很多:LLM、模型评测、CoT、多模态、NLG、强化学习等

记得备注呦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性一段乱码,竟让ChatGPT越狱!乱序prompt让LLM火速生成勒索软件,Jim Fan惊了如何更好的使用 LLMs:Self-RAG「不要回答」,数据集来当监听员,评估LLM安全机制就靠它了BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!“大模型本质就是两个文件!”特斯拉前AI总监爆火LLM科普,时长1小时,面向普通大众不到1000行代码,PyTorch团队让Llama 7B提速10倍BMS更新研发战略,计划18个月内将注册资产提高1倍,扩展25项适应症,削减TIGIT抗体和NASH管线为应对输出风险文本的情况,提出一种针对LLMs简单有效的思维链解毒方法斯坦福NLP提出EFT:如何不实际微调而“假装”微调了LLM?GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升如何使用LLMs:Chain of Verification (CoVe)庄子与屈原,你会选择谁的人生?200刀Samsung C24FG70FQE 24" Full HD 1ms 144Hz Curved Quantum Dot 红色日记 9.11-20李宏玮、符绩勋,执掌“新纪源资本”进能形式逻辑,退能四则运算,MAmmoT让LLM成为数学通才LK-99超导机理,类似杨超越,畅通不足精华报告:如何科学预估一款Steam游戏的销量?一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉如何打造AR界的“遥遥领先”?对话李宏伟,雷鸟X2实测上手科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体陈丹琦新作:一个LLM的评估基准LLMBarDreamLLM:多功能多模态大型语言模型,你的DreamLLM~港大联合百度 WSDM 2024 | 如何让LLMs助力推荐系统?图数据增强如何提升LLMs:CCoT余朝辉:产业是本质,科技是引擎,资本是手段,并购要抓住产业的本质Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐每一刻都是幸福谁干的?咋干的?2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。