Redian新闻
>
众多高校和研究机构联合发表:LLMs评估综述

众多高校和研究机构联合发表:LLMs评估综述

科技

本篇文章是一份关于大型语言模型评估的综述,涵盖了评估的各种方法,包括评估什么、在哪里评估以及如何评估

进NLP群—>加入NLP交流群

文章首先介绍了大型语言模型的发展历程和应用领域然后详细介绍了大型语言模型的评估方法,包括人工评估、自动评估和基准测试等。接着,文章介绍了大型语言模型在不同任务中的表现,包括文本生成、问答、机器翻译等。最后,文章总结了大型语言模型评估的挑战和未来发展方向

本文结构图
本文贡献点
LLMs评估论文趋势图

评估内容

本次调查涵盖了多个关键评估任务,包括一般自然语言处理任务、推理、医疗应用、伦理、教育、自然和社会科学、代理应用和其他领域

最新综述评估任务总结
LLM 关于稳健性、道德、偏见和可信度的评估摘要。
基于数学、科学和工程三个方面的自然科学与工程任务评估综述
基于四个方面对医疗应用的评价总结:考试、助理、问答和教育
其他应用的评估总结,包含四方面:教育、搜拖推荐、性格测试和其他特殊任务

文章中提到了关于LLM在不同任务中成功和不成功的案例

具体来说,在自然语言理解任务中,LLM在多项任务中表现出色。在文本生成任务中,LLM的生成质量有时甚至超过了人类提供的参考答案。然而,在法律任务中,LLM的零样本性能较差,存在多种问题,包括不完整的句子和单词、多个句子被无意义地合并以及更严重的错误,如不一致和虚构信息。

哪里评估

LLM 评估基准总结

评估方法和基准在评估LLM的表现中发挥着关键作用。

评估方法可以帮助研究人员确定LLM在不同任务中的表现,并提供改进LLM的方向。基准测试可以提供一个公共的标准,使得不同的研究人员可以在相同的数据集上进行比较,从而更好地评估LLM的表现。因此,评估方法和基准测试都是评估LLM表现的重要组成部分。

怎么评估

主要包括自动评估人工评估

评估协议总结

结论

本文的结论是,评估应该被视为更好地帮助开发更有效的LLM的关键学科。文章总结了LLM的评估方法和基准测试,并提供了LLM在不同任务中的成功和失败案例。此外,文章还指出了LLM评估面临的未来挑战。最后,本文还提供了一个开源的材料库,以帮助研究人员更好地评估LLM的表现能力。

论文:
A Survey on Evaluation of Large Language Models
地址:
https://arxiv.org/abs/2307.03109


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链跑步看世界-佩吉Page我时常漫步在小雨里美国癌症研究机构研发出能杀死所有恶性肿瘤的药物?网友:别扯淡了!北京7所部属高校联合发布高招信息,快来看,有没有你的梦中情校?| 聚焦2023高考没级别,没编制,这些研究机构吸引大量人才,靠的是什么?西湖大学做了多数高校和科技机构做的不够的:任人唯贤,不建土围子11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023以 LLM 为核心 LLM@Core:程序员的大语言模型技术指南刘知远等众多机构提出ToolLLM:促进大型语言模型掌握16000+真实世界的APIs北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会韩国研究机构:1—6月全球动力电池装车量同比增长50.1%LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩LLM综述全新出炉:51页论文带你盘点LLM领域专业化技术LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比AI巨头们给白宫交卷:谷歌、OpenAI、牛津等12家顶尖机构联合发布「模型安全性评估框架」第十四章GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023警惕!SCI论文刚发表,就收到针对ChatGPT等LLM的“监管机构”通知,是“学术警察”还是“网络诈骗”?NLP还能做什么?多机构联合发布百页论文,系统阐述后ChatGPT技术链战国故事《定风波》卷二(1):惊梦规范即治理函数:LLM 赋能的软件架构治理与架构设计美国顶级癌症研究机构:已研发出能杀死所有实体恶性肿瘤的药物!网友:你清醒一点!医学界重磅突破! 顶级研究机构宣布神药问世! 已知能杀死70种癌, 或能彻底攻克Meta推出Llama 2 免费开放商业和研究机构使用谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉LLM评估综述论文问世,分三方面全面总结,还带资料库【沸腾】北美医学顶级研究机构宣布:神药问世!已知能杀死70种癌,或能彻底攻克...LLM 全景图 (The Landscape of LLM)日媒:东电或取消今天的排海计划!研究机构:放射性物质57天内可扩散至大半个太平洋!专家:应对核污水,我国有“防线”美元最大的敌人是黄金世卫组织国际癌症研究机构:阿斯巴甜是可能的致癌物
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。