Redian新闻
>
UCLA发布SciBench,评估大语言模型的科学问题解决能力

UCLA发布SciBench,评估大语言模型的科学问题解决能力

科技

©PaperWeekly 原创 · 作者 | Xiaoxuan Wang

单位 | UCLA

研究方向 | 大语言模型评测


论文题目:
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

论文链接:

https://arxiv.org/abs/2307.10635

代码链接:

https://github.com/mandyyyyii/scibench/




研究背景


近年来,大语言模型(LLMs)的发展取得了显著进展,极大地扩展了人工智能的应用领域。由于这些模型在很多数学任务方面展现出出色的表现,大模型被认为具备了推理的能力。


然而,当前对 LLMs 在数学推理任务中表现优异的基准评估可能过于乐观,原因在于这些基准的局限性。许多现有基准问题  1)过于简单,在逻辑推理和运算上缺乏足够的复杂性  2)而且对于 LLMs 的推理能力深度评估不足。此外,3)一些基准问题的设计,例如多项选择题,容易让 LLMs 从备选选项中猜测答案,从而掩盖了它们在问题理解和推理过程中的实际能力。




新的数据集

为了更好的评估大模型解决科学问题的能力,我们引入了一个全新的数据集,名为 SCIBENCH。该数据集包含两个部分:教科书习题(开放集)和考试题目(封闭集)。教科书习题包含来自大学课程中常用教科书的 695 个问题,涵盖了多个学科,如物理学、化学、数学等。这些问题都是开放式的,需要多步推理和复杂的数学运算。考试题目包含了来自大学课程的 7 套期中和期末考试,在计算机和数学领域上。


我们的数据集以简答题的形式呈现,不会提供模型可能所需的任何与答案相关的信息。数据集还包含了一定量的带答案的题目,以供进一步分析。我们的数据集采用了复杂的运算方式,例如求导和微积分。



实验结果

我们对两种代表性大语言模型 GPT-3.5 和 GPT-4 进行了实验评估,并采用了多种提示(prompt)策略和外部工具来辅助解决问题。实验结果显示,在没有提示(prompt)或外部工具的情况下,LLMs 在教科书习题的数据集上的平均准确率仅为 10.62% 和 16.81%。在提示(prompt)策略与外部工具相结合的情况下,GPT-4 在教科书习题的数据集上的平均得分为 35.80%,在考试习题的数据集上为 51.57%。这些结果表明,未来 LLMs 在科学问题解决方面有很大的提升潜力。




自动分析

为了全面了解 LLMs 在解决科学问题中的局限性,我们提出了一种自动分析方法:首先,我们通过分析模型解答错误的问题,概括出了十项 LLMs 在解决问题上表现欠佳的关键技能:


  • 逻辑分解和分析技巧(Logical decomposition):这项能力涉及将问题分解为较小的、可管理的部分,并理解这些部分之间的关系。

  • 假设的识别(Identification of assumption):这项技能涉及识别问题中相关的和必要的假设的能力。

  • 空间感知(Special perception):这对理解如物理和化学等领域的问题非常重要,其中模型需要可视化分子、力、场等。

  • 因果推理(Causal reasoning):这是理解因果关系的能力。

  • 问题推理能力(Problem deduction):这指的是从问题中给定的信息推断和推导可能的解决方案或潜在原理的能力。

  • 抽象推理(Abstract reasoning):这项技能涉及理解无法通过物理感知的复杂概念的能力,以及在具体例子之外识别模式或关系的能力。

  • 科学知识掌握(Scientific literacy):这项技能需要全面理解各个学科的关键科学原理、专业术语以及研究方法。

  • 代码转换技巧(Code conversion):这涉及能够准确地将解决步骤转换为不同的编程语言,如 Python 或 Wolfram 语言的能力。

  • 逻辑推理(Logical reasoning):这是进行有理论论证和识别论点或数据集中的谬误或不一致的能力。

  • 计算技巧(Calculation):这涉及能够准确执行数学运算和计算的能力。


然后,通过将这十个关键技能的描述提供给新的 LLM,让其在每个题目上自动分类之前模型在解题中缺乏的技能。我们把这项分析作用到了六种实验情况下。通过分析这六种实验情况发现,任何现有的提示策略或者工具运用的方法都不能全面地提升大语言模型的技能,改善某一方面的技能可能导致原有的技能缺失。




更多的例子



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
遇到Flash Flood一周年“千模千测”——针对大语言模型认知能力的高效测试方法ACL 2023 | 使用语言模型解决数学推理问题的协同推理框架生成式 AI 与大语言模型时代的 NVIDIA GPU 生态 | NVIDIA 解决方案与架构技术总监张瑞华演讲预告如何评估大语言模型是否可信?这里总结了七大维度如何评估一个大语言模型?《我的父亲是流亡学生》: 27. 航向台湾祝愿,人和人的不同普京的秘密(2)——化学武器和间谍(2)田渊栋团队新作:通过位置插值来扩展大语言模型的上下文窗口给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐幻象 or 事实 | HaluEval:大语言模型的幻象评估基准大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机矢量数据库:企业数据与大语言模型的链接器学习生成式大语言模型,东北大学自然语言处理实验室有一堂课大语言模型真能“理解”语言吗?K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型商汤大模型全面升级!「商量SenseChat 2.0」大语言模型疯狂上分SafetyBench:通过单选题评估大型语言模型安全性清华大学:2023大语言模型综合性能评估报告微软发布 Guidance 语言,用于控制大语言模型陈丹琦 ACL'23 Tutorial - 基于检索的大语言模型 学习笔记PromptBench: 首个大语言模型提示鲁棒性的评测基准今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力胜利大会师 – 厉害的老妈游澳门改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术新加坡科技设计大学提出FLACUNA:提高LLMs问题解决能力!张晓燕:金融领域正迎来大语言模型的巨大机遇ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」比 Spark 快 9 倍,超越 ClickHouse,在大语言模型时代构建全新数据平台大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。