国际科技财经博客移民网络热点娱乐民生时事公众号

>

UCLA发布SciBench，评估大语言模型的科学问题解决能力

UCLA发布SciBench，评估大语言模型的科学问题解决能力

2023-08-15 10:08

©PaperWeekly 原创 · 作者 | Xiaoxuan Wang

单位 | UCLA

研究方向 | 大语言模型评测

论文题目：

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

论文链接：

https://arxiv.org/abs/2307.10635

代码链接：

https://github.com/mandyyyyii/scibench/

研究背景

近年来，大语言模型（LLMs）的发展取得了显著进展，极大地扩展了人工智能的应用领域。由于这些模型在很多数学任务方面展现出出色的表现，大模型被认为具备了推理的能力。

然而，当前对 LLMs 在数学推理任务中表现优异的基准评估可能过于乐观，原因在于这些基准的局限性。许多现有基准问题 1）过于简单，在逻辑推理和运算上缺乏足够的复杂性 2）而且对于 LLMs 的推理能力深度评估不足。此外，3）一些基准问题的设计，例如多项选择题，容易让 LLMs 从备选选项中猜测答案，从而掩盖了它们在问题理解和推理过程中的实际能力。

新的数据集

为了更好的评估大模型解决科学问题的能力，我们引入了一个全新的数据集，名为 SCIBENCH。该数据集包含两个部分：教科书习题（开放集）和考试题目（封闭集）。教科书习题包含来自大学课程中常用教科书的 695 个问题，涵盖了多个学科，如物理学、化学、数学等。这些问题都是开放式的，需要多步推理和复杂的数学运算。考试题目包含了来自大学课程的 7 套期中和期末考试，在计算机和数学领域上。

我们的数据集以简答题的形式呈现，不会提供模型可能所需的任何与答案相关的信息。数据集还包含了一定量的带答案的题目，以供进一步分析。我们的数据集采用了复杂的运算方式，例如求导和微积分。

实验结果

我们对两种代表性大语言模型 GPT-3.5 和 GPT-4 进行了实验评估，并采用了多种提示（prompt）策略和外部工具来辅助解决问题。实验结果显示，在没有提示（prompt）或外部工具的情况下，LLMs 在教科书习题的数据集上的平均准确率仅为 10.62% 和 16.81%。在提示（prompt）策略与外部工具相结合的情况下，GPT-4 在教科书习题的数据集上的平均得分为 35.80%，在考试习题的数据集上为 51.57%。这些结果表明，未来 LLMs 在科学问题解决方面有很大的提升潜力。

自动分析

为了全面了解 LLMs 在解决科学问题中的局限性，我们提出了一种自动分析方法：首先，我们通过分析模型解答错误的问题，概括出了十项 LLMs 在解决问题上表现欠佳的关键技能：

逻辑分解和分析技巧（Logical decomposition）：这项能力涉及将问题分解为较小的、可管理的部分，并理解这些部分之间的关系。
假设的识别（Identification of assumption）：这项技能涉及识别问题中相关的和必要的假设的能力。
空间感知（Special perception）：这对理解如物理和化学等领域的问题非常重要，其中模型需要可视化分子、力、场等。
因果推理（Causal reasoning）：这是理解因果关系的能力。
问题推理能力（Problem deduction）：这指的是从问题中给定的信息推断和推导可能的解决方案或潜在原理的能力。
抽象推理（Abstract reasoning）：这项技能涉及理解无法通过物理感知的复杂概念的能力，以及在具体例子之外识别模式或关系的能力。
科学知识掌握（Scientific literacy）：这项技能需要全面理解各个学科的关键科学原理、专业术语以及研究方法。
代码转换技巧（Code conversion）：这涉及能够准确地将解决步骤转换为不同的编程语言，如 Python 或 Wolfram 语言的能力。
逻辑推理（Logical reasoning）：这是进行有理论论证和识别论点或数据集中的谬误或不一致的能力。
计算技巧（Calculation）：这涉及能够准确执行数学运算和计算的能力。

然后，通过将这十个关键技能的描述提供给新的 LLM，让其在每个题目上自动分类之前模型在解题中缺乏的技能。我们把这项分析作用到了六种实验情况下。通过分析这六种实验情况发现，任何现有的提示策略或者工具运用的方法都不能全面地提升大语言模型的技能，改善某一方面的技能可能导致原有的技能缺失。

更多的例子

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

学习生成式大语言模型，东北大学自然语言处理实验室有一堂课 ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成微软发布 Guidance 语言，用于控制大语言模型田渊栋团队新作：通过位置插值来扩展大语言模型的上下文窗口张晓燕：金融领域正迎来大语言模型的巨大机遇胜利大会师 – 厉害的老妈游澳门矢量数据库：企业数据与大语言模型的链接器《我的父亲是流亡学生》: 27. 航向台湾陈丹琦 ACL'23 Tutorial - 基于检索的大语言模型学习笔记大型语言模型专场上线！四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机 ACL 2023 | 使用语言模型解决数学推理问题的协同推理框架 SafetyBench：通过单选题评估大型语言模型安全性普京的秘密（2）——化学武器和间谍（2）两行代码解决大语言模型对话局限！港中文贾佳亚团队联合 MIT 发布超长文本扩展技术祝愿，人和人的不同如何评估一个大语言模型？BLIP-2、InstructBLIP稳居前三！十二大模型，十六份榜单，全面测评「多模态大语言模型」K2乔戈里，上交大团队推出一个70亿参数的地球科学大语言模型生成式 AI 与大语言模型时代的 NVIDIA GPU 生态 | NVIDIA 解决方案与架构技术总监张瑞华演讲预告大语言模型的视觉天赋：GPT也能通过上下文学习解决视觉任务清华大学：2023大语言模型综合性能评估报告改写游戏规则！Meta开源大语言模型Llama 2，可免费商用；微软Copilot定价每月每用户30美元 | 环球科学要闻幻象 or 事实 | HaluEval：大语言模型的幻象评估基准新加坡科技设计大学提出FLACUNA：提高LLMs问题解决能力!PromptBench: 首个大语言模型提示鲁棒性的评测基准如何评估大语言模型是否可信？这里总结了七大维度 Google提出LaCLIP：大语言模型重写本文输入，让CLIP重焕光彩！今晚直播 | ACL 2023原作解读：研究评测与提升大语言模型时间推理能力大语言模型真能“理解”语言吗？“千模千测”——针对大语言模型认知能力的高效测试方法遇到Flash Flood一周年比 Spark 快 9 倍，超越 ClickHouse，在大语言模型时代构建全新数据平台商汤大模型全面升级！「商量SenseChat 2.0」大语言模型疯狂上分给大语言模型“开个眼”，看图说话性能超CLIP！斯坦福等新方法无需多模态预训练丨开源 Science的125个科学问题，mRNA疫苗回答了一个获诺奖，还剩124个！

热点事件追踪