Redian新闻
>
AGIEval:准确考察基础模型类人能力的基准评估工具

AGIEval:准确考察基础模型类人能力的基准评估工具

公众号新闻

对基础模型在处理人类任务时的一般能力做出准确评估,已经成为通用人工智能(AGI)开发和应用领域的一大重要问题。基于人工数据集的传统基准往往无法准确反映模型能力是否达到人类水平。

近日,微软的一个华人研究团队发布了一项新型基准测试 AGIEval,这项基准测试专门用于对基础模型的类人能力做准确考察(涵盖高考、法学入学考试、数学竞赛和律师资格考试等)。

该研究团队使用此项基准评估了当前最先进的多个基础模型,包括 GPT-4、ChatGPT 和 Text-Davinci-003 等。

令人印象深刻的是,GPT-4 在 SAT、LSAT 和数学竞赛中的表现均超过人类平均水平,在 SAT 数学测试中达成 95% 的准确率,在中国高考英语测试中准确率亦达到 92.5%,证明了当代基础模型的非凡性能。

与之对应,研究人员发现 GPT-4,在需要复杂推理或涉及特定领域知识的任务中表现尚不理想。

通过对模型能力(理解、知识、推理和计算等)的全面分析,有助于揭示这些模型的优势和局限性,为增强其通用能力的未来发展方向提供支持。通过测试涉及人类认知和决策能力的任务,AGIEval 能够对基础模型在现实场景中的性能做出更可靠、更有意义的评估。

测试中的全部数据、代码和模型输出均通过此 https URL(https://github.com/microsoft/AGIEval)发布。

AGIEval
项目介绍

AGIEval 是一项考察基础模型类人能力的基准测试,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力。

该基准选取 20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。

关于此基准的完整描述,请参阅论文《AGIEval:准确考察基础模型类人能力的基准评估工具》(https://arxiv.org/pdf/2304.06364.pdf)。

任务与数据

AGIEval v1.0 包含 20 项任务,具体为 2 项完形填空任务(高考数学)和 18 项多选题回答任务。在选择题部分,高物理和 JEC-QA 部分对应一个或多个正确答案,其余任务则仅有一个正确答案。

下表所示,为测试题目的完整列表。



可以在 data/v1 文件夹内下载到除 JEC-QA 以外的所有后处理数据。关于 JEC-QA 部分,请前往 JEC-QA 网站获取数据。

使用 JEC-QA 训练数据的前 1000 个实例作为测试集。所有数据集的数据格式如下:


{ "passage": null, "question": "设集合 $A=\\{x \\mid x \\geq 1\\}, B=\\{x \\mid-1<x<2\\}$, 则 $A \\cap B=$ ($\\quad$)\\\\\n", "options": ["(A)$\\{x \\mid x>-1\\}$", "(B)$\\{x \\mid x \\geq 1\\}$", "(C)$\\{x \\mid-1<x<1\\}$", "(D)$\\{x \\mid 1 \\leq x<2\\}$" ], "label": "D", "answer": null}

其中高考语言、高考英语、两科 logiqa、全部 LSAT 和 SAT 均可使用 passage 字段。多选任务的答案保存在 label 字段内。完形填空任务的答案保存在 answer 字段内。

我们还在 data/v1/few_shot_prompts 文件中提供了小样本学习的提示词。

基线系统

我们在 AGIEval v1.0 上评估了基准系统的性能。基线系统基于以下模型:text-davinci-003、ChatGPT (gpt-3.5-turbo) 和 GPT-4。您可以按照以下步骤重现测试结果:

1.在 openai_api.py 文件中填写您的 OpenAI API 密钥。

2.运行 run_prediction.py 文件以获取结果。

模型输出

您可以在 Onedrive 链接(https://1drv.ms/u/s!Amt8n9AJEyxcg8YQKFm1rSEyV9GU_A?e=VEfJVS)中下载到基线系统的零样本、零样本思维链、少样本和少样本思维链输出。请注意,我们修复了 SAT-en 实例中的 52 处拼写错误,并将很快发布更新后的数据集输出。

评估

您可以运行 post_process_and_evaluation.py 文件来获取评估结果。

引用

如果您需要在研究中使用 AGIEval 数据集或代码,请引用论文:

@misc{zhong2023agieval,      title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models},      author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan},      year={2023},      eprint={2304.06364},      archivePrefix={arXiv},      primaryClass={cs.CL}}

在使用时,请务必在您的论文中引用所有独立数据集。我们提供以下引用信息:



@inproceedings{ling-etal-2017-program, title = "Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems", author = "Ling, Wang and Yogatama, Dani and Dyer, Chris and Blunsom, Phil", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2017", address = "Vancouver, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P17-1015", doi = "10.18653/v1/P17-1015", pages = "158--167", abstract = "Solving algebraic word problems requires executing a series of arithmetic operations{---}a program{---}to obtain a final answer. However, since programs can be arbitrarily complicated, inducing them directly from question-answer pairs is a formidable challenge. To make this task more feasible, we solve these problems by generating answer rationales, sequences of natural language and human-readable mathematical expressions that derive the final answer through a series of small steps. Although rationales do not explicitly specify programs, they provide a scaffolding for their structure via intermediate milestones. To evaluate our approach, we have created a new 100,000-sample dataset of questions, answers and rationales. Experimental results show that indirect supervision of program learning via answer rationales is a promising strategy for inducing arithmetic programs.",}
@inproceedings{hendrycksmath2021, title={Measuring Mathematical Problem Solving With the MATH Dataset}, author={Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt}, journal={NeurIPS}, year={2021}}
@inproceedings{Liu2020LogiQAAC, title={LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning}, author={Jian Liu and Leyang Cui and Hanmeng Liu and Dandan Huang and Yile Wang and Yue Zhang}, booktitle={International Joint Conference on Artificial Intelligence}, year={2020}}
@inproceedings{zhong2019jec, title={JEC-QA: A Legal-Domain Question Answering Dataset}, author={Zhong, Haoxi and Xiao, Chaojun and Tu, Cunchao and Zhang, Tianyang and Liu, Zhiyuan and Sun, Maosong}, booktitle={Proceedings of AAAI}, year={2020},}
@article{Wang2021FromLT, title={From LSAT: The Progress and Challenges of Complex Reasoning}, author={Siyuan Wang and Zhongkun Liu and Wanjun Zhong and Ming Zhou and Zhongyu Wei and Zhumin Chen and Nan Duan}, journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing}, year={2021}, volume={30}, pages={2201-2216}}

参考链接:

https://arxiv.org/abs/2304.06364

https://github.com/microsoft/AGIEval

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型陈道明:真正的君子还是假正经?可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域长期分床睡,夫妻间的感情能维持吗?3个85后阿姨说了大实话上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜谷歌AI音乐工具开始公测,英国启动对AI基础模型初步审查,网络表演市场营收近2000亿元我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型绿研院日报 | TCL李东生:制造业是中国经济竞争力的基础中国AI大模型地图发布;GPT研究烧掉30亿美金;美团正自研基础模型丨AIGC大事日报CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型台湾民众要自救看了姜文与姜武的娇妻,就知道兄弟俩的品味差距有多大了【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】Prompt Sapper:基础模型的灵魂伴侣,AI服务的创新工场【绿色金融】我国转型类债券市场发展与建议全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能清华人工智能研究院「基础模型研究中心」成立!唐杰任研究中心主任,孙茂松任首席科学家四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现ChatGPT编程准确率暴降13%!UIUC&南大新基准让AI代码现原形了就在昨天,周立波美国被捕1286天后,又曝新情况上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊超越YOLOv8!YOLO-NAS:下一代目标检测基础模型“伶荔(Linly)”项目团队全新发布中文Falcon基础模型北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%API-Bank:用于评估LLMs使用外部工具能力的测试基准OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报老年人能力评估师:我在养老院给老人打分IBM:拥抱基础模型与生成式AI,迎接“AI+”新时代ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式ACL 2023 | 持续进化中的语言基础模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。