Redian新闻
>
“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集

“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集

公众号新闻

来自:甲骨易

进NLP群—>加入NLP交流群


近期,中文大语言模型蓬勃发展,但却一直没有出现可应用于评测大模型能力的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配测试中文大模型的数据集,并将其命名为“超越”


数据集的测试内容涵盖四大领域医疗、法律、心理学和教育。通过综合评估模型在多个学科上的知识广度和深度,能够帮助研究者更精准地找出模型的缺陷,并对模型的能力进行打分。


简介


自ChatGPT发布以来,大语言模型(LLMs)保持着在计算机科学技术与自然语言处理领域的热度,并且仍不断升温。ChatGLM、 MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型也接连发布。这些模型有着庞大的数据规模,通过广泛的预训练以达到能够正确理解人类话语和指令并生成类似人类语言的文本的能力。


目前,针对英文大语言模型已经有较为完善的评测方式,如2021年由Dan Hendrycks等人发布的MMLU。然而,针对中文大语言模型能力的测试仍然缺失,推出高质量中文评测数据集已经迫在眉睫。


于是,甲骨易AI研究院制作了一个大规模的多任务测试数据集——“超越”(Massive Multitask Chinese Understanding)。“超越”的意义是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其“越”来越强大。


“超越”所包含的题目由来自不同知识分支的单项和多项选择题组成。数据集中的问题是由专业人员从公开免费资源中收集,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合能力。


为了测试数据集的可行性和效果,甲骨易AI研究院在正式公开前已经使用其对目前开源的大模型进行了评测。“超越”数据集预计于2023年5月20日正式公开发布获取方式,具体发布相关信息详见文末。


接下来,将对“超越”数据集(MMCU)中所收录的题目进行介绍,并基于测试结果分析数据在语言模型训练过程中的重要性。


多任务测试


“超越”数据集(MMCU)的测试内容来自医疗、法律、心理学和教育四个大类的题目,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式。


数据集共收集了11900个问题,将其分成 few-shot开发集和一个测试集。few-shot开发集每个主题有5个问题,共有55个问题;测试集共有11845个问题。


下面分别对不同领域测试题目的学科和子任务示例进行展示。


医疗

医疗类题目来自大学医学专业考试,包括医学三基、药理学、护理学、病理学、临床医学、传染病学、外科学、解剖学等,共有2819个问题。

示例:

首次急性发作的腰椎间盘突出的治疗方法首选:

A. 绝对卧床休息,3 周后戴腰围下床活动

B. 卧床休息,可以站立坐起

C. 皮质类固醇硬膜外注射

D. 髓核化学溶解


法律

法律类题目来自国家统一法律职业资格考试,包括中国特色社会主义法治理论、宪法、中国法律史、国际法、刑法、民法、知识产权法、商法、经济法、劳动与社会保障法等,共有3695个问题。

示例:

根据法律规定,下列哪一种社会关系应由民法调整?

A. 甲请求税务机关退还其多缴的个人所得税

B. 乙手机丢失后发布寻物启事称:“拾得者送还手机,本人当面酬谢”

C. 丙对女友书面承诺:“如我在上海找到工作,则陪你去欧洲旅游”

D. 丁作为青年志愿者,定期去福利院做帮工

心理学

心理学类题目来自心理咨询师考试和研究生入学考试心理学专业基础综合考试,包括心理学概论、人格与社会心理学、发展心理学、心理咨询概论、心理评估、咨询方法等,共有2000个问题。

示例:

把与自己本无关系的事情认为有关,这种临床表现最可能出现于:

A. 被害妄想

B. 钟情妄想

C. 关系妄想

D. 夸大妄想

教育

教育学题目来自中国普通高等学校招生全国统一考试(中国高考),包括语文、数学、物理、化学、政治、历史、地理、生物,共有3331个问题。

示例:

若圆锥的侧面积等于其底面积的3倍,则该圆锥侧面展开图所对应扇形圆心角的度数为( )。

A. 60°

B. 90°

C. 120°

D. 180°


评测过程


依靠以上获取到的优质数据,可以开始对大模型的能力评测。下面将介绍本次评测的一些模型和评测方式。


评测模型:

Bloom系列:bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt

清华大学知识工程和数据挖掘小组:ChatGLM 6B

复旦大学:MOSS 16B

OpenAI:GPT-3.5-turbo


评测方式:zero-shot和few-shot

zero-shot模式:题目直接输入到模型以获取答案并计算准确率。

few-shot模式:先给模型提供5个问题和答案的例子,再附上问题让模型给出答案。


评测结果


通过比较各个模型的 zero-shot准确率(如图1和表1),GPT-3.5-turbo在四个领域的正确率都遥遥领先;MOSS 16B模型虽然有160亿参数,但准确率却只接近随机准确率(大约25%);bloomz_560m 模型的参数量最小,表现却超越了参数量更大的模型。评测结果体现了大模型的参数量不是评价大模型的唯一标准,在训练过程中数据的质量也应得到重视。



测试结果还表明,所有模型在few-shot模式下都有不同程度的性能下降。例如,与 zero-shot 准确率相比,GPT-3.5-turbo 在语文、化学、政治子任务上的few-shot 准确率都有下降(见表2和表3)。


  表2 所有模型在教育子任务上的few-shot准确率


   表3 所有模型在教育子任务上的zero-shot准确率


结论


大模型训练通常采用海量互联网公开数据,因此数据高效筛选以及垂直领域高质量数据的标注也非常重要。通过测试发现,在四大领域中,所有模型的平均zero-shot的准确率均未超过0.5,这就证明了目前所有模型的中文训练数据还存在明显不足。


测试的结果表明,更大的模型参数量不一定带来更好的性能,而训练方式和所用数据质量也是至关重要的,需要得到更多的重视。研究者们应该考虑如何设计更好的建模方式以便更好地学习文本数据中蕴含的知识,并且思考如何准备或者标注优质的数据集,去使中文大模型获得更准确的理解能力和文本生成能力。


写在最后


综上,就目前而言,用于评测大模型的高质量中文数据集仍是稀缺资源,但行业内却亟需一种公开、科学的方式来测试大模型的能力。甲骨易AI研究院率先提出要制作出一套高质量的中文数据集,并迅速搜集整合数据资源完成了“超越”数据集,成为国内首家制作中文专门领域多任务数据集的研究单位。


甲骨易AI研究院致力于推动计算机信息科技与自然语言处理领域的发展,希望扩大中文语言在大模型中的应用,促进中文大语言模型的理解力与生成力。“超越”数据集(MMCU)正是为了帮助每一位正在LLMs和NLP方向研究的学者、专家以及工程师,携手促进中文大语言模型向着更准确、更智能、更优质的方向发展。后续,甲骨易AI研究院也依旧会根据反馈持续优化“超越”数据集。


感兴趣的小伙伴,可以发email获取数据集哈~

[email protected]

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软发布 Guidance 语言,用于控制大语言模型学习生成式大语言模型,东北大学自然语言处理实验室有一堂课中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布1965年的《椰林怒火》和《赤道战鼓》, 多少人还记得?【实习/全职】通商,上海,多领域多岗位,23/24届实习可留用大语言模型做数据助手,浙大Data-Copilot高效调用、处理、可视化数据深度学习三巨头之一 Yann LeCun:大语言模型带不来 AGI“千模千测”——针对大语言模型认知能力的高效测试方法大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻卷起来!Dr. LLaMA:通过生成数据增强改进特定领域 QA 中的小型语言模型,重点关注医学问答任务浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域微软:中国无条件批准收购动视暴雪;国家超算中心发布中文大语言模型;JDG 登顶《英雄联盟》总决赛 | 极客早知道Firefly(流萤): 中文对话式大语言模型国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家五十年代初, 回老家当省人民政府主席的不止程子华一位国产中文大语言模型 “天河天元” 发布,涉及各种小说、古文、百科、新闻、中医、法律等!LLM in Medical Domain: 一文速览大语言模型在医学领域的应用七绝 球场不是桃花源主旋律、人品与遮羞布ACL 2023 | GLUE-X:基于分布外泛化的自然语言理解模型测试集13948道题目,涵盖微积分、线代等52个学科,上交清华给中文大模型做了个测试集Chat-REC: 用大语言模型增强传统推荐的全新范式懒人福音!谷歌让机器训练机器,用大语言模型定制专属于你的家务机器人大语言模型邀请测试!李彦宏详解三大产业机会,将影响到每一家企业征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力眼科医生靠做手术年入600万大语言模型的多语言机器翻译能力分析我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。