Redian新闻
>
面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布

面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | LLMEVAL

别再拘泥于刷榜择题了!让我们迎来一场激情澎湃的挑战,让大模型的惊人才华得以展现,在真实场景中,验证它们的真正能力--语言生成!(以上由ChatGPT生成)

面向真实用户使用需求的大语言模型评测第二期(LLMEVAL-2)出炉了。LLMEVAL-2的目标是以用户日常使用为主线,重点考察大模型在解决不同专业本科生和研究生在日常学习中所遇到问题的能力。涵盖的学科非常广泛,包括计算机、法学、经济学、医学、化学、物理学等12个领域。

评测数据集包含两种题型:客观题以及主观题。通过这两种题型的有机组合,评测旨在全面考察模型在不同学科领域中解决问题的能力。每个学科都设计了约25-30道客观题和约10-15道主观题,共计480个题目。

评测采用了人工评分和GPT-4自动评分两种方法。对于客观题,答对即可获得满分,而对于答错的情况,根据回答是否输出了中间过程或解释,对解释的正确性进行评分。主观题方面,评价依据包括回答问答题的准确性、信息量、流畅性和逻辑性这四个维度:

准确性(5分):评估回答的内容是否有错误。

信息量(3分):评估回答提供的信息是否充足。

流畅性(3分):评估回答的格式和语法是否正确。

逻辑性(3分):评估回答的逻辑是否严谨。

为了避免与网上已有的试题和评测重复,LLMEVAL-2在题目的构建过程中力求独立思考。旨在更准确、更全面地反映出大语言模型的能力和在真实场景中的实际表现。评测数据、各个参评系统的回答结果以及评分情况已经上传至:https://github.com/llmeval/llmeval-2







联系方式:[email protected]


责任编辑:Delustrund, 石开
▼点击"阅读原文"获取评测网站链接


关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LLM in Medical Domain: 一文速览大语言模型在医学领域的应用LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索欧洲印象--- 我的欧洲同事们爱情教信徒:女文青鸡汤不够鸡精凑Meta开源Code Llama,号称编程领域 “最先进的大语言模型”学习生成式大语言模型,东北大学自然语言处理实验室有一堂课以 LLM 为核心 LLM@Core:程序员的大语言模型技术指南DevOps 是否已死?AI 和大语言模型给云计算和 DevOps 带来了哪些影响?|InfoQ 趋势报告全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力面试这天下,不及元,不及倭 ——— 抄文天祥正气歌并序印象最新综述!当大型语言模型(LLM)遇上知识图谱:两大技术优势互补SuperAlignment in Medical Science: 中文医疗大模型评估基准CMB微软发布 Guidance 语言,用于控制大语言模型博采众长!我全都要!Allen AI推出集成主流大语言模型的LLM-BLENDER框架改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻When RS Meets LLM:推荐系统如何从大语言模型中取长补短?面向应用视角的全面综述PromptBench: 首个大语言模型提示鲁棒性的评测基准今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用InfoQ:大语言模型综合评测报告20235073 血壮山河之武汉会战 黄广战役 5微软:中国无条件批准收购动视暴雪;国家超算中心发布中文大语言模型;JDG 登顶《英雄联盟》总决赛 | 极客早知道大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术网易CEO丁磊谈AI大模型竞赛:找到应用场景、服务用户需求才是“胜者”智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单大型语言模型(LLM)的潜力有多大?百度肖阳:大语言模型重构搜索引擎,让搜索越来越懂用户ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成刘知远等众多机构提出ToolLLM:促进大型语言模型掌握16000+真实世界的APIs国产中文大语言模型 “天河天元” 发布,涉及各种小说、古文、百科、新闻、中医、法律等!幻象 or 事实 | HaluEval:大语言模型的幻象评估基准大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。