面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布
别再拘泥于刷榜择题了!让我们迎来一场激情澎湃的挑战,让大模型的惊人才华得以展现,在真实场景中,验证它们的真正能力--语言生成!(以上由ChatGPT生成)
面向真实用户使用需求的大语言模型评测第二期(LLMEVAL-2)出炉了。LLMEVAL-2的目标是以用户日常使用为主线,重点考察大模型在解决不同专业本科生和研究生在日常学习中所遇到问题的能力。涵盖的学科非常广泛,包括计算机、法学、经济学、医学、化学、物理学等12个领域。
评测数据集包含两种题型:客观题以及主观题。通过这两种题型的有机组合,评测旨在全面考察模型在不同学科领域中解决问题的能力。每个学科都设计了约25-30道客观题和约10-15道主观题,共计480个题目。
评测采用了人工评分和GPT-4自动评分两种方法。对于客观题,答对即可获得满分,而对于答错的情况,根据回答是否输出了中间过程或解释,对解释的正确性进行评分。主观题方面,评价依据包括回答问答题的准确性、信息量、流畅性和逻辑性这四个维度:
准确性(5分):评估回答的内容是否有错误。
信息量(3分):评估回答提供的信息是否充足。
流畅性(3分):评估回答的格式和语法是否正确。
逻辑性(3分):评估回答的逻辑是否严谨。
为了避免与网上已有的试题和评测重复,LLMEVAL-2在题目的构建过程中力求独立思考。旨在更准确、更全面地反映出大语言模型的能力和在真实场景中的实际表现。评测数据、各个参评系统的回答结果以及评分情况已经上传至:https://github.com/llmeval/llmeval-2
联系方式:[email protected]
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章