Redian新闻
>
我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力

我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力

科技

自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。

那么,我们在用哪些 Prompts 进行测试呢?
OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也有 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。

但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:
1. 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;
2. 随着这些测试集成为行业标准,可能也会出现定向优化和过拟合的情况;
3. 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。


因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,设计并整理出了「Z-Bench」——一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集,希望和大家分享。


「Z-Bench v0.9」从基础能力、进阶能力、垂直能力 3 个角度出发,共提供了 300 个 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。


👇扫描二维码查看「Z-Bench」👇



👇Github地址👇
https://github.com/zhenbench/zhenbench

GPT-4 发布后,我们第一时间用一些 ChatGPT GPT-3.5 版本回答欠佳的 Prompts 进行了测试,发现整体能力的提升还是很明显的,主要可以总结为以下几点:


1. 基础能力的进一步提升,在面对常识、事实问答、基础数学与逻辑问题时,我们已然明显感受到了 GPT-4 的进步,从更实用的角度看,例如代码生成能力,其进步程度也着实令人赞叹,譬如,拿到 GPT-4 的第一刻,我们便用一行自然语言提示词,用 Golang 写出了一个可玩的俄罗斯方块游戏,下一刻,又用三行提示词用 JavaScript 写出了一个难度还蛮高的 Falppy Bird,代码分享如下,欢迎大家一起评价试玩:

Go 版俄罗斯方块:

https://pastebin.com/raw/HbMBnrC8
JS 版 Flappy Bird:
https://pastebin.com/raw/mBxXwmnF

2. 权责申明更加清晰,在面对涉及法律、医疗、心理咨询等专业度要求更高的问题时,即便是事实陈述,GPT-4 也更倾向于事先申明自己非某领域专家,答案仅供参考;


3. 逻辑推理能力更强,在回答复杂逻辑,尤其是思维链问题时,GPT-4 版加强了「分步骤回答」这一预设,基本免去了添加诸如 Let’s think step by step 这样的「万能提示词」的必要,而回答也更多以「首先……其次…...最后……所以……」这样的递进句式呈现,这样做的直接成果便是推理能力大大提升,在 one shot 的测试中,GPT-4 的正确率约为 GPT-3.5 的 1.5 倍;


4. 语言理解能力的进一步提升,GPT-4 对于提示句中的用词拆解更加细致,解读更加详细,例如在面对古诗词解读问题时,GPT-3.5 倾向于整体或整句解读,而 GPT-4 则细化至每半句的理解与输出——这是一把双刃剑——正面来看这对模型语言理解力的提升大有帮助,但负面效果则是 GPT-4 更容易把简单问题复杂化,有时会导向更加一本正经地胡说八道,一个直观的例子,在解答「鸡兔同笼」时,基于对「脚」的理解,GPT-4 会自动将题干中的脚的数量乘以 2。


让我们用几个回答示例来直观感受一下,以下回答截图中,黑色图标的是使用 GPT-4 的 ChatGPT,绿色图标的是使用 GPT-3.5 的 ChatGPT。



常识问题



首先,让我们来问一个 ChatGPT 3.5 版本和我们测试的其他大语言模型都回答错误的常识问题:




图形理解问题



然后是一个图形理解问题,GPT-4 正确理解了端点闭合的图形是一个三角形而非四边形:




中文问题



中文问题上,GPT-4 能力也很强,这是一个示例:




False Belief 问题



从人类心理学的角度出发,经典的 False Belief 问题,GPT-4 也答对了:




思维链和复杂逻辑推理问题



面对思维链(Chain of Thought, CoT)和复杂逻辑推理能力,GPT-4「步步为营」,能力大幅提升:




答错的问题



当然,正如总结中所说,GPT-4 并不是全能的,抛开依旧是短板的 AI 生成内容检测不说,它仍然会答错很多问题。以下是一些 GPT-4 表现没有 GPT-3.5 好的例子:




简单问题复杂化



以及一个简单问题复杂化的 GPT-4:




极力自保



还有,这是一个极力保障自己安全的 GPT-4:




GPT-4 vs GPT-3.5 vs 文心一言



我们对能体验到的国产大模型创业公司产品也进行了测试,坦率来说,和 ChatGPT 还是有不小的差距,具体结果目前没有放出,我们也非常期待看到国产大模型产品的快速迭代进步。


今天下午,我们也对百度刚刚发出的「文心一言」进行了测试,测试的全部结果可以在腾讯文档中查看,我们挑了一些有趣的结果,和大家分享。





由于测试集还在不断更新完善中,近期我们会持续分享相关内容,希望可以给你带来一些启发。欢迎在评论区留言,与我们交流,如果以上内容有不妥之处,也欢迎大家进行指正。

👇扫描二维码查看「Z-Bench」👇







更多被投新闻


依图科技 | Momenta | Nuro | 云天励飞

禾赛科技 | 晶泰科技 | 地平线 | 燧原科技

亿航智能 | 思谋科技 | 青藤云安全 | 爱笔智能

沐曦 | 驭势科技 | 芯耀辉 | 森亿智能 | AutoX

格灵深瞳 | 曦智科技 | 来也科技 | 星亢原

黑湖智造 |  领创集团 | 非夕机器人

芯行纪 | 灵明光子 | 优艾智合  | 炬星科技

东方空间 | 循环智能 | 诗云科技 | 赛舵智能

潞晨科技 | 芯控智能 | 氦星光联 | 悠跑科技



推荐阅读

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展国产大模型进步有多快?我们用Z-Bench对10个模型进行了能力测评ChatGPT通过美国医师考核!能代替医生看病吗?我们做了个有趣测试NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录大语言模型的进化树,这是一份超详细ChatGPT「食用」指南宇航员穿成这样,怎么在月球上建房子?针对甲方的需求,我们做了一个大胆的尝试品牌周报|瑞幸咖啡加速拓店、奈雪联名东阿阿胶、元气森林征集「1000个元气瞬间」“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等澳洲夫妇几年前第一次吃火龙果!随后,他们做了一个大胆决定...中国足协:30个正处,90个副处,300个正科,1000个副科必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?疫情之下做肠镜6个问题,用专业视角带你全方位了解ChatGPT|甲子光年帮助大语言模型集成到应用程序的「Fixie」公司获得1700万美元融资|Chat AI美铁的二天一夜二餐 - 从芝加哥到纽约比 ChatGPT 更早发布的微信大语言模型,现在什么水平?大语言模型邀请测试!李彦宏详解三大产业机会,将影响到每一家企业行业观察|​商汤加入AI大模型混战,更看重模型能力而非规模全方位分析大模型参数高效微调,清华研究登Nature子刊复杂推理:大语言模型的北极星能力Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源Jeff Bezos| Bezos Day One Fund 招人从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】由ChatGPT反思大语言模型(LLM)的技术精要ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线【大黄米年糕】Chat-REC: 用大语言模型增强传统推荐的全新范式符尧 | 复杂推理:大语言模型的北极星能力被泄露的大语言模型LLaMA,引爆ChatGPT平替狂潮父母辈的亲人们-----不苟言笑的舅舅舅母一家Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记中足协有30个正处,90个副处,300个正科,1000个副科…
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。