文心一言和MOSS相比,竟然在这些方面完败!
知乎:孙天祥
标题:MOSS非官方评测
链接:https://zhuanlan.zhihu.com/p/625262733
编辑:深度学习自然语言处理
声明:本文不是MOSS的官方评测,仅包含少量case,仅对比百度文心一言,结论不代表各模型质量:)
起因如图
一直没咋用过百度文心一言,最近很多用户提供了case,顺带手把文心一言也测试了一下:)
1. 简单数学应用题
from 用户社群反馈
文心一言第二题答错且计算式列错了,不过MOSS用了计算器,有点算作弊了...
2. 中文能力
差不太多,私心觉得MOSS的更好些
3. 角色扮演
from ChatGLM官方示例
文心一言似乎玩不了,再扮演一个linux命令行试试看
有点感觉,至少rm file1之后再ls确实file1消失了。再看看文心一言
还是玩不了(无奈
4. tikz画画
灵感 from 微软Sparks of AGI paper
画的不对,但是在努力尝试,再试一下文心一言
试了两次都拒绝了
5. 写代码
from github issues: https://github.com/OpenLMLab/MOSS/issues/42
生成的代码都没跑,但MOSS的看下来没什么问题,文心一言上来整了个sort有点懵
6. 生成表格
from 用户朋友圈
把代码的命令行参数组织成一个表格,MOSS的信息抽取有点问题,很多参数前面还带着and。看一下文心一言(完整用户输入也可以看下面文心一言的)
并不生成表格(无奈)
再次声明:本文仅展示最近随手收集的几个case,具有很强的民科风格,不能作为评判模型最终质量好坏的依据。(文心一言做传统NLP任务的能力还是不错的,比如找错别字、信息抽取,后面MOSS也会着重训练一下这些任务,以满足大伙评测刷榜的需求)
进NLP群—>加入NLP交流群
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章