上手通义千问2.0后,我才发现大模型的天敌是伍佰。科技2023-10-31 19:10 大模型,它又双叒来了。今年上半年,那波大模型 1.0 狂轰滥炸之后。随着时间的推移,各家打磨的下一代大模型,最近开始慢慢问世了。这不,前两天文心一言 4.0 才发。今天云栖大会上,通义千问 2.0 就马上跟进,还上了个 APP。最重要的是,这次通义 2.0 直接开放给全社会体验。点进通义千问,就能直接用上最新版。 这点还是挺有诚意,有兴趣的差友们,都可以亲自上手试试了 ~ 不过,按照咱们传统,世超还是会先带大家简单感受一下,全新升级的 2.0 有啥不同。也方便大家上手时,有个大致的体验方向。这回的通义 2.0,说是已经超过 ChatGPT 3.5,缩短了和 GPT-4 的差距。 但是,世超一上手,就觉得稍微有点失望,因为这个2.0 版依旧不支持联网。不过虽然不具备联网能力,但世超试着问了一些热梗。比如 “ 哪李贵了 ”、“ 这是一个 lonely 的问题 ”,它居然全都能够读懂。这些回答不靠联网,纯靠手动更新数据库。只能说,确实挺努力的。但不管更新多快,我们都没法当联网 AI 测试了。只能从基本能力入手,分别是语义理解、逻辑、多模态能力、文本生成、代码这五个方面,稍微探探底子咋样。首先,依照国际惯例,来点喜闻乐见的弱智吧问题。 世超一来就问道,连 GPT-4 都傻眼的题目。问:这世上真的有龙,我就在某地被一条龙服务过。上回, GPT-4 就是被这两条龙给绕晕了,给我编了一堆虚构的成语来历。结果让人有点意外,通义居然能完美应对。能完全理解两个龙的区别是啥,也能明白 “ 一条龙 ” 服务是啥意思。开局第一问,通义这小子应对的还不错。不过,为了防止通义会不会有备而来,偷偷训练了,世超又去弱智吧上了点新货。问:为什么抄袭永远都是今人抄袭古人,没有古人抄袭今人。 这回通义就有点应付不来了。它结论是对的,因为时间顺序,古人当然不能抄今人。但是,仔细看就会发现,后面还是说错了一句。它说,这并不是说古人就不会借鉴今人。估计通义本来是想正反面论证,显得更客观,结果就是反而暴露了逻辑马脚。其实世超试过这么多中文语义题,没有哪个大模型是都能做对的。你多问几题,换换角度,总是会做错几道。比如问:小偷偷偷偷东西,什么意思? 通义语义解释为小偷偷取东西,是没啥问题的。但是前半句又说句子里有 3 个偷,说这是中文绕口令,就有些问题了。不过,从结果来看,三道题算是对了 2.5 道,通义的中文语义理解算是不错的。 好了,让咱们测试继续。下题还是从中文下手,问点中文语境下比较难的文本生成题。以前每次都测写小作文或者故事,这次整点花活。让它用诸葛亮的语气,写首 rap 听听。这一题,通义答得就有点意思了。Rap 词里又是孔明,又是卧龙;又是静坐军帐、轻抚瑶琴,又是小试牛刀的。既符合诸葛亮的人物属性,又语言活泼。唯一美中不足就是没押上韵。不过,世超进一步考验它的发散思维,又有点表现不行了。 让它给我编个马斯克和孔子的对话。然后,就看到孔子嘴里说出了 “ 人工智能 ” 四个字。。其他语句,也不太符合人物性格。从前面两轮测试看下来,通义 2.0 的中文水平是能听能写,但还没有到能自如应对。发挥不太稳,有时能对,有时又会犯傻。其实大模型都有这样的毛病,咱们到底能不能把它应用起来,靠的是另一个东西——学习能力。就比如让大模型直接做一个直播策划,往往出来的内容都是不够成熟的。这个时候,就看它们会不会学了。当你甩一些参考案例给它,它们能够理解教程的意思,并模仿出来,这才是最重要的。这点,世超觉得通义做的是不错的,大家直接看案例就行。世超让它做个电动牙刷的直播流程。并提前丢了一个蜜雪冰城的参考,引导了一下。它立马就学会了,并甩了一份非常详细的直播流程。开场、留客、锁客学的一套一套的。。中文理解、学习和文本生成都相当在线。到这一步,中文能力测试算暂时告一段落了。下面看看大模型的究极弱项——数学逻辑题和代码,是否有提高。 当年考倒过无数大模型的 “ 鸡兔同笼 ” 、 “ 青蛙跳井 ” 等等简单的数学题,通义应对起来是没问题了。就算稍微给题目变一下形,也是分步解答,轻松驾驭。但也是跟很多大模型一样的毛病,题目一旦难起来,到个初高中水平,就傻眼了。问它:任取三个长度小于 1 的线段,能组成一个三角形的概率为? 它和我说, 0 个交点组不成三角形, 1 个和 3 个交点组得成。。。我去,这么简单的解题思路,我怎么没想到呢?以前有差友问说,大模型能不能用来改试卷。如果是数学老师,那世超建议还是三思。。通义确实是进步了,不过只进步到了小升初水平。数学题这种严格推理的题目,对大模型来说还是一块最难啃的骨头。不过,在代码方面,世超倒是没有把通义问倒,它应答自如。甩了一堆要求,让它做一个非常简洁的差评双十一大促页面。人家三下五除二就做完了,效果还是非常符合差评的审美的,需要预留的位置也都做了。虽然可能为了严格执行我对于页面简洁的要求,所以导致看起来有点过于明了了。测试到这里,还没有结束。除了基础能力的提高之外,通义还增加了图片和文档解析两个新功能。其实像图片上传功能,是很多家的重点攻克对象, GPT-4 后续也主要是在这一块发力了。 不过,世超试下来,通义目前的图片解析能力,还是有点弱的。基础图片识别,是没啥问题的。比如丢个马斯克给他,问它这哪位。它能一眼认出,还顺道给你科普上两句。但是,如果加点抽象互联网难度,比如说世超给了一张自己桌子上的玩偶,让它给我分析分析。它虽然能认出了这是 “ 小鸡 ”,还有打篮球这两个元素。但不太理解图片里的梗,还坚持不懈地胡诌了一段 “ 灌篮小鸡 ” 梗的来历。。 我们的伍佰老师,更是轻而易举地把通义耍得团团转。给了一张 “ 随 520 ” 的梗图,里面是一张伍佰老师的靓照和一张 20 元人民币。结果,通义不光读不懂什么梗,连图片里有多少钱也数不明白了。图片识别能力更被彻底地干垮了,指着伍佰说,这是吴彦祖。。。不仅图片上传还差点意思,后面世超试了试文档功能,也轻松把通义考倒了。世超甩了一篇电动牙刷的行业报告给它,问了句电动牙刷行业的发展痛点是啥。通义嘎嘎一顿总结,各种分点罗列,系统分析。看起来答的很努力,实际答案全错了。原因很简单,这里世超特地挖了个坑,预防大模型会胡说八道。 所以,给的文档里只有目录,没有内容。通义这些分析是不错,可惜全是胡编的,跟我的参考资料没半点关系。。几轮测试结束,通义同学的成绩是一目了然了。 虽然整体来没有特别亮眼的强悍更新,但也算稳扎稳打,基本能力提高得更扎实,学习能力也一直在线。但其中,图片和文档俩能力,还有挺大的提升空间的。其实,比起通义千问,世超觉得自己闲逛时发现的产品,更有意思。阿里通义官网里,还有七大产品方向,比如代码助手、客服等等。虽然大部分还是内测,都试用不了。不过,世超了一下开放的通义智文,文档体验比通义千问要好不少。这个产品是专门用来解读文档的,你不仅可以丢长篇的电子书,也可以甩各种文章链接给它。 世超试着把前面挖坑的行业目录,输入进去。通义智文就没有中招。不仅明确指出里面没提到,回答还标注出,数据来源于文章里的那几句。这点设计的就挺好,避免了胡言乱语。比起通义千问本身,世超反而更期待这些专项训练的应用大模型。大部分工种,只用得到通识大模型一两个功能。像世超这种码字的,需要的就是文本分析和生成。更针对性的训练,其实更有助于提高大模型的实用性。不仅是从能力方面考虑,其实现在挺多大模型都到了一个平台期,很难有极大的突破。从这些小点入手,或许会成为一个更好的解题思路。撰文:四大 编辑:面线 & 江江 封面:焕妍图片、资料来源:通义千问、通义官网微博@弱智吧微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章