Redian新闻
>
上手通义千问2.0后,我才发现大模型的天敌是伍佰。

上手通义千问2.0后,我才发现大模型的天敌是伍佰。

科技


 大模型,它又双叒来了。

今年上半年,那波大模型 1.0 狂轰滥炸之后。随着时间的推移,各家打磨的下一代大模型,最近开始慢慢问世了。

这不,前两天文心一言 4.0 才发。今天云栖大会上,通义千问 2.0 就马上跟进,还上了个 APP。

最重要的是,这次通义 2.0 直接开放给全社会体验。点进通义千问,就能直接用上最新版。

 这点还是挺有诚意,有兴趣的差友们,都可以亲自上手试试了 ~ 

不过,按照咱们传统,世超还是会先带大家简单感受一下,全新升级的 2.0 有啥不同。也方便大家上手时,有个大致的体验方向。

这回的通义 2.0,说是已经超过 ChatGPT 3.5,缩短了和 GPT-4 的差距。

 但是,世超一上手,就觉得稍微有点失望,因为这个2.0 版依旧不支持联网。

不过虽然不具备联网能力,但世超试着问了一些热梗。比如 “ 哪李贵了 ”、“ 这是一个 lonely 的问题 ”,它居然全都能够读懂。

这些回答不靠联网,纯靠手动更新数据库。只能说,确实挺努力的。

但不管更新多快,我们都没法当联网 AI 测试了。只能从基本能力入手,分别是语义理解、逻辑、多模态能力、文本生成、代码这五个方面,稍微探探底子咋样。

首先,依照国际惯例,来点喜闻乐见的弱智吧问题。

世超一来就问道,连 GPT-4 都傻眼的题目。

问:这世上真的有龙,我就在某地被一条龙服务过。

上回, GPT-4 就是被这两条龙给绕晕了,给我编了一堆虚构的成语来历。

结果让人有点意外,通义居然能完美应对。能完全理解两个龙的区别是啥,也能明白 “ 一条龙 ” 服务是啥意思。

开局第一问,通义这小子应对的还不错。

不过,为了防止通义会不会有备而来,偷偷训练了,世超又去弱智吧上了点新货。

问:为什么抄袭永远都是今人抄袭古人,没有古人抄袭今人。

这回通义就有点应付不来了。它结论是对的,因为时间顺序,古人当然不能抄今人。

但是,仔细看就会发现,后面还是说错了一句。

它说,这并不是说古人就不会借鉴今人。估计通义本来是想正反面论证,显得更客观,结果就是反而暴露了逻辑马脚。

其实世超试过这么多中文语义题,没有哪个大模型是都能做对的。

你多问几题,换换角度,总是会做错几道。

比如问:小偷偷偷偷东西,什么意思?

 通义语义解释为小偷偷取东西,是没啥问题的。但是前半句又说句子里有 3 个偷,说这是中文绕口令,就有些问题了。

不过,从结果来看,三道题算是对了 2.5 道,通义的中文语义理解算是不错的。

 好了,让咱们测试继续。下题还是从中文下手,问点中文语境下比较难的文本生成题。

以前每次都测写小作文或者故事,这次整点花活。让它用诸葛亮的语气,写首 rap 听听。

这一题,通义答得就有点意思了。

Rap 词里又是孔明,又是卧龙;又是静坐军帐、轻抚瑶琴,又是小试牛刀的。既符合诸葛亮的人物属性,又语言活泼。唯一美中不足就是没押上韵。

不过,世超进一步考验它的发散思维,又有点表现不行了。

 让它给我编个马斯克和孔子的对话。然后,就看到孔子嘴里说出了 “ 人工智能 ” 四个字。。其他语句,也不太符合人物性格。

从前面两轮测试看下来,通义 2.0 的中文水平是能听能写,但还没有到能自如应对。发挥不太稳,有时能对,有时又会犯傻。

其实大模型都有这样的毛病,咱们到底能不能把它应用起来,靠的是另一个东西——学习能力。

就比如让大模型直接做一个直播策划,往往出来的内容都是不够成熟的。

这个时候,就看它们会不会学了。当你甩一些参考案例给它,它们能够理解教程的意思,并模仿出来,这才是最重要的。

这点,世超觉得通义做的是不错的,大家直接看案例就行。

世超让它做个电动牙刷的直播流程。并提前丢了一个蜜雪冰城的参考,引导了一下。

它立马就学会了,并甩了一份非常详细的直播流程。开场、留客、锁客学的一套一套的。。中文理解、学习和文本生成都相当在线。

到这一步,中文能力测试算暂时告一段落了。下面看看大模型的究极弱项——数学逻辑题和代码,是否有提高

 当年考倒过无数大模型的 “ 鸡兔同笼 ” 、 “ 青蛙跳井 ” 等等简单的数学题,通义应对起来是没问题了。

就算稍微给题目变一下形,也是分步解答,轻松驾驭。

但也是跟很多大模型一样的毛病,题目一旦难起来,到个初高中水平,就傻眼了。

问它:任取三个长度小于 1 的线段,能组成一个三角形的概率为?

它和我说, 0 个交点组不成三角形, 1 个和 3 个交点组得成。。。我去,这么简单的解题思路,我怎么没想到呢?

以前有差友问说,大模型能不能用来改试卷。如果是数学老师,那世超建议还是三思。。通义确实是进步了,不过只进步到了小升初水平。

数学题这种严格推理的题目,对大模型来说还是一块最难啃的骨头。

不过,在代码方面,世超倒是没有把通义问倒,它应答自如。

甩了一堆要求,让它做一个非常简洁的差评双十一大促页面。

人家三下五除二就做完了,效果还是非常符合差评的审美的,需要预留的位置也都做了。

虽然可能为了严格执行我对于页面简洁的要求,所以导致看起来有点过于明了了。

测试到这里,还没有结束。除了基础能力的提高之外,通义还增加了图片和文档解析两个新功能

其实像图片上传功能,是很多家的重点攻克对象, GPT-4 后续也主要是在这一块发力了。

不过,世超试下来,通义目前的图片解析能力,还是有点弱的。

基础图片识别,是没啥问题的。比如丢个马斯克给他,问它这哪位。它能一眼认出,还顺道给你科普上两句。

但是,如果加点抽象互联网难度,比如说世超给了一张自己桌子上的玩偶,让它给我分析分析。

它虽然能认出了这是 “ 小鸡 ”,还有打篮球这两个元素。但不太理解图片里的梗,还坚持不懈地胡诌了一段 “ 灌篮小鸡 ” 梗的来历。。

我们的伍佰老师,更是轻而易举地把通义耍得团团转。

给了一张 “ 随 520 ” 的梗图,里面是一张伍佰老师的靓照和一张 20 元人民币。

结果,通义不光读不懂什么梗,连图片里有多少钱也数不明白了。

图片识别能力更被彻底地干垮了,指着伍佰说,这是吴彦祖。。。

不仅图片上传还差点意思,后面世超试了试文档功能,也轻松把通义考倒了。

世超甩了一篇电动牙刷的行业报告给它,问了句电动牙刷行业的发展痛点是啥。

通义嘎嘎一顿总结,各种分点罗列,系统分析。看起来答的很努力,实际答案全错了。

原因很简单,这里世超特地挖了个坑,预防大模型会胡说八道。

所以,给的文档里只有目录,没有内容。通义这些分析是不错,可惜全是胡编的,跟我的参考资料没半点关系。。

几轮测试结束,通义同学的成绩是一目了然了。

 虽然整体来没有特别亮眼的强悍更新,但也算稳扎稳打,基本能力提高得更扎实,学习能力也一直在线。但其中,图片和文档俩能力,还有挺大的提升空间的。

其实,比起通义千问,世超觉得自己闲逛时发现的产品,更有意思。

阿里通义官网里,还有七大产品方向,比如代码助手、客服等等。虽然大部分还是内测,都试用不了。

不过,世超了一下开放的通义智文,文档体验比通义千问要好不少。

这个产品是专门用来解读文档的,你不仅可以丢长篇的电子书,也可以甩各种文章链接给它。

世超试着把前面挖坑的行业目录,输入进去。通义智文就没有中招。

不仅明确指出里面没提到,答还标注出,数据来源于文章里的那几句。这点设计的就挺好,避免了胡言乱语。

比起通义千问本身,世超反而更期待这些专项训练的应用大模型。

大部分工种,只用得到通识大模型一两个功能。像世超这种码字的,需要的就是文本分析和生成。更针对性的训练,其实更有助于提高大模型的实用性。

不仅是从能力方面考虑,其实现在挺多大模型都到了一个平台期,很难有极大的突破。从这些小点入手,或许会成为一个更好的解题思路。


撰文:四大  编辑:面线 & 江江  封面:焕妍


图片、资料来源

通义千问、通义官网

微博@弱智吧


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型意大利馆尽职调查功亏一篑,世博展馆审时度势如期开幕-金盆洗手的论语(小说)(7)看完这个,我才发现自己的PS白学了!科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新阿里云通义千问向全社会开放;OpenAI被作家起诉侵犯版权;工信部启动AGI等4大未来产业揭榜挂帅|AIGC周观察第十九期科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体认真看了看月亮后,我才发现......ChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报大模型访问链接汇总:通义千问开放!免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!巴黎凯旋门阿里云发布通义千问 2.0,性能超 GPT-3.5,加速追赶 GPT-4 | 新闻LangChain+通义千问+AnalyticDB向量引擎保姆级教程通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码儿子上初中后,我才发现,我这辈子最后悔的就是把他养成了“满分”小孩……最近伍佰演唱会上的发疯00后,火成了全网最大笑料米粒“归笼”多日,我才发现《新概念英语》学对了!智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型AI的大模型时代 ≠ 只有大模型的AI时代720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑开心周报(十三)iPhone 16或全系告别静音拨片/微信称好友上限约1万个/阿里云开源通义千问720亿参数模型| 灵感周报阿里云通义千问140亿参数Qwen-14B发布;TCL中环签约首个绿电园区项目|绿研院日报Bill Gates didn\'t lose his enthusiasm on new innovations even a通义千问登顶 Hugging Face 榜首,国产开源大模型赶超 Llama2灌酒迷奸计中计2(小小说)看到天后也给娃买它,我才发现自己挑童装的眼光是越来越毒了马云:聪明是智慧者的天敌女儿上初三后我才发现:这件事,我足足晚了5年,后悔了!丨最后一天未央播报 | 25日起存量首套房贷利率批量下调 阿里云宣布开源通义千问14B模型通义千问2.0来了!实测编程打败8成Python用户,阿里云大模型「全家桶」炸场阿里云通义千问全面开放|首席资讯日报女儿上初三后我才发现:这件事,我足足晚了5年,后悔了!修行中的陷阱 | 九、毗婆舍那的天敌
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。