Redian新闻
>
测评了8个国产AI大模型,差点崩溃……

测评了8个国产AI大模型,差点崩溃……

公众号新闻
近年来,人工智能技术的发展可谓是日新月异,尤其是大模型的应用,更是成为了科技界的焦点。从自然语言处理到语音识别,从情感分析到知识问答,大模型的应用已经渗透到我们生活的方方面面。而在国内,各大科技公司也纷纷投入到大模型的研发和应用中,一时间,各种大模型如雨后春笋般涌现出来。
为了帮助广大用户进行筛选和甄别,我们举行了一场【大模型风采大赛】,本着公平公正公开的原则,本次参赛选手均是来自国内的8位大模型才俊,他们也是出身各异,有的背景雄厚一掷千金,有的草根出身筚路蓝缕。
【大厂系嫡子】:百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问、360的智脑、以及抖音的云雀大模型等;
【学院派大牛】:智谱AI的智谱清言
【初创系新贵】:百川智能的百川大模型、MiniMax的“abab”大模型等。
本次测评主要是从一个普通用户的角度,围绕用户体验(交互界面、响应速度、稳定性)、基础能力(理解、生成、逻辑、记忆)、多模态输出能力以及场景模型(支持的数量丰富度以及质量)作为测评方向,目的是帮大家找到更适合自己使用的大模型。
笔者作为一名【大模型测评官】,爆肝两天两夜,亲自对这些大模型进行一次综合的考察,结果考察完了之后整个人差点崩溃。
具体是怎么崩溃的呢? 话不多说,我们直接上图:
一、文心一言
我们体验的是3.5版本,文心一言的交互界面简洁且通用,支持百度系的很多应用插件,界面通用性强(看得出来真的是在用AI原生思维重构产品)。
响应速度快且稳定度高(4.0体验更好,但是需要氪金),即使在用户并发高峰期也不特别受影响,支持多模态输入和输出。用户体验总体能打4星,交互方面有一个不算是不足的地方,是比较直男,属于没特别惊喜但也没什么硬伤的。
不错很切题,你果然是懂中文诗词语义理解的。
让我们再来问一遍:
什么?登鹳雀楼这个,你是认真的吗?
好的,你也是懂得一本正经胡说八道的,但我还是被你说服了,那么继续下一题。
还不错,这是你的章节大纲吧?我们继续往下看。
李白和王之涣,这个平平淡淡的故事,竟然被你写得这么刺激?
你要是在耽美文学界,一定能大放异彩。

我先考考你的记忆能力吧。
好的,看得出前后逻辑能自洽。最后再来一个问题。
这作诗水平,我一个理科生只能流着眼泪说,真的牛B!
最后的最后,忍不住请隔壁豆包(https://www.doubao.com/chat)也来吃瓜作画。
二、讯飞星火
这个界面呢,也是一目了然的,而且暗藏了很多小心机,把很多优势功能都给一目了然显示在主页上,总的来说还是比较友好。唯独就是我在测试的过程中,感觉没有那么稳定,出现过短暂类似宕机的体验,而且也支持多模态输出,场景模型很多。
怎么说呢?您能不能先把每一句诗人和诗词的内容给对应上,我真的谢谢你了!
三、通义千问
通义千问跟讯飞的交互差不多,属于简洁但是有“心机”的,图片理解和文档解析这两个十分重要的功能,放在了非常显眼的主交互区位置,用起来很方便,不像其它大模型应用,人还得找半天。
啊,杜甫这个诗??。。。请问你是中了跟楼上一样的毒吗?
四、360智脑
我比较喜欢360智脑的一个原因是,它有着非常沉浸式的虚拟数字人角色扮演,而且也支持多模态,场景很丰富且好用。但不足的地方在于,这个响应速度真的很慢。
然后,换一个角色,诸葛亮吧哈哈哈。
360这个角色扮演真的可以!
不过你怎么也说王之涣?你是看了隔壁文心一言写的小说了吗?
真不愧是卧龙先生,是知错能改的。
接下里我要考你创作了,孔明先生您准备好了吗?
先生您谦虚了,那么还是作一首诗吧。
私人觉得这首诗不如前面文心一言作的,那我们再来一首吧
五、百川智能
这是一个交互比较简陋的大模型,但是界面还是比较友好的,特别对于开发者来说,应该还是有很多空间。
可以,算是中规中矩吧,这位选手我们接下来可以进入创作环节。
怎么说呢,我总想再看到点什么……
我天,我有点吃惊的,难道这不是一个武侠小说吗?怎么成玄幻了?
作为一个十级小说阅读者,我总觉得还想看到点什么……
百川说:我是一个正经的人工智能,没有狗血剧情。
可你这个人的名字是不是取得有点潦草了。
最后再来创作一首吧。
好吧,虽然词一言难尽,但你似乎确实懂写歌的。
六、MiniMax
其实从交互界面上来说,风格像极了二十年前的网站,喜欢怀旧风格的人可以尝试下。

背后是一个初创公司,但是其今年的估值已经达到了12亿美元,还是不可小觑的,目前这个模型支持的场景相对来说也是逐渐丰富了。
麻雀虽小但五脏俱全,甚至还有数字人定制这种功能,还是看得出满满都是诚意。
当然了,我最终还是用了别人创建的数字人,跟它聊天的。
好吧,看样子它是最有个性的聊天机器人了。
七、智谱清言
他家的交互页面我觉得对于程序员或者想学编程的人来说,真的是比较友好的,而且响应速度也很快。
怎么说呢?我感觉你是懂的,但好像又不全对。
那么接下来是记忆和创作。
什么?。。。是我这道题太难了吗?
好吧,我们叫隔壁豆包来作画。
豆包的AI漫画生成这个也是一言难尽,但是看得出它真的努力想把这些元素拼接再一起了。
我们换成豆包AI生成图的功能。
感觉这回是对味多了。
八、豆包
这是我们今天最后一位选手,从用户交互的友好程度来说,我认为它能拿到最高分,果然字节是懂用户的,希望隔壁几位选手都能学一学。
接下来就考一考它的实际本事:
好吧,貌似也是没什么可说的,进入创作环节。
这小说的套路还是那个套路,那就接下来继续问它一些问题吧。
虽然,创作确实有不少漏洞。
好吧,不管是刀还是剑,我真的是已经感觉自相矛盾了,要是说,明月拿着天涯赠给她的“相思明月刀”去寻找天涯,或许这样会更好。
怎么说呢,它虽然表示赞同,但好像并没有实际更改。
好吧,我真的是无能为力,咱还是换个你的优势赛道,来作画吧。
画风感觉是对的,可是。。。这你是认真的吗?
看起来豆包同学像是在网上搜图的,不过看在你这么尽心尽力敷衍我的份上,也就原谅你了。
最后再来个彩蛋
帮我画一个甄嬛传里的华妃娘娘,边喝奶茶,边说“奶茶就是矫情”扁平插画,可爱Q版#创意图#
1)讯飞星火
这个华妃,看起来在宫斗剧里活不过两集的样子。
2)智谱清言
啊...这排场,简直就是皇太后娘娘啊。
3)豆包
好吧,倒是很美很像华妃,可是奶茶呢?
4)360智脑
没有奶茶也就算了,你还没有华妃!
5)文心一言
这张实在是入魂了哈哈哈。
结语:
本次的测评内容仅为部分节选,并没有全面展示各家大模型的能力(主要还是以基础能力展示为主),虽然测评的结果是槽点满满,“人工智能”看起来也有很长的路要走。
但瑕不掩瑜,以上大模型各有特色,各有侧重,有的专注于自然语言处理和生成,有的专注于中文语境的理解和生成,有的则专注于语音识别和生成,还有的擅长作画。
在下一篇文章中,笔者将整理这一系列测评的结果,对各个大模型进行中立评价,通过对结果数据的分析,希望能够帮助大家更好地了解这些大模型的技术优势和应用场景,同时也希望能够为大家在选择和使用大模型时提供一些参考和建议。
国产大模型,进化之路漫长,但我们相信未来可期!
想要了解更多AI 行业资讯以及ChatGPT和AI绘画实战案例,欢迎加入我们的「互联网AI早读课」知识星球!

在这个星球,你可以更加系统的学习AIGC相关知识
1. ChatGPT和AI绘画基础+进阶全攻略
2. ChatGPT和AI绘画最直接变现案例
3. 与200+行业先行者链接,积累你的专属人脉资源
4. 社群保姆级一站式服务,包教包会包讨论

现在加入,立享99元早鸟价优惠,星球用户每涨100人,价格上调100元,直到恢复499元原价

这个风口抓不抓的住,就看你愿不愿意迈出第一步了!

越晚加入成本越贵!最后两个名额又要涨价了!


源 | 技术领导力ID:jishulingdaoli)

作者 | 顿悟山丘 ;编辑 | 呼呼大睡

内容仅代表作者独立观点,不代表早读课立场




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
突发惨剧!华裔6岁男童被邻居暴力捶头休克!昏迷7天,命悬一线!父母崩溃…读书有感千万别做这些事!华裔夫妻差点惨死豪宅 头被强行按入浴缸!家门口停豪车,差点闹出人命!香港什么都好,就是吃饭拼桌让我有点崩溃!体验 | 香港什么都好,就是吃饭拼桌让我有点崩溃!曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024全员情绪稳定?不,全员崩溃再崩溃……|热带一家人3120B跨级挑战70B性能!国产开源大模型打造大模型新标杆糕妈:坚持不“鸡娃”的我,差点被这件事整崩溃!今天分享点过来人的经验可恨!美国邻居用棒球棒打华人孩子头 !年仅6岁生命垂危,父母崩溃…腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报国产大模型,终于敢跟用户要钱了徘徊在加拿大落基山脉(三)[惨剧]华裔6岁男童被邻居暴力捶头休克!昏迷7天,命悬一线!父母崩溃…免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!女子乘坐飞机,神秘失踪!7天后家属崩溃…解决大模型复现难、协作难, 这支95后学生团队打造了一个国产AI开源社区载373人加航客机险些坠毁机场!机身狂跳、轮胎冒烟!乘客崩溃…距离死亡从未如此之近朱啸虎:不要追逐大模型,要跟着大模型进化性能全面超越LLaMA2,0门槛商用,这个国产大模型要改变开源竞争格局了筒子楼残忍!华裔6岁男童「被邻居猛砸头部」满地是血,昏迷休克,命悬一线!父母崩溃…出国后练就了9项全能突发:载373人加航客机险些坠毁机场!机身狂跳、轮胎冒烟!乘客崩溃…手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型中国已经有238个大模型了?李彦宏劝各位少做点大模型多搞搞应用吧2024年或成国产大模型应用爆发年!有道再推多款大模型产品及应用适合已婚女性的6款情趣玩具,终于给大家出测评了!猎户星空推出微调大模型,多项测评霸榜,开源免费!小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大忽然觉得,北京girl是个警示,常年高高挂在排行第一处:天眼之下,没死角。​晚点财经|集成大模型,或者被大模型集成;10 月中国进口额恢复增长
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。