国际科技财经博客移民网络热点娱乐民生时事公众号

>

测评了8个国产AI大模型，差点崩溃……

测评了8个国产AI大模型，差点崩溃……

公众号新闻

2023-11-13 00:11

近年来，人工智能技术的发展可谓是日新月异，尤其是大模型的应用，更是成为了科技界的焦点。从自然语言处理到语音识别，从情感分析到知识问答，大模型的应用已经渗透到我们生活的方方面面。而在国内，各大科技公司也纷纷投入到大模型的研发和应用中，一时间，各种大模型如雨后春笋般涌现出来。

为了帮助广大用户进行筛选和甄别，我们举行了一场【大模型风采大赛】，本着公平公正公开的原则，本次参赛选手均是来自国内的8位大模型才俊，他们也是出身各异，有的背景雄厚一掷千金，有的草根出身筚路蓝缕。

【大厂系嫡子】：百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问、360的智脑、以及抖音的云雀大模型等；

【学院派大牛】：智谱AI的智谱清言；

【初创系新贵】：百川智能的百川大模型、MiniMax的“abab”大模型等。

本次测评主要是从一个普通用户的角度，围绕用户体验（交互界面、响应速度、稳定性）、基础能力（理解、生成、逻辑、记忆）、多模态输出能力以及场景模型（支持的数量丰富度以及质量）作为测评方向，目的是帮大家找到更适合自己使用的大模型。

笔者作为一名【大模型测评官】，爆肝两天两夜，亲自对这些大模型进行一次综合的考察，结果考察完了之后整个人差点崩溃。

具体是怎么崩溃的呢? 话不多说，我们直接上图：

一、文心一言

我们体验的是3.5版本，文心一言的交互界面简洁且通用，支持百度系的很多应用插件，界面通用性强（看得出来真的是在用AI原生思维重构产品）。

响应速度快且稳定度高（4.0体验更好，但是需要氪金），即使在用户并发高峰期也不特别受影响,支持多模态输入和输出。用户体验总体能打4星，交互方面有一个不算是不足的地方，是比较直男，属于没特别惊喜但也没什么硬伤的。

不错很切题，你果然是懂中文诗词语义理解的。

让我们再来问一遍：

什么？登鹳雀楼这个，你是认真的吗？

好的，你也是懂得一本正经胡说八道的，但我还是被你说服了，那么继续下一题。

还不错，这是你的章节大纲吧？我们继续往下看。

李白和王之涣，这个平平淡淡的故事，竟然被你写得这么刺激？

你要是在耽美文学界，一定能大放异彩。

我先考考你的记忆能力吧。

好的，看得出前后逻辑能自洽。最后再来一个问题。

这作诗水平，我一个理科生只能流着眼泪说，真的牛B！

最后的最后，忍不住请隔壁豆包（https://www.doubao.com/chat）也来吃瓜作画。

二、讯飞星火

这个界面呢，也是一目了然的，而且暗藏了很多小心机，把很多优势功能都给一目了然显示在主页上，总的来说还是比较友好。唯独就是我在测试的过程中，感觉没有那么稳定，出现过短暂类似宕机的体验，而且也支持多模态输出，场景模型很多。

怎么说呢？您能不能先把每一句诗人和诗词的内容给对应上，我真的谢谢你了！

三、通义千问

通义千问跟讯飞的交互差不多，属于简洁但是有“心机”的，图片理解和文档解析这两个十分重要的功能，放在了非常显眼的主交互区位置，用起来很方便，不像其它大模型应用，人还得找半天。

啊，杜甫这个诗？？。。。请问你是中了跟楼上一样的毒吗？

四、360智脑

我比较喜欢360智脑的一个原因是，它有着非常沉浸式的虚拟数字人角色扮演，而且也支持多模态，场景很丰富且好用。但不足的地方在于，这个响应速度真的很慢。

然后，换一个角色，诸葛亮吧哈哈哈。

360这个角色扮演真的可以！

不过你怎么也说王之涣？你是看了隔壁文心一言写的小说了吗？

真不愧是卧龙先生，是知错能改的。

接下里我要考你创作了，孔明先生您准备好了吗？

先生您谦虚了，那么还是作一首诗吧。

私人觉得这首诗不如前面文心一言作的，那我们再来一首吧

五、百川智能

这是一个交互比较简陋的大模型，但是界面还是比较友好的，特别对于开发者来说，应该还是有很多空间。

可以，算是中规中矩吧，这位选手我们接下来可以进入创作环节。

怎么说呢，我总想再看到点什么……

我天，我有点吃惊的，难道这不是一个武侠小说吗？怎么成玄幻了？

作为一个十级小说阅读者，我总觉得还想看到点什么……

百川说：我是一个正经的人工智能，没有狗血剧情。

可你这个人的名字是不是取得有点潦草了。

最后再来创作一首吧。

好吧，虽然词一言难尽，但你似乎确实懂写歌的。

六、MiniMax

其实从交互界面上来说，风格像极了二十年前的网站，喜欢怀旧风格的人可以尝试下。

背后是一个初创公司，但是其今年的估值已经达到了12亿美元，还是不可小觑的，目前这个模型支持的场景相对来说也是逐渐丰富了。

麻雀虽小但五脏俱全，甚至还有数字人定制这种功能，还是看得出满满都是诚意。

当然了，我最终还是用了别人创建的数字人，跟它聊天的。

好吧，看样子它是最有个性的聊天机器人了。

七、智谱清言

他家的交互页面我觉得对于程序员或者想学编程的人来说，真的是比较友好的，而且响应速度也很快。

怎么说呢？我感觉你是懂的，但好像又不全对。

那么接下来是记忆和创作。

什么？。。。是我这道题太难了吗？

好吧，我们叫隔壁豆包来作画。

豆包的AI漫画生成这个也是一言难尽，但是看得出它真的努力想把这些元素拼接再一起了。

我们换成豆包AI生成图的功能。

感觉这回是对味多了。

八、豆包

这是我们今天最后一位选手，从用户交互的友好程度来说，我认为它能拿到最高分，果然字节是懂用户的，希望隔壁几位选手都能学一学。

接下来就考一考它的实际本事：

好吧，貌似也是没什么可说的，进入创作环节。

这小说的套路还是那个套路，那就接下来继续问它一些问题吧。

虽然，创作确实有不少漏洞。

好吧，不管是刀还是剑，我真的是已经感觉自相矛盾了，要是说，明月拿着天涯赠给她的“相思明月刀”去寻找天涯，或许这样会更好。

怎么说呢，它虽然表示赞同，但好像并没有实际更改。

好吧，我真的是无能为力，咱还是换个你的优势赛道，来作画吧。

画风感觉是对的，可是。。。这你是认真的吗？

看起来豆包同学像是在网上搜图的，不过看在你这么尽心尽力敷衍我的份上，也就原谅你了。

最后再来个彩蛋

帮我画一个甄嬛传里的华妃娘娘，边喝奶茶，边说“奶茶就是矫情”扁平插画，可爱Q版#创意图#

1）讯飞星火

这个华妃，看起来在宫斗剧里活不过两集的样子。

2）智谱清言

啊...这排场，简直就是皇太后娘娘啊。

3）豆包

好吧，倒是很美很像华妃，可是奶茶呢？

4）360智脑

没有奶茶也就算了，你还没有华妃！

5）文心一言

这张实在是入魂了哈哈哈。

结语：

本次的测评内容仅为部分节选，并没有全面展示各家大模型的能力（主要还是以基础能力展示为主），虽然测评的结果是槽点满满，“人工智能”看起来也有很长的路要走。

但瑕不掩瑜，以上大模型各有特色，各有侧重，有的专注于自然语言处理和生成，有的专注于中文语境的理解和生成，有的则专注于语音识别和生成，还有的擅长作画。

在下一篇文章中，笔者将整理这一系列测评的结果，对各个大模型进行中立评价，通过对结果数据的分析，希望能够帮助大家更好地了解这些大模型的技术优势和应用场景，同时也希望能够为大家在选择和使用大模型时提供一些参考和建议。

国产大模型，进化之路漫长，但我们相信未来可期！

想要了解更多AI 行业资讯以及ChatGPT和AI绘画实战案例，欢迎加入我们的「互联网AI早读课」知识星球！

在这个星球，你可以更加系统的学习AIGC相关知识：

1. ChatGPT和AI绘画基础+进阶全攻略

2. ChatGPT和AI绘画最直接变现案例

3. 与200+行业先行者链接，积累你的专属人脉资源

4. 社群保姆级一站式服务，包教包会包讨论

现在加入，立享99元早鸟价优惠，星球用户每涨100人，价格上调100元，直到恢复499元原价！

这个风口抓不抓的住，就看你愿不愿意迈出第一步了！

越晚加入成本越贵！最后两个名额又要涨价了！

来源 | 技术领导力（ID：jishulingdaoli）

作者 | 顿悟山丘；编辑 | 呼呼大睡

内容仅代表作者独立观点，不代表早读课立场

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

2024年或成国产大模型应用爆发年！有道再推多款大模型产品及应用可恨！美国邻居用棒球棒打华人孩子头！年仅6岁生命垂危，父母崩溃…免费大模型实战课｜首周聚焦百度智能云千帆大模型平台使用，《大模型应用实践》实训营11月16日开讲！李开复零一万物发布首款大模型；马斯克xAI发布首个大模型；360、美团、昆仑万维等最新消息；vivo发布蓝心AI大模型调查了800种零添加商品，却发现加了81种添加剂：“0添加”“不干净”残忍！华裔6岁男童「被邻居猛砸头部」满地是血，昏迷休克，命悬一线！父母崩溃…女子乘坐飞机，神秘失踪！7天后家属崩溃…[惨剧]华裔6岁男童被邻居暴力捶头休克！昏迷7天，命悬一线！父母崩溃…晚点财经｜集成大模型，或者被大模型集成；10 月中国进口额恢复增长筒子楼腾讯混元大模型开放文生图；微软AI投资重心或转向应用和业务；国产大模型10月榜单公布丨AIGC大事日报中国已经有238个大模型了？李彦宏劝各位少做点大模型多搞搞应用吧读书有感千万别做这些事！华裔夫妻差点惨死豪宅头被强行按入浴缸！家门口停豪车，差点闹出人命！解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区突发:载373人加航客机险些坠毁机场!机身狂跳、轮胎冒烟!乘客崩溃…体验 | 香港什么都好，就是吃饭拼桌让我有点崩溃！忽然觉得，北京girl是个警示，常年高高挂在排行第一处：天眼之下，没死角。糕妈：坚持不“鸡娃”的我，差点被这件事整崩溃！今天分享点过来人的经验适合已婚女性的6款情趣玩具，终于给大家出测评了！小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大曝OpenAI大模型新进展！将推出多模态大模型，新项目Gobi筹备中猎户星空推出微调大模型，多项测评霸榜，开源免费！20B跨级挑战70B性能！国产开源大模型打造大模型新标杆出国后练就了9项全能全员情绪稳定？不，全员崩溃再崩溃……｜热带一家人31 千元成本搞定专业大模型，系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024 香港什么都好，就是吃饭拼桌让我有点崩溃！突发惨剧！华裔6岁男童被邻居暴力捶头休克！昏迷7天，命悬一线！父母崩溃…北京理工大学发布双语轻量级语言模型，明德大模型—MindLLM，看小模型如何比肩大模型手机大模型爆发：vivo 发布自研蓝心大模型，参数追赶 GPT-3 国产大模型，终于敢跟用户要钱了徘徊在加拿大落基山脉（三）载373人加航客机险些坠毁机场!机身狂跳、轮胎冒烟!乘客崩溃…距离死亡从未如此之近朱啸虎：不要追逐大模型，要跟着大模型进化

热点事件追踪