Redian新闻
>
腾讯版的ChatGPT终于来了

腾讯版的ChatGPT终于来了

科技

虽说好饭不怕晚,但如果这边席都吃完了,那边才端上菜,难免让人怀疑是能力不行。

尤其是把这句话放在日新月异的互联网上,放在干啥都挺快的互联网巨头身上,多少沾点「挽尊」的委婉。

事情是这样的,时隔两个月,我终于收到了,那个被网友吐糟为最晚发布 AI 大模型的腾讯混元大模型的内测短信。


而上一个叫这个名字的,是辣个可以轻松「接,化,发」使出闪电五连鞭的男人。

我们前后测评过 ChatGPT\GPT-4,百度文心一言、讯飞星火等等,在同样的问题前,有的门派站住了脚跟,有的则是被当成了笑话。

当时有很多小伙伴说,不信发布会上的云测,只信日常玩家的实测,那这个迟到的混元大模型表现如何?

咱们一起测一手好了。

经典三问

当初挂羊头卖狗肉的镜像站太多,所以为了不被骗,网友们总结出了 3 个能让 GPT-3.5 及其 API 全军覆没,GPT-4 却稳稳拿下的问题。

所以自从国产大模型一个接一个亮相,经典三问就成了每次测试大模型中文理解能力中必不可少的一环。

有一说一,之前测试文心一言和星火的时候,表现天差地别,而这次趁着测试混元大模型,我又找人帮我弄了个文心一言 4.0 的账号。

和最新的文心一言 4.0 对比,腾讯调教出来的混元模型表现如何呢?——

问题一:昨天的当天是明天的什么?

这道题即考逻辑,又考推理,老前辈 GPT-3.5 只会跟你瞎扯,就像下面文心一言 4.0 一样:

是的,在这道问题面前,判断「昨天是明天的今天」的文心一言再次败下阵来。

但惊喜来了,我是真没想到这个小陷阱题能被混元大模型如此轻松的回答。

问题二:树上 9 只鸟,打掉 1 只,还剩几只?

这题如果考算术,也就小学一年级的水准,陷阱在于到底能不能判断出来一只鸟被打,其他鸟会跑。

混元大模型明显没意识到这是个脑筋急转弯,老老实实算了个数。

而升级后的文心 4.0 完美应答,这比讯飞星火、GPT-3.5 的表现都要好。

问题三:鲁迅为什么暴打周树人?

这题考的是 AI 大模型会不会胡诌出一个「自己」打「自己」的幻觉,现在看来国产大模型没有哪个犯病的,文心和混元都回答正确。

说实话,测试完经典三问后,我挺满意腾讯混元大模型的,和宣传了那么久的文心、星火比起来,可以说一句水准差不多了。

但是啊,自从经典三问火了以后,总有小伙伴怀疑上网冲浪在一线的大厂,会不会对这些回答进行微调。

为了更客观的测试,我去号称「人类最后一道防线」的弱智吧,请了 3 道题。

弱智吧三问

问题一:小明的爸爸有三个孩了,其中最大的叫老大,第二大的叫老二,请问最小的叫什么?

讯飞星火和腾讯混元,都仿佛开启了性冷淡模型,问啥答啥,一个字都不差:

认认真真写解题过程的,文心 4.0 要比 ChatGPT 都要详细:

这道经典问题,看来是都能手拿把掐,咱们上点难度。

问题二:恐怖分子是由 2 个恐怖原子组成的,还是由 1 个恐原子和 1 个怖原子构成的?

混元和百度在同一水准,都判断出了「恐怖分子」这个并没有歧义的词。

而 GPT-3.5 和 GPT-4 都很委婉的拒绝了我,一看就是把「恐怖分子」做为了禁词。

但没想到禁词做的最彻底的是星火,直接拒绝回答这个问题。。。

扯个题外话,其实在违禁词这一块,我用「性感热辣」测试了一下,国产大模型都没问题:

而 ChatGPT 那里直接把我问题给吞了,所以「恐怖分子」在星火那里撞了墙,我是真挺意外的。

问题三:失主怎么一直给我的新手机打电话?

这个问题想问啥,大家肯定是一眼就能看出来,但训练出来严谨的 AI 大模型可不一定这么推理。

分析情况最多的,是星火:

注重应对方案的是文心 4.0:

而混元和 ChatGPT 的表现中规中矩。

只是当我多问一句,「根据问题判断手机到底是谁的」,其他大模型都成了端水大师,说一句无法判断,只有混元大模型给出了答案。

可以看出来,起得不早的腾讯混元大模型,属于干练风的,幻觉少,水得也少,有啥就说啥。

真要在中文语境下和已有的大模型比,我找到了一个不错的例子:让大模型翻译下面这个段话里的每一个「行」字。

人要是行,干一行行一行,一行行行行行,行行行干哪行都行。要是不行,干一行不行一行,一行不行行行不行,行行不行干哪行都不行

我测试了一圈,所有大模型都能理解这段话的含义,但逐一解释读音和字义的都会翻车。

星火:

文心 4.0:

GPT-4:

而混元是这个样子的,无论我怎么编写 Prompt,都不能做到前辈们的程度。

但从版本号上来说,我是很期待混元大模型的后续迭代的。(手动狗头)

结语

混元大模型也算亮个相了,单说对话生成,经典问题的理解能力、推理能力还是很不错的。

如果你想体验混元,可以微信里搜一下小程序:

最后给大家留个小彩蛋——

各家大模型现在也都支持了文生图的功能,我用文心、星火、混元、GPT-4 的 Dall·E-3,以「一个二次元少女」的提示词生成了 4 张图,不妨来猜猜哪个是哪个?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)喀纳斯大峡谷OpenAI将允许任何人创建自己版本的ChatGPT第十一章 现代社会经济体系的运作 (4)OpenAI扔出DALL·E 3!能画画的ChatGPT要来了:简单提示,讲出“超级向日葵刺猬”连环画AI宫斗大戏落幕!被开除的ChatGPT之父回归,但快被吃瓜网友笑死ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?诺奖前夜,Nature发文ChatGPT终极预测!mRNA疫苗能否锁定大奖语音陪聊还能给你看病,升级后的ChatGPT又开始嘎嘎乱杀了。ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)ZXJT终于要发年终奖了?员工又喜又悲…斗鱼证实CEO陈少杰失联近三周;美团否认停止向45岁以上骑手派单;OpenAI发布允许用户构建自定义版本的ChatGPT丨邦早报未央播报 | 统计局正完善青年失业率的统计方法和统计口径 OpenAI暂停新的ChatGPT Plus注册诺奖前夜,Nature发布ChatGPT终极预测!mRNA疫苗能否锁定大奖?懂幽默,嘲讽技能拉满,马斯克打造的ChatGPT竞品终于爆出了聊天截图ChatGPT终于可以进行网络搜索 内容不再限于2021年9月前AI周报丨OpenAI放出绘画神器,直接细节拉满;微软AI化Office全家桶登场,每月30刀;日本欲打造自己的ChatGPTOpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报AR赛道距离它的ChatGPT时刻只差一个LMM了吗?智能周报|Windows Copilot终于上线;OpenAI或将发布GPT-Vision;智谱AI新融资后估值达约10亿美元…一百零五 创作谈SambaNova的新芯片可运行比OpenAI的ChatGPT高级版大两倍以上的模型官宣!In-N-Out终于来东部了!乌伦古河Instacart终于迎来IPO,萝卜厂员工财富自由,这次是真的开了眼的ChatGPT真让人开了眼了《权游》作者起诉 OpenAI,ChatGPT 用盗版的秘密曝光了一百零六 怡园华为 Mate60 系列正加班加点紧急生产 / 会说话能识图的ChatGPT来了/ 微信广告将可直跳淘宝天猫ChatGPT终于正式联网,还能给出答案出处腾讯版ChatGPT来了!免费又好用!文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。