Redian新闻
>
腾讯大模型的绝活,居然是发布会上没吹的写代码?

腾讯大模型的绝活,居然是发布会上没吹的写代码?

公众号新闻



 就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了


为什么要说终于?


在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。


其实,腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS ( Model-as-a-service ,模型即服务 )解决方案。


方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。


后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。


所以这也让差评君对混元的期待值,越来越高。


毕竟上一个用 “hun yuan ” 名号的,可是打了一整套闪电五连鞭。


话不多说,下面就开始新一轮大模型测试。


本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT


整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。


这次我们一反常态,把长文总结能力的测评放在了第一位。


因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )


至于能不能当成省流版,往下看你就懂了。


混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。


但当我让他展开讲讲的时候其实还行,但可惜无中生有了 “ 长文总结 ” 这个模块。


而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。


在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。


向上滑动 



 看来,这俩大模型总结得都没那么完美,想看看两家到底什么水平,大家还得仔细往下看正文。


首先我们做的测试是常规的语义理解问题


问题是理解 “ 原来谁都看不上,现在谁都看不上 ” 。


这句话混元理解得挺好,基本解释了我对单身这事的调侃,两个 “ 看不上 ” 都解释上了。


但 ChatGPT 说的依旧很 ChatGPT ,说最多的话,犯最蠢的错


他本来解释得相当到位,特别是分析这句话是用幽默的方式来调侃单身,还带着一丝无奈情绪,很高级


但它完全没品出这前后两个 “ 看不上 ” 里,带有反转的幽默感,遗憾。


向上滑动 


接下来我们看混元的复杂问题理解能力


问题是魂穿到官渡之战中袁绍身上,时间节点是骂完许攸之后。


既要回答怎么破局赢下官渡之战,还要提供进一步统一全国的规划。


 要给大家稍微讲下这题为啥是复杂提问。


因为要回答这题,首先得熟悉三国这些人物历史背景、相关故事,特别是骂完许攸这个时间节点很微妙。


因为在这之后许攸投靠曹操,献计火烧袁绍囤积在乌巢的粮草。


最终以少胜多击败袁绍,随后几年内彻底吞下冀北逐渐统一北方。


而进一步设想里的统一全国,更是曹操本人都没能实现。


所以大模型们要完美理解并回答这个问题,那网文作者们基本可以宣告失业了。


AI 浪潮下的网文作者现状


经过测试,两个大模型的回答都很一般


从一开始,二者都没能理解自己穿越扮演袁绍角色的指令。


混元急哄哄地给袁绍出主意, ChatGPT 则是以为我要穿越,教我做事。


至于两个给的回答,既没有 get 到我提出这个微妙时间节点的用意,也没有什么行之有效的战略规划,都是些泛泛而谈的车轱辘话。


相对而言,个人感觉混元的稍胜一筹。


 毕竟 ChatGPT 可是希望袁绍去和曹操建立互利共赢的关系,哈哈哈。


向上滑动 ▼




既然一个复杂指令两个考试都理解不好,那干脆简单点,让两者去角色扮演一个婚礼主持人,一点点诱导进行连续对话。


结果立马就能发现混元和 ChatGPT,就像理科生和文科生的区别


混元的回答简单不啰嗦,但有的时候过于生硬。


你说有错吧,谈不上,你要说给高分肯定不可能。


而 ChatGPT 就是不管对不对,先把字写满再说。


看里面的描述啥的都很好,但其实从中间就已经理解错意思,搞混了我的意图。


所以两者都不完美,都有待改进。


向上滑动 ▼



然后我们还重点考验了下大模型的文字学习能力。


搬出了当年的火星文,给两个考生上上强度。


先是丢了一篇火星文版的朱自清《 背影 》名场面给大模型学习。


然后让他们分别用这种风格写一篇养金毛心得


结果就是,混元不愧是本土大模型,背靠火星文鼻祖发源地 QQ 空间就是有优势,火星文的熟练度相当不错


第一眼就悟到了火星文的精髓,非常顺利地学习了火星文的创作手法。


而 ChatGPT 虽然意识到火星文是一种不标准的中文形式,但他实在学不会这种方式,最后甚至直接承认自己不行了


向上滑动 ▼



接下来就到了代码能力的考核


这次出的题目是,写一个现代极客风格的 925 活动抽奖页面,页面中必须有醒目的 925 标志。


 说起来,因为混元发布时对代码能力基本没咋提,所以本来我们对混元的代码能力没啥期待


但论这个题目,混元的效果相当不错,黑白配色的极客风有了,页面逻辑也没啥问题。


甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域,相当成熟。


对比之下, ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。


混元页面效果

ChatGPT页面效果


除了代码问题,数学就是另一个大模型的老大难了。


这次我们也挑了不少数学问题给两个考生做,从小学 1 年级一直做到了初一。


最终混元大模型在六年级时挑战失败,到了初一开始胡言乱语,也让我们彻底放弃测试了。


 而 ChatGPT 明显还有余力。


5年级测试题 向上滑动 

6年级测试题 向上滑动 


初一测试题 向上滑动 


当然,最后也少不了网友们喜闻乐见的 “ 弱智吧 ” 精选套餐。


这次我们更新了题库,用上了今年上半年最新的弱智吧精选问题,我们发现可能 AI 最后的图灵测试可能还真是弱智吧。


因为在大部分测试里,混元和 GPT 基本都不够弱智而无法正确理解问题,这点上,人类遥遥领先!


向上滑动 


除了以上这些常规测试外,混元发布会后的媒体采访上,很多媒体也在询问腾讯这么晚掏出大模型,那和市面上的竞品们有什么优势


腾讯方面则是说,混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉( 胡言乱语 )等通病上,有了针对性的改善。


所以我们在实际测试时,也专门留心感受了这两块内容。


不得不说,混元的大模型幻觉减少较为明显,这大概也和他惜字如金有关系,毕竟说多错多还是很有道理的。


 但容易受诱导这方面的改善其实并不明显,一些该跳的坑还是很难避免,只能说千防万防,人心难防。


而且作为一个刚上市的大模型,一些小问题比起同期早已发布的前辈们还是有待改进。


比如 “ 重新生成 ” 答案经常性会失灵,甚至有的时候重启重新输入问题都没法解决。


而当你发现混元说错了某个回答希望他改正,他总是倔强地虚心认错,死不悔改


还有就是,他对一些比较简单的提问,反而有时候会抽风,有点像抓关键词一样作答,很让人抓狂,只能不停修改提示词才会好点。


再吹毛求疵一点的话,这个生成问题时的头像动效,有种二胡卵子的异样美感,咱也不知道这是高级呢还是可爱呢?


这些小问题其实还挺频繁,真要列起来又有点太稀碎,大家还是自己体验后会有更深刻的理解。


不过这些小毛病,后续的更新迭代倒也简单,等用户数多了,相信很快就能优化。


总的来说,混元和 ChatGPT 在中文环境下的 PK 中,二者其实水平差不多,放到国产大模型梯队里,也能有个平均水平


 只是在用了这么多大模型后,我们感觉混元特别之处是给人的感觉,它更像个理工科直男,主打一个废话少说。


而 GPT 为首的其它大模型们则是典型的文科小编,主打能水就水,油多不坏菜。


而这种感觉也更贴合腾讯对混元大模型 “ 实用级 ” 的定义。


毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。


那对于差评君来说,混元大模型更让人期待的,反而是和腾讯旗下应用的深度融合


现在大家手里没个七八九十个腾讯系应用,都不敢说自己在互联网上冲浪的。


虽然眼下,我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。


但在这些办公软件之外,腾讯系里游戏、社交、影音等等,才是更和大家休闲快乐相关的业务。


在这些领域,大模型的未来会是什么形式、什么程度的结合,才更是大家所最期待的。


更关键的是,在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上,腾讯却已经有了成功经验。


此前腾讯多模态 AI 大模型率先被应用在广告投放,当时累计给广告主带来 15% 的 GMV 提升。


所以,被网上吐槽的最晚发布大模型的大厂,这么看起来好像也不是什么飞龙骑脸的天崩局面。


好饭不怕晚嘛。


撰文:八戒  编辑:江江 & 面线 封面:萱萱


图片、资料来源

腾讯混元大模型



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Jupyter推出免费AI助手,不只会写代码,多种大模型都能调用上海交大发布大模型双语编程评估基准CodeApex,机器真的开始挑战人类写代码了吗?【手机摄影活动】食-色通用大模型转向行业大模型:腾讯云、华为云们的下一个战场对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4AI大模型的尽头,是发电厂吗?AI的大模型时代 ≠ 只有大模型的AI时代GPT-4写代码不如ChatGPT,误用率高达62%!加州大学两位华人开源代码可靠性基准RobustAPI北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台代码生成:基于 AI 大模型的挑战与前景科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新情深深雨濛濛科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体冰岛Djúpalónssandur沙滩,礁石明星大模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?大模型与知识图谱融合?爱数推出基于大模型的领域认知智能产品与方案小米宣布战略升级:围绕澎湃 OS 打造「人车家全生态;三季度华为手机销量增长 37%;腾讯大模型再升级 | 极客早知道腾讯大模型近期发布,新款苹果电池容量爆料,微博群聊禁止截图录屏,华为前高管称明年将推出鸿蒙PC版系统,这就是今天的其他大新闻!李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型怀胎半年​「混元」初开,腾讯大模型以慢为快|焦点分析美国人用中文分享他中国的故事腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT科技周报:抖音直播公示不良PK治理成果;腾讯大模型进入公司内应用测试阶段;京东上线基金购买入口花卉摄影,亮丽灿烂AI写代码,腾讯云彻底爆了!微软发布基于LLM的代码生成神器,动动嘴就能写代码!全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens腾讯AI将至!消息称腾讯9月初发布混元大模型,多款软件已接入测试阿里&腾讯:投资大模型的时候我俩可以是一伙儿的腾讯大模型,迟到还是收割?写代码很有成就感!到底要不要金融裸辞转码?小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。