腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?
5 月 30 日,腾讯基于混元大模型的 App“腾讯元宝”正式上线,苹果及安卓应用商店均可下载。腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示:“过去的一年,我们持续推进腾讯混元大模型的能力爬坡,希望腾讯元宝最终服务于每个普通人的生活。”
相比此前测试阶段的混元小程序版本,面向工作效率场景,腾讯元宝提供了 AI 搜索、AI 总结、AI 写作等核心能力;面向日常生活场景,元宝提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。
那么,这些功能的实际表现到底如何呢?
拿到腾讯元宝的体验资格后,我们马上逐一试用了它的亮点功能,并特别针对文生图和 AI 写作方面,通过同题多解的方式,将其与多个国内知名的大模型进行了对比和评估。
首先,来直击一下元宝与各大模型“battle”的实况。
在这一功能上,我们选择了百度文心一格、阿里通义万相、讯飞星火、美图 MiracleVision 4.0 、字节跳动豆包五个模型对比效果,对他们的理解和内容生成能力逐一进行了测评。另外,考虑到涉及的这些大模型都源自国产,我们特意选取了中国文言文作为输入素材,以此来考察它们在处理本国语言古典文本上的能力。
从生成图中所涵盖各实体元素的完整程度和整体画面的协调性来说,元宝的表现是排在前列的。
提示词为:林中有寿鹿仙狐,树上有灵禽玄鹤。瑶草奇花不谢,青松翠柏长春。仙桃常结果,修竹每留云。一条涧壑藤萝密,四面原堤草色新。
生成结果如下:
从左到右分别是元宝、豆包、讯飞星火、美图 MiracleVision 4.0、文心一格的输出结果
据介绍,在 AI 写作方面,元宝不仅支持多轮问答,还能够将对话的内容整理成报告,按照要求进行结构化输出。这一功能上,我们将其与文心一言、通义千问、Kimi、豆包四个模型对比效果。
以测评案例来看,相较而言,腾讯元宝的生成内容展现出了包含起承转合的完整情节,故事框架也已具备雏形,但语句间的逻辑衔接略显生硬、人物描写也较为生涩。
提示词:唐僧师徒四人穿越到现代后的第一天,会发生什么故事?写一个 300 字左右的小故事。
元宝的生成结果如下:
可以小夸一下的是,元宝留意到了唐僧师徒四人需要吃素的人物细节,在人设和故事设定方面理解得还不错。
再看豆包的生成结果,其语句结构明显更为成熟了,各个段落环节之间衔接得也比较自然。
到文心一言这里,无论语句组织还是文字逻辑,都展现出不错的效果。
而 Kimi 和通义千问的生成结果,开始呈现出更显著的变化。除语句构造外,整个故事的人物设定、叙事角度、情节架构都更加立体,并都在结尾处给读者构建了一个引人入胜的虚构世界。
当前,大模型仍在快速发展期,从模型能力到应用落地都存在较大“时延”。数据显示,当前人们使用大模型相关产品时,有超过 65% 的需求,集中在工作 / 学习效率场景,但相关的 AI 产品解决方案尚不成熟。针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。
AI 搜索方面,腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎,并通过 AI 搜索增强,提升时新类和知识类问题效果,比传统搜索更有效率;同时,内容覆盖微信公众号等腾讯生态内容及互联网权威信源,答案准确性更高;此外,元宝还会提供所引用的参考资料,并给出相关推荐,方便快速溯源及延伸阅读。
我们输入一个近日引发热议的美国 AI 禁令问题:如何看待中国人被限制在美从事 AI 相关工作?生成结果如下:
AI 总结方面,无论是希望快速了解一本书或是一个新领域,还是处理复杂繁冗的报告、文献,元宝都能帮上忙。据介绍,元宝可上传最多 10 个 PDF、word、txt 等多种格式的文档,并能够一次性解析多个微信公众号链接、网址,支持 256K 的原生窗口上下文。
例如,我们输入:请总结一下 AI 前线公众号这一年来的内容输出亮点。
生成结果如下:
除了满足效率需要,腾讯元宝在日常生活场景,也提供了丰富的应用及玩法,包括百变 AI 头像、口语陪练、超能翻译官等,均免费开放。同时,元宝也支持用户根据个性化需求,快速创建个人专属的智能体,赋予角色设定,或让 AI 自动生成智能体相关信息,并复刻自己的音色。结合腾讯生态场景,元宝还将于近期推出腾讯新闻哥、《庆余年》主题等特色智能体。
腾讯元宝产品能力升级的背后,是混元底层模型的持续迭代。
自 2023 年 9 月首次亮相以来,腾讯混元大模型的参数规模已从千亿升级至万亿,预训练语料从万亿升级至 7 万亿 tokens,并率先升级为多专家模型结构(MoE),整体性能相比 Dense 版本提升超 50%。除不断提升通用大模型能力外,腾讯混元也支持角色扮演、FunctionCall、代码生成等领域能力,数理能力提升 50 %。
在多模态方面,腾讯混元文生图大模型是业内首个中文原生 DiT 架构模型,采用了 Sora、Stable Diffusion 3 等行业顶尖产品的同款架构,生成效果相比上代提升超 20%。目前,该模型已经全面开源,在 Github 获得 2000+star,相关能力也全面融入腾讯元宝。
此外,腾讯混元大模型在视频、3D 生成等方面也持续探索,目前已经支持 16s 视频生成,单图仅需 30 秒即可生成 3D 模型,相关能力也将于后续在元宝中上线。
目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。据了解,为了满足开发者及企业客户对于通用模型能力的需求,腾讯混元大模型已通过腾讯云对外开放,可通过 API 调用,也可以作为基底模型,为不同产业场景构建专属应用。
大模型技术正在引领行业发展创新浪潮。那么,如何让大模型技术与行业深度融合?如何通过大模型技术为各行各业提供更加智能化的解决方案?在金融、法律、医疗、教育、政府等各行业的实践场景中,又有哪些大模型落地经验?「AI 前线」特别为您精选了刚刚结束的 AICon 全球人工智能开发与应用大会上的精彩演讲,并经过嘉宾授权将演讲的精彩 PPT 提供给大家。关注「AI 前线」,回复关键词「行业创新」即可免费获取。
本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。目前会议进入 9 折购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。
今日荐文
都白学了!Mistral 的首个“开放”编程模型,精通Python、C等 80+ 语言,用220 亿参数赢了 GPT-4
奥特曼突然变身OpenAI “安全卫士”!网友:刚被实锤不关心安全还“心理虐待”,谁信啊
禁令再升级!拜登政府已不想让中国人在美从事AI工作了,套壳大模型的公司也危险了
老黄急了!为跟华为抢业务,英伟达也得低头降价,但大家已经不买账了?
13分钟颠覆传统电脑!微软Copilot+ PC 抢装GPT-4o、叫板苹果,网友不买账:用大炮打蚊子
你也「在看」吗?👇
微信扫码关注该文公众号作者