作者|武静静
编辑|赵健
9月7日,在一年一度的腾讯全球数字生态大会上,腾讯自研的通用大语言模型——混元大模型正式亮相。
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生介绍:“腾讯混元大模型拥有超千亿参数规模,预训练语料超2万亿tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。”
汤道生称,目前混元大模型已接入腾讯50多个业务并取得初步效果,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务和产品。此外,在C端,腾讯混元大模型也开放了内测,这是一款能进行自然语言交互的小程序,类似小程序版本的ChatGPT。
会上,腾讯也宣布腾讯混元大模型正式通过腾讯云对外开放,企业可以通过API调用混元,或者将混元作为基底模型构建上层应用。
腾讯的混元大模型究竟表现如何?混元背后,腾讯在通用大模型路径上的思考和规划是什么?
1.一份腾讯混元大模型最新内测手记
拿到内测账号之后,我们直接上手测试了一下腾讯的混元助手大模型。
腾讯混元助手大模型是一款能智能对话的小程序,具备多轮对话能力。它可以根据用户提出的问题,结合上下文,生成相应的文本,可以服务于对话问答类企业端客户。据介绍,腾讯混元的功能还包括:AI问答、AI绘画、代码生成等。
先测试一下它的对话能力。下图中可以看到,基于问题,混元助手不仅写了一份采访科幻作家的问题大纲,可以理解“orz”这种网络用语,还能直接制成表格清单。
腾讯混元大模型根据三个不同的提问给出了相应的回复,甲子光年制图
腾讯混元大模型不仅可以制成对应问题的表格,还会直接给到基于数据总结的观点,比如在回答“美国和日本过去5年的进出口总额和增长率并做成表格”这一提问时,混元助手不仅做成了表格,还在回答的最后总结了数据的变化和可能的影响因素。
此外,腾讯混元大模型还可以直接写代码,并且详细地解析生成的代码意味着什么,给到更多的可行性建议,下图中就是它基于“怎么用rust语言发起一个http请求?”给出的回答和详细解析。
在小程序混元助手的“灵感发现”页面,我们能看到它能实现的各种功能。比如,工作场景中,混元助手可以写工作邮件、面试大纲、招聘信息、写ppt大纲等;专业技能领域,它可以给出域名建议、生成代码、生成SQL查询语句、解释各类代码;在一些趣味体验方面,混元可以模仿林黛玉回答问题、会写儿童故事、写歌词等。
下图中,我们就让混元助手模仿林黛玉回答问题,可以看出,混元的这种语气几乎已经做到了以假乱真。
值得一提的是,这次,腾讯并未重点和公开强调混元助手,而是强调了混元大模型在腾讯广告、腾讯会议、腾讯文档中的使用。
比如,腾讯会议中,混元大模型化身“腾讯会议AI小助手”:总结会议内容只是小菜一碟,还可以回答“会议讨论中有哪些争议点?”“会议得出了哪些结论?”“会议安排了哪些待办事项?”这种具体的问题,提升会议效率。甚至如果有人在会议上开小差,都可以问AI小助手:“会中有人提到我吗?”。
腾讯集团副总裁蒋杰称,据实测,在指令理解、会中问答、会议摘要、会议待办项等多个方面,混元大模型均获得较高的用户采纳率。在腾讯文档中,腾讯混元大模型可以支持数十种文本创作场景,能一键生成标准格式文本;在表格能力上,混元大模型掌握了数百种Excel公式,用户可以直接用自然语言生成函数,并能直接用表格内容生成图表。通过“打斜杠”“选中已有文字”“在智能助手输入框”这三种方式,用户就可以调出智能助手,让它来帮忙写方案、做简历、做表格等。有人评论称:“腾讯的AI生态未来会对百度的搜索和金山的WPS办公应用场景有一定的冲击。比如AI助手能够解决一些信息搜索上的问题,而腾讯文档借助AI可以实现更高效的文件编辑。”此外,在广告业务场景,腾讯混元大模型可以进行智能化的广告素材创作。腾讯混元大模型在腾讯广告中的应用
图片来自腾讯
技术能力上,混元也有一些具体的成绩:在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评66个能力项,在“模型开发”和“模型能力”两个重要领域的综合评价均获得了当前的最高分。在主流的评测集MMLU、CEval和AGI-eval上,混元大模型均有优异的表现,特别是在中文的理科、高考题和数学等子项上表现突出。
2.腾讯混元大模型,不争速度争什么?
从现场释放的各种信号来看,腾讯在通用大模型之路上,对话产品只是一小部分,他们更看重的是在具体产品中落地。腾讯称,腾讯混元大模型是“从实践中来,到实践中去”的实用级大模型。“腾讯研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。”腾讯集团副总裁蒋杰称。腾讯集团副总裁蒋杰
图片来自腾讯
腾讯的AI大模型技术最早探索可以追溯到2019年,当时马化腾对外表示,腾讯建立了四大AI实验室,涵盖AI从全面基础研究到多种应用开发。2022年4月,腾讯首次对外披露旗下混元AI大模型的研发进展,这是一个包含CV、NLP、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型。2022年12月,腾讯推出了万亿中文NLP预训练模型HunYuan-NLP-1T,它在自然语言理解任务榜单CLUE中得分突破80.888分,获得第一,并刷新该榜单历史纪录。现场,蒋杰分享了腾讯混元大模型在可靠性和成熟度这两个方向的探索经验。现场信息来看,在可靠性上,混元已经实现了一些新的突破。在场景落地中,大模型的可靠性至关重要,生成式AI机器幻觉是很多公司在实践中都在攻克的难题。在蒋杰看来,为了减少模型胡言乱语,很多公司选择给大模型去增加一些搜索增强、知识图谱等外挂,这种方式在应用中存在着很大的局限性。“让模型调用自身的知识储备来回答问题,而非一味地依赖外挂,才能根本解决可靠性的问题,也能不断地提高大模型自身回答的真实性。”他透露,针对这个问题,腾讯找到了一种基于腾讯自研的“探真”技术,在预训练阶段优化目标函数,减少大模型“胡言乱语”的问题。“通过这种方式我们优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%。”他介绍称,腾讯也通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。现场分享了腾讯混元大模型在处理超常文本方向上取得的新突破:让大模型写一篇关于农业投资专利的文章,且不能少4000字,腾讯混元大模型可以顺利完成这样的任务。甲子光年现场拍摄
蒋杰认为,降低机器幻觉问题、识别陷阱问题、进行复杂超长文本的处理能力是混元大模型区别于其他通用大模型的优势能力。此外,腾讯混元大模型根植于中国,所以中文能力也优于海外厂商。“腾讯混元大模型从第一个token开始从零训练。”蒋杰说。这些能力背后是腾讯整个技术底座在发挥作用。蒋杰提到,腾讯掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。比如,腾讯自研的机器学习框架Angel,可以让训练速度相比业界主流框架提升1 倍,推理速度比业界主流框架提升1.3倍。算力方面,腾讯云今年4月发布的专为大模型训练设计的新一代HCC高性能计算集群;并推出了向量数据库(Tencent Cloud VectorDB);还有自研的星脉计算网络架构。不同于很多厂商在争先恐后的推出对话机器人,腾讯在数字生态大会上推出通用大模型背后,核心验证反馈来源于是腾讯自身在to C和to B领域众多的场景应用。蒋杰提到,“Chat只是验证大语言模型的一种方式,腾讯也对此在内部进行了内测,但更重要的是,腾讯有海量的用户和大量的to C和to B应用场景,所以就选择依靠自有的业务和应用来进行验证。”在商业化层面,蒋杰称,腾讯将混元大模型定位为业务的“倍增器”。这意味着,混元大模型更重要的在于如何支撑腾讯会议、腾讯文档等腾讯自有的业务产品,以及通过腾讯云赋能千行百业。“腾讯的混元的大模型是不是为了评测和打榜,一开始,我们就在根据腾讯自身的应用进行研发和匹配,探索应用如何与大模型更深度结合。”蒋杰在采访中提到。“开不开放to C只是一个开关的过程,大模型的准确性和商业价值才是重点。”蒋杰说。这是现阶段腾讯混元大模型交出的一份最新答卷,随时近日更多大语言模型的全面开放,接下来,真正的落地之争才刚刚开启。
END.