腾讯的大模型来了
正在召开的 2023 腾讯全球数字生态大会,腾讯自研的混元大模型正式亮相。
早在腾讯 2023 年股东大会,马化腾被问及大模型的问题,就曾说过「我们也一样在埋头研发,但是并不急于早早做完,把半成品拿出来展示。」可以说,国内大公司里,腾讯对大模型这件事上可以说是不疾不徐,完全按照自己的节奏走。
虽说不着急,但产品成熟度达到一定的状态后,总要拿出来,不藏着掖着了。这一次混元的全面亮相,应该做了充足的准备。
从模型算法到机器学习框架再到 AI 基础设施,腾讯是全链路自研。来看一下基本指标:超千亿参数规模,预训练语料超过 2 万亿 Tokens,主打中文创作能力,复杂语境下的逻辑推理能力,另外,还有任务执行能力。
通过强化学习的方法,让模型学会识别陷阱问题,对难以回答或是不应该回答的问题说「不」。另外通过位置编码优化,提高了超长文的处理效果和性能。另外,提出思维链的策略,能够像人一样结合实际的应用场景进行推理和决策。
多轮对话,内容创作,知识增强,逻辑推理…… 这些自然不在话下。我测试了一会儿,这个混元助手啊……活儿很全。无论是面试求职、编程写代码,营销写文案、计划出行、出谋划策……都已可用。
与国内其他大模型相比,腾讯的大模型的目标重点放在了技术在实际应用场景的落地与结合,总体感觉颇为务实。已经有超过 50 个腾讯自己的业务和产品接入了混元大模型的测试,用户可以直接体验得到。比如,腾讯会议、腾讯文档等产品中已经集成了相关能力,开箱即用。让我印象深刻的是在腾讯广告场景中的应用,广告主可以直接进行智能化广告素材创作。这也意味着混元对多模态能力的信心。
从开放性的角度看,混元大模型已经通过腾讯云对外开放,客户可以直接在腾讯云上通过 API 调用体验,也可以在公有云上基于混元先进行精调。对于依托于腾讯云的创业公司,多了一个使用大模型的选择。
现在各家都推出自己的大模型,每家都有自己的特点?如何横向比较?我此前提过的评估维度还是可以作为参考:
算法、算力、数据、产品、场景
算法方面,腾讯混元用的是自研算法,加上自研 Angel 机器学习框架,训练方法的创新实践。
算力,中国所有公司都面临类似的问题,但即使有问题,一旦到了要投入的阶段,对于腾讯这种体量的公司而言也不是个事儿,何况腾讯云的算力规模本来就不小。
数据上,腾讯可以用来训练的语料规模足够大,语料质量不差,这方面优势明显。
产品层面,腾讯的产品能力还用担心?从另一个角度想,腾讯的产品体验本来就很不错,现在加上 AI 的能力,产品体验可能更进一步。
场景上,腾讯有诸多可以落地的场景,是腾讯大模型战略的主打重点。另外,不要忘了 QQ 和微信这两个超级场景,还有粘性非常高的游戏场景。
整体看下来,加上我的初步体验,腾讯混元大模型综合实力不俗。这一场大模型大战,有好戏看。
微信扫码关注该文公众号作者