大语言模型沸腾:文心一言「重塑」百度丨智氪
谁是国内最有影响力的人工智能企业?
这恐怕是最近一二级市场投资者们最关心的问题。
ChatGPT的面世,让创业者和投资者们再一次燃起了对人工智能的希望,而在股市中,凡是和人工智能沾边的企业,很多都收到了暴涨大礼包。
2023年,wind人工智能概念指数(证券代码:884201)涨幅已经超过30%,核心概念股如360、科大讯飞、浪潮信息等公司的股价表现更是一骑绝尘,甚至隐隐有翻倍的可能。
wind人工智能概念指数走势
就在投资者们疯狂下注之时,百度却已提前给出了答案。
2月7日,百度宣布将推出大语言模型文心一言,预计三月份完成内测,面向公众开放。这迅速在市场中引起震动,百度当日港股涨幅突破15%,并成为港股大型互联网公司中反弹最强劲的企业。
大语言模型文心一言的出现,将这家在AI领域默默耕耘多年的互联网巨头重新拉到了聚光灯下。
此时不少投资者才惊讶地发现,那个在印象中最懂中文搜索的百度,其实早已经是一家AI巨头。
大语言模型文心一言,也绝不是心血来潮的产品。
如果我们对百度的财报有过持续的追踪,就会发现,早在2019年,百度就推出了知识增强的语义理解框架ERNIE(文心大模型),并广泛应用于阅读理解、情感分析、智能搜索问答、视频推荐、CTR预测等领域。
2021年,百度又基于ERNIE发布了全球首个百亿参数的对话大模型PLATO-XL。
一步一个脚印下,ERNIE系列模型也已经经过了多次的迭代,目前已经具备了较强泛化能力和性能,这也为大语言模型文心一言的推出打下了扎实的基础。
例如,百度最新发布的ERNIE 3.0 Zeus,已经拥有千亿级参数,并具备智能创作等各类自然语言理解和生成任务。与业界其他模型相比,ERNIE 3.0 Zeus在公开数据集上的小样本学习、理解和生成任务效果均处于领先水平。
根据IDC最新发布的《2022中国大模型发展白皮书》,百度的文心大模型在产品能力、生态能力方面已处于国内第一梯队的水平。
资料来源:百度,36氪
实际上,文心大模型只是百度在AI领域众多布局中的一个闪光点。
我们之所以认为百度能在AI大模型领域占得先机,还离不开其对底层技术架构的深度全栈布局,以及在要素资源方面的大力投入,由此构成了百度在AI领域最硬核的壁垒。
在过去,IT技术栈主要分为芯片层,操作系统层和应用层三层架构。
而进入人工智能时代后,对一项完整的AI系统而言,我们常常会将其分为芯片层、框架层、模型层和应用层四层技术架构。这四层架构既相互独立,又层层递进。
类似“文心一言”的大语言模型只是AI系统中承上启下的一环,脱离架构的模型无异于空中楼阁,如果框架层和芯片层不能满足模型的需求,那么即使模型再好,也无法发挥最大的效果。
此外,要研发一项完整的的AI系统,还需要算力、算法、数据等要素资源的支持。技术架构布局方面,在芯片层,百度拥有自研的AI芯片“百度昆仑”,自2018年发布以来,百度已在多场景实际部署几万片,为公司的AI系统提供了算力方面的支持。
在框架层,百度拥有国内规模最大的深度学习框架“百度飞桨”,截至2022年底,飞桨平台上已凝聚535万开发者、创建67万个AI模型,服务20万家企事业单位,位列中国深度学习平台市场综合份额第一。
深度学习框架是实现算法的基础架构和工具,浙商证券更是指出,AI框架是人工智能时代的操作系统,是形成AI模型的基石。
要素资源投入方面,在算力和算法方向,由于AI大模型通常需要进行大量的计算和存储,因此AI企业往往需要在芯片等硬件方面投入巨资。受益于百度多年以来在云计算方面的布局,目前公司已拥有阳泉、徐水、定兴三个云计算中心,仅阳泉云计算中心可承载24万台服务器,为研发AI提供了底层的硬件支持。
在数据资源方向,百度作为国内最大的搜索引擎服务商,拥有得天独厚的数据资源优势。借助海量的数据支持,百度可以对旗下的AI大模型进行充分的训练和预测,进而使得AI大模型的智能化水平不断进化。
中金公司也指出:随着大语言模型文心一言的公众开放,有望建立起立真实的用户调用和模型迭代之间的飞轮,模型将越来越聪明。
综合来看,无论是在芯片层、框架层等技术架构方面的布局,还是在算力、数据等要素资源的投入,百度在国内AI领域始终处于领先地位。当然,技术保持领先的前提是企业需要不断地投入研发,而百度正是大型互联网企业中研发投入比例最高的企业之一。
自百度在2017年7月开启ALL IN AI战略后,2017-2022年Q3的6年间,百度已经投入了超千亿的研发费用,研发费用率一路从15%提升至目前约20%的水平。而从海外大型互联网企业的研发投入占比来看,谷歌、微软、亚马逊的研发费用率约为12%左右。
而在高强度的研发投入壁垒下,国内其他AI企业想要对百度实现弯道超车也绝非易事。因此,百度能够成为国内首家推出大语言模型文心一言的企业,主要还是源自公司多年以来的积淀。
资料来源:公司公告,36氪
后发也可以先制
AIGC作为人工智能领域的一大核心方向,并非由ChatGPT首创,百度在AI领域的多年研发积淀,使其具备了大语言模型所必备的底层技术架构与资源要素,所以文心一言与ChatGPT在相似时间节点发布更多的是技术上的巧合。两者目前虽都具备能听会说、能看会认的智能感知能力,但百度自身的禀赋让文心一言拥有诸多ChatGPT无法比拟的优势。
从模型内核来看,文心一言是高度本土化的AI模型,更加匹配中文环境的使用习惯,作为百度基本盘的搜索业务,不仅能够提供巨大的基础数据,而且在中文搜索上的显著优势,可以提升文心一言在运行时的准确性与时效性。
借助百度的移动生态,文心一言已经拥有了庞大的用户基础,并由此可以建立起用户调用和模型迭代间的飞轮。近期,已有300余家企业官宣拟接入文心一言,百度的AICG生态圈已初具雏形,下一步可以出售API接口为企业提供定制化模型来实现变现。
从中期来看,百度22Q4的业绩延续了自去年Q2以来的修复趋势,当季实现净利润53.71亿元,超市场预期;作为业绩动能的云业务,利润率进一步优化。疫情背景下,云业务在去年依然保持着相对高的增长速度,其作为百度业绩弹性的地位愈发稳固,这也表明了百度以科技创新为导向的业务转型在逐步兑现。
文心一言的推出,不仅仅是百度科技创新的又一里程碑,目前已有海外厂商的AIGC产品实现了稳定盈利,文心一言亦有望最快在今年开始为百度贡献业绩。除了作为新业务并表公司提振业绩预期外,文心一言对百度基本盘的移动生态、当下业绩动能的智能云、未来核心的自动驾驶等业务都将产生深远的影响。
大语言模型最直接的应用之一就是搜索,通过搜索与AI的结合让百度的移动生态在原本的现金流价值上又具备了数据资源价值。而且,文心一言将带来全新的信息生成和呈现方式,创造新的流量入口,从而抬高了搜索的天花板,能够吸引更多用户、提高市场份额,进一步巩固百度移动生态业务在技术方面的优势。
云业务方面,随着文心一言通过百度智能云对外提供服务,“云智一体”标志着云服务实现了数字时代向智能时代的跨越,云市场的游戏规则亦将因此而发生根本性的改变。企业选择云厂商时将更加关注框架、模型,以及二者与硬件、应用之间的协同能力。率先实现“云智一体”的百度本就在算力、存储等基础设施上本就有优势,云业务智能化在进一步提高技术壁垒的同时,凭借其先发优势也有利于百度智能云快速渗透。
微信扫码关注该文公众号作者