净利润增长10%,百度冲刺新一代大模型文心一言
北京时间2月22日,百度(NASDAQ:BIDU,HKEX: 9888)发布了截至2022年12月31日的第四季度及全年未经审计的财务报告。2022年,百度实现营收1236.75亿元,归属百度的净利润(非美国通用会计准则)206.8亿元,同比增长10%。第四季度,百度实现营收330.77亿元,归属百度的净利润(非美国通用会计准则)53.71亿元,同比增长32%。2022财年,百度核心连续四个季度业绩超市场预期。
“2022年是充满挑战的一年,百度利用这段时间为迎接更好的时代做好了准备。对于2023年,百度核心收入恢复加速增长的道路已经明确,我们将充分把握中国经济复苏带来的机会。”百度创始人、董事长兼首席执行官李彦宏表示,“凭借在AI领域的长期投入,百度将抓住即将到来的AI拐点,为我们的整个业务组合——从移动生态到智能云、自动驾驶、智能硬件等——开拓全新的机遇。”
在发给百度全员的财报信中,李彦宏还重点介绍了百度正在全力冲刺研发大语言模型、生成式AI产品文心一言(ERNIE Bot),预计将在三月份推出,并宣布计划将搜索、智能云、Apollo自动驾驶、小度智能设备等多项主流业务与文心一言整合。
文心一言背后
ChatGPT及大语言模型的火爆激发了包括微软、谷歌、Meta、百度、阿里巴巴等国内外科技公司的新一轮AI军备竞赛,更有已经退休的互联网高管宣布创业进军相关领域。
生成式AI和大模型的涌现,是全新的计算范式带来的新机会,各行各业都不可避免地被改变。究竟谁能率先做出中国ChatGPT?从技术的角度来看,这并非易事,也并不可能完全靠资金堆出来。
不久前,推出MOSS的复旦大学NLP实验室的核心成员之一、复旦大学计算机科学技术学院教授张奇对第一财经记者表示,按照ChatGPT目前开源的最简单的复现版本、最便宜的模式去计算,要做到1750亿的参数规模,需要大概6000万的硬件成本,同时运算3.5个月。这还是所有事情都做对的情况,如中间有参数调整,或者想加速训练过程,就需要更高规模的投资。
按ChatGPT的规模估算,张奇判断OpenAI大概为此耗费了十几亿的硬件投资,不包括顶级的算法研究人员的投资,以及后续对大量用户数据收集的投资。可以说,“这其实是一个非常耗时、耗人且耗钱的一个过程。”
此前有媒体披露,OpenAI去年的收入预计不足3000万美元,但计算和数据支出预计达到4.16亿美元,人工支出8931万美元,其他非特定营业费用为3875万美元,在2022年的净亏损总计为5.45亿美元。
对于百度而言,做出新一代大语言模型,它的机会一方面在于,技术的积累并不是从零开始。
长期以来,百度深耕人工智能领域,早期的投资奠定了百度在人工智能浪潮中的有利地位。财报显示,2022年百度核心研发费用达到214.16亿元,占百度核心收入比例达22.4%。
李彦宏在财报信中强调:“人类进入人工智能时代,IT技术的技术栈发生了根本性的变化。过去基本分为三层:芯片层,操作系统层和应用层。现在可以分为四层:芯片层、框架层、模型层和应用层。”
可以看到的是,百度是全球为数不多、进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术,可以实现端到端优化,大幅提升效率。
从技术角度看,自然语言处理(NLP, Natural Language Processing)被称为“人工智能皇冠上的明珠” ,谁能实现自然语言处理技术的突破,谁就能在AI领域一骑绝尘。早在百度诞生之时、从百度处理用户的第一次搜索开始,NLP技术就成为搜索技术的重要组成部分,并伴随着百度的快速发展,同步甚至更快地发展壮大。
2019年,百度推出文心大模型,经过多次迭代,从单一的自然语言理解延申到多模态,包括视觉、文档、文图、语音等多模态多功能,因此,“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。
以最新发布的ERNIE 3.0 Zeus为例,该模型迭代于ERNIE 3.0,拥有千亿级参数。其已经具备智能创作等各类自然语言理解和生成任务,且公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。
在深度学习框架层面,文心在大模型层面已经形成知识增强的ERNIE 3.0系列、跨模态系列等底座模型;百度飞桨平台在2022年底已凝聚535万开发者,基于飞桨创建了67万个模型,服务20万家企事业单位,构建起繁荣的AI技术生态。这都为百度打造文心一言提供了坚实的技术基础。
算法方面,百度拥有多个云计算可用区、庞大的超算集群,奠定大模型训练的基础设施。目前公司有阳泉、徐水、定兴三个云计算中心,其中,阳泉智能云数据中心仅一期就可承载16万台服务器,预计整个百度阳泉云计算中心可承载24万台服务器。这意味着百度智能云能为ERNIE大模型应用提供高并发、高弹性、高精度等不同计算需求。
百度自研AI芯片“昆仑”已在多场景实际部署几万片,在公司搜索业务中也已形成较强工程化实践。综上,我们认为“文心一言”底层算力有所保证。
数据层面,大语言模型训练使用主要来自互联网的文本数据库,包括从网络文本、维基百科、文章中获得高达 570GB的数据,我们认为百度的搜索业务在真实数据和用户需求理解方面的积累有较强的先发优势,这些大规模结构化非结构化数据有望支撑ERNIE bot的充分预训练。
中金互联网行业首席分析师白洋预计,随着ERNIE Bot的公众开放,有望建立起立真实的用户调用和模型迭代之间的飞轮,模型将越来越聪明。
AI商业价值有望指数级增长
“ChatGPT最近之所以受到如此高的关注度,因为这将会对移动互联网产生重大的影响,包括新的信息检索、交互模式的出现,会让搜索引擎更具有竞争力。”不久前罗兰贝格全球合伙人兼大中华区副总裁、TMT行业中心负责人李冰对第一财经记者表示。
在应用层面,大语言模型目前一大的商业应用就是搜索,这正是百度一直以来的基本盘 。
过去几年,百度持续使用人工智能技术改善搜索体验。自2019年3月以来,百度文心大模型家族在改进搜索结果方面发挥了重要作用,如优化搜索排名、提升多模态搜索能力。
按照最新的计划,文心一言也将率先应用于百度搜索,重塑信息的生成和呈现方式,创造下一代互联网流量入口,这将进一步作用于百度移动生态用户数与市场规模的增长。
在搜索之外,未来文心一言背后大模型技术在自动驾驶上的应用,将加深车辆对复杂城市路况的理解,进一步提升自动驾驶安全性和可靠性。此外,文心的智能语音能力搭载到Apollo智舱系列产品,将带给智能汽车领先一代的人车语音交互体验。
其他业务方面,根据IDC、Strategy Analytics和Canalys的市场数据,小度在2022年前三个季度再次取得中国智能音箱和智能屏出货量双第一。未来,小度也将融合文心一言,打造针对智能设备场景的人工智能模型“小度灵机”,升级多轮对话能力。
除了融入自身业务外,百度将开放文心一言大模型,支持更多企业构建自己的模型和应用,赋能交通、能源、制造等实体经济领域,实现生产效率的大幅提升。截至目前,目前已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的近300家头部企业宣布加入百度“文心一言”生态。
届时,文心一言的能力将通过百度智能云率先在内容和信息相关的行业和场景落地。百度集团执行副总裁、百度智能云事业群总裁沈抖表示,“文心一言”是基于百度智能云技术打造出来的大模型,它将根本性地改变云市场的游戏规则,云服务将从数字时代跃迁到智能时代。
他称,以前企业选择云厂商更多是看算力、存储等基础云服务,以后企业对云的需求会更加聚焦智能服务,会更多看框架好不好、模型好不好,以及模型-框架-芯片-应用这四层架构之间的协同是否高效。
在落地场景上,沈抖称文心一言的能力将通过百度智能云率先在内容和信息相关的行业和场景落地。相关行业包括如媒体、文娱、企业软件等,相关场景包括如智能客服、员工培训、巡检日报、知识萃取等,信息的高效流转和交互,也会进一步带来行业生产、经营效率的提升。
“从我们这几天收到的反馈看,有了这样跨代际的AI产品出现,现在的智能化转型已经不是政府‘要我转’,而是企业自己说‘我要转’,因为大家意识到这是生产方式的彻底变革,产业智能化已经成为一道必答题。”沈抖表示。
预计随着文心一言内测与开放,百度将建立起开发者及用户调用和模型迭代之间的飞轮,构建开放繁荣的技术生态,抓住AI应用浪潮的全新机遇。面向未来,百度也将充分把握经济复苏后的业务增长机会,并继续坚持成本优化和高效经营,以更健康的经营状态推动三大增长曲线的长期发展。
此外,从营收来看,百度营收更趋多元化,非广告营收占比逐季增加,主要受百度智能云及其他 AI 驱动业务的推动。当下的趋势表明,百度更多会从中受益。
尽管ChatGPT乃至整个行业距离真正成熟的商业化仍有差距,但随着微软、百度等巨头加码,自然语言处理领域终当迎来行业分水岭。
而业内人士也认为,ChatGPT及其背后的大型语言模型看起来就是一项面向未来的先进生产力,让世界看到人工智能技术进化、迭代远高于人类、生物体的速度。
李彦宏则评价:“中国AI市场即将迎来爆发性的需求增长,其商业价值的释放将是前所未有的、指数级的。而百度作为中国人工智能市场长期增长的最佳代表,正站在浪潮之巅。”
微信扫码关注该文公众号作者