大语言模型，中国这次能不能支棱起来？

2023-02-22 15:02

ChatGPT走红之后，其代表的大语言模型产品能否在中国到来引发持续讨论。

虽然此前生成式AI对话已经在AI客服等场景应用，但ChatGPT代表的大语言模型和其有本质不同。后者不仅可以连续对话，还可以长篇大论写故事、写邮件，在用户感知上和此前的“人工智障”类对话产品有了本质区别，这是因为其参数规模大，且在语言理解、文本生成、对话系统等方面均取得重大突破。

虽然ChatGPT没有率先诞生在中国市场，此轮热潮下也不乏跟风炒作概念的公司，但不可否认的是，在大语言模型所需要的技术上，中国公司并不落后。

海通国际发布的《2023年人工智能专题报告》显示，中国的超大模型在一些特定领域不仅不落后于国外同类产品，而且还能实现反超。比如，百度2021年9月发布的PLATO-XL在参数规模上超过 Facebook Blender、谷歌 Meena和微软 DialoGPT。

此前中国的语言模型主要针对客服、翻译等特定场景解决B端产业问题，大语言模型的走红，给中国科技的一个重要启发是：人工智能还可以让数亿C端用户获得便利。

中国的科技公司已经在行动。百度宣布将于3月推出生成式AI产品“文心一言”，首站将直接落地百度搜索，提供包括多答案回复、智能生成等服务。

我们相信，中国的人工智能技术将在普通人的生活工作学习中获得更多应用，从而创造一个个新风口。

谁能抓住这个机会？在今天百度创始人、董事长兼CEO李彦宏发出的财报全员信中，他写道：

“中国AI商业价值的释放将是前所未有的、指数级的。百度作为中国人工智能市场长期增长的最佳代表，正站在浪潮之巅。”

中国有能力让“人工智障”变身“人工智能”

从代际上看，ChatGPT代表的大语言模型和之前常见语言模型的差别可谓是导弹与弓箭的区别。

大语言模型给出的答案更接近人类反应，不仅仅是语言组织能力更强，更重要的是它可以像人一样使用直觉思考——很多答案并不只是现有信息的汇总整合，还包括预测和推理，这是此前的语言模型做不到的。

从技术上看，这是因为以ChatGPT代表的大语言模型算法基于GPT-3 模型，背后是大规模的数据积累和训练。早在2020年，GPT-3 模型训练参数量就已达到世界之最。而当前的版本为GPT 3.5，能力进一步增强。

大语言模型算法的核心是自然语言处理技术，简单来说就是让人类日常生活中使用的语言和计算机语言能够进行交互通讯，即把人类语言转化成机器可识别的语言进行分析处理，再把结果转化成人类可使用的语言，它需要通过词典、词频统计、上下文语义分析等方式对语料进行处理，此前应用最广泛的场景是搜索引擎。

在算力上，ChatGPT的总算力消耗约为3640PF-days，即假如每秒计算一千万亿次，需要计算3640天，一次模型训练成本超过1200万美元。在美国，只有微软、谷歌、Meta几家公司有能力支撑这样高昂的成本；在中国，也只有百度、阿里、腾讯等少数几家公司能够支撑，这也注定大语言模型是大型互联网公司游戏。

ChatGPT的成功，标志着AI应用从以专用小模型训练为主的“手工作坊时代”转变为以通用大模型预训练为主的“工业化时代”。

中国科技互联网公司，想要做出大语言模型产品，算法、算力、数据、产品和场景五个要素不可或缺。尤其在算法、算力方面，技术能力不是一蹴而就的，考验的是研发团队长期的投入和积累。

在算法和算力上，中国公司最近几年在快速进步。其中，百度在自然语言处理、深度学习等领域的专利申请量和授权专利持有量均排名第一。这些技术在机器翻译、舆情监测、自动摘要、观点提取、语音识别等方面已经有了很多应用。

在算力方面，《中国算力发展指数白皮书(2021)》显示，我国智能算力占比由2016年的3%提升至2020年的41%。2021~2026年期间，预计中国智能算力规模年复合增长率达52.3%。

而在产品和场景上，百度等中国公司已经拥有搜索、云计算、智能翻译等应用场景，这些应用场景为大语言模型产品快速落地奠定了基础。

由此可见，无论从技术、产品还是应用场景上，中国都具备了研发大语言模型产品的基础。

谁能做出中国版的大语言模型？

研发大语言模型产品，需要研发团队在自然语言处理、深度学习以及算力、数据积累上具备优势，而且具备一定的落地场景。

从综合能力来看，百度目前在大语言模型相关技术上的想象空间更大。

自然语言处理技术在搜索引擎上应用持续的时间最长。从处理用户的第一次搜索开始，百度就注重自然语言处理技术的研发，如今已持续积累了20年。

这意味着百度不需要从零开始研发大语言模型产品。同时，人工智能时代，IT技术从芯片层、操作系统层和应用层三层进化成芯片层、框架层、模型层和应用层四层。百度四层中均有布局，在大语言模型相关技术上已经具备了先发优势。

算法方面，百度拥有了大模型训练的基础设施。目前百度有阳泉、徐水、定兴三个云计算中心，阳泉智能云数据中心仅一期就可承载16万台服务器，预计整个百度阳泉云计算中心可承载24万台服务器，已经超过全球装机容量最大的微软芝加哥数据中心。

算力方面，百度自研AI芯片“昆仑”已在多场景实际部署几万片，在搜索业务中也已形成较强工程化实践，这让“文心一言”底层算力有所保证。

数据层面，百度的搜索业务在真实数据和用户需求理解方面有较多积累，这给大语言模型的训练提供了支撑。

在产品和场景上，百度在2019年推出的文心系列大模型此前已经在电力、金融、智能制造等多个领域应用。IDC发布的《2022 中国大模型发展白皮书》指出，文心大模型已构建“大模型+工具平台+产品与社区”三层体系，可以说百度在中国科技企业中具备最成熟的大模型开发工具和产品体系。

相比ChatGPT，即将上线内测的“文心一言”能够基于时效性和准确性更强，对中文以及中国文化也有更深理解。

同时，百度在人工智能领域布局超过10年，收入稳健增长且结构更加多元化，这让其有更多底气在人工智能领域持续投入。2月22日，百度发布的2022年第四季度财报显示，2022年，百度实现营收1236.75亿元，归属百度的净利润（非美国通用会计准则）206.8亿元，同比增长10%。2022财年，百度核心连续四个季度业绩超市场预期。

在大语言模型的热潮下，百度成为受益者也就在意料之中了。

大语言模型如何改变中国互联网行业？

革命性的新技术、新产品带来的不仅仅是社会生活的改变，也会改变科技公司的命运以及其成千上万的上下游合作伙伴。

最典型的是苹果公司。2007年，苹果公司研发的新型智能手机产品iPhone横空出世，在那个还被非智能翻盖机统治的世界，没有键盘的iPhone是一个另类，但它却在随后几年中的表现彻底改变了手机行业原本的竞争格局。如今，几乎人手一个智能手机，我们可以通过智能手机看电影、购物、打车、点外卖，其带来的便利性不言而喻。

实际上，iPhone带给科技互联网行业的改变也不言而喻：它不仅帮助苹果公司成为全球市值最高的公司，还让诸多苹果生态的开发者们成为全球科技互联网行业巨头，中国的很多大型科技互联网公司正是在苹果带来的新移动互联网行业生态中成长起来。

作为又一个革命性的新技术产品，ChatGPT给科技互联网行业带来的改变也可以和iPhone的横空出世类比。

对研发大语言模型产品的公司而言，这是一次重估公司价值的机会。

搜索底层技术和AI底层技术是相通的，“文心一言”落地搜索引擎带来用户体验的提升，同时生成式内容也会极大丰富内容生态和内容供给，让成熟的搜索业务和搜索体验焕发生机。可以想象，随着“文心一言”落地百度搜索，生成式内容将吸引更多用户，创造出下一代互联网的流量入口，不仅可以帮助广告商、内容创作者和商家，还可以提升平台的用户停留时长和广告收益。

此外，百度还会将文心一言通过百度智能云提供给企业和机构客户，为百度智能云赢下更多的市场空间。

李彦宏在财报信中表示：

“未来，更多会看框架好不好、模型好不好，以及模型、框架、芯片、应用之间的协同。这会根本性地改变云计算市场的游戏规则。”

“文心一言”给百度搜索和百度智能云带来更好的服务能力和更大的商业化能力，势必会引发投资人和意见领袖重新认识和评估百度的价值。摩根士丹利认为，百度推出中国版大语言模型与公司的云业务战略方针步伐相同，可达到云业务中长期增长，并领跑行业。

实际上，市场对此已经有了反馈。百度宣布将推出“文心一言”的当天，百度港股大幅上涨，盘中一度涨超15%，创下去年2月以来新高。

而对于上下游合作伙伴来说，这也是一次快速成长的机会。作为支撑百度文心系列大模型的的深度学习框架，百度飞桨目前开源了140+的模型，而且还有工业级的预训练模型。截至2022年第四季度，535万开发者，基于飞桨创建了67万个模型，服务20万家企事业单位。这些企事业单位既是飞桨生态的建设者，也是受益者。可以预见，他们也将随着通用人机对话系统“文心一言”的成长而获得新的成长机会，甚至有可能诞生出新的独角兽公司。

宏观经济学中有一个经济效应叫做乘数效应，即一次投资增加会引起一系列连锁反应会带来国民收入的成倍增加，最后带来的GDP增长是投资额的数倍。乘数效应的本质就是在一次投资中上下游产业共同受益的结果，从这个角度来说，中国公司对大语言模型产品也将带来乘数效应，它带动的不仅仅是研发公司新的价值增长，也让整个产业链收益。

既然大语言模型产品已经拥有足够的想象空间，我们也有理由相信文心一言将给中国科技互联网行业带来惊喜。

特别策划

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章