没有百亿参数的大模型，不敢奢谈ChatGPT

2023-02-23 09:02

当业界几乎把所有的目光都聚焦到ChatGPT上，原本有些克制的科技大厂突然有了紧迫感，纷纷在类ChatGPT产品中证明自己的实力。一时间，数百亿、千亿乃至万亿级参数规模的人工智能大模型（下面简称“大模型”）相继涌现，这场ChatGPT引发的全球大模型竞赛趋于白热化。

“有大模型的企业能做ChatGPT，没有的则是在蹭热点。”对于互联网公司蜂拥扎堆做ChatGPT，阿里达摩院M6大模型前带头人杨红霞言辞犀利地说。在她看来，只有参数规模100亿以上的大模型才有实力提供高质量的对答。

百度、阿里已有比肩ChatGPT的大模型

大模型的核心特征是模型参数多、训练数据量大。有研究估测，训练1750亿参数语言大模型GPT-3，需要上万个CPU/GPU24小时不间断地输入数据。其能耗相当于开车往返于地球和月球，一次运算就要花费450万美元。高昂的研发成本意味着，主流的大模型只能由大型科技公司或少数研究机构掌握。

据了解，ChatGPT是基于8000亿个单词的语料库，包含了1750亿个参数。前者是ChatGPT的训练数据，后者是它从这些训练数据中所学习、沉淀下来的内容。这种海量参数规模让ChatGPT能够捕获更复杂的语言模式和关系，从而提高复杂自然语言处理任务的准确性。

从参数规模来看，国内已经诞生了能够比肩ChatGPT参数量的大模型。百度既有20多万企业用户的飞桨平台，也有2600亿参数量的文心大模型；阿里巴巴有“通义”大模型，多模态大模型M6的参数规模已经突破10万亿，规模远超谷歌、微软，成为全球最大的AI预训练模型。OpenAI前政策主管Jack Clark公开点评阿里巴巴：“这个模型的规模和设计都非常惊人，是众多中国AI研究组织逐渐发展壮大的一种表现。”

当参数规模迅速攀升至几百亿、千亿时，大模型的训练方式也出现了分野。有业内专家认为，参数数量并不代表模型结果，更为关键的是训练方式。在华为诺亚方舟实验室语音语义首席科学家刘群看来，虽然我们训练了几千亿或者几万亿的数据，但训练的充分程度仍远远不够。

ChatGPT有一个巨大先发优势

2018年，业界分化出两个预训练模型主流方向——谷歌的BERT和OpenAI的GPT。在很长一段时间里，BERT在自然语言理解类任务中的表现比GPT更好，训练方式是通过“蒙住/遮盖”一个语言片段，让模型根据前后文双向进行猜测，不断提高猜中的概率。BERT利用海量的无标注文本自监督学习，即可掌握大量语言知识，刷新了多个AI权威榜单的记录，是当时NLP领域被更多押注的方向。

百度的文心大模型也是基于BERT技术路线——通过进行不同的“蒙住”训练，采用无监督学习，有效提高训练数据规模；自回归和自编码网络被融合在一起，进行多范式统一的预训练，能够兼具理解、生成和零样本学习的能力。这些能力也让文心3.0在国际权威的复杂语言理解任务评测SuperGLUE榜单上一度登上榜首，为百度加入这场竞赛提供了“弹药”。

而GPT则是按照人类输出文本的方式，从左到右进行预测。中国人民大学应用经济学院教授潘伟告诉记者：“直到GPT-3.5 出现后，模型智能表现上的鸿沟骤然被拉大——引入了指令微调和人类反馈强化学习，才真正解锁了ChatGPT如今出色的对话能力。”

一位接近微软的消息人士透露，ChatGPT有一个巨大的先发优势，就是它通过抢先开始公测，收集了大量用户的使用数据。这部分宝贵的数据被微软独家占有。“只要ChatGPT仍然是最好用的自然语言处理类大模型，这个‘雪球’就会越滚越大，其他企业将越来越难追上。”该业内人士称。为了防止ChatGPT输出有害信息，OpenAI还花大价钱找印度和肯尼亚的外包公司标记了大量的有害文本，用来训练大模型不要输出有害信息，对数据数年持续的投入，逐步构成了OpenAI筑起的“数据壁垒”。

此外，数据质量也是大模型表现结果的重要决定因素。中国并不缺数据，百度、阿里巴巴、字节跳动这样的公司都有海量的数据积累，不过后续包括数据清洗、标注以及模型的结构设计、训练、推理等都需要时间积累，这可能是国内大模型表现结果不如国外惊艳的重要原因。“百亿级数据中可能只有10%的数据是好的，昆仑万维仅仅使用自己的专有算法清洗数据，就整整花费了近两年。”昆仑万维CEO方汉解释道。

微软、谷歌的大模型已与原有业务深度绑定

“OpenAI非常重视真实世界数据的调用，以及这些数据对模型的迭代。”清华大学计算机科学与技术系长聘副教授黄民烈表示，在GPT-3之后，OpenAI所有模型都没有开源，在这个过程中，它干了一件事——建立起了真实用户调用和模型迭代之间的飞轮。

全球科技创新产业专家、海银资本创始合伙人王煜全也持有类似观点：“真正好的创新不是你能够向大众示范多么酷炫，而是能够被广泛使用。例如马云知道互联网的优势是能在网上做电商，劣势是电商没有信用证明。他创办淘宝后，引入支付宝，将平台作为第三方中间人，解决了诚信问题。这种成功，不是因为马云的技术多么领先，而在于利用技术解决了应用痛点。”

对于已经推出大模型的厂商来说，应尽快利用这个基础工具，找到应用的痛点，找对商业模式，获得竞争优势。

除收购苹果“Siri”背后的对话式人工智能公司Nuance外，微软在生成式AI领域最核心布局就是对OpenAI的投资与合作。此次基于ChatGPT，微软与OpenAI进行了更加深度的绑定，旗下的搜索、办公等各个产品体验均有望“智能升级”。

谷歌是微软在AI、云、搜索等多重领域业务中的劲敌。谷歌自2011年成立AI部门，比微软早了8年，旗下几乎所有产品和服务都依靠AI驱动，一方面用户场景从互联网、移动互联网等传统业务延伸到智能家居、自动驾驶、机器人等领域，积累更多数据信息；另一方面在积累底层人工智能技术的同时，持续研发更高级的深度学习算法，增强图形识别和语音识别能力，对信息进行更深层加工、处理。

如何提供更多排他性、独占性强的优势产品将成为大厂抢占赛道的关键所在。“谷歌推出类似ChatGPT的大模型Bard之后，料想未来与微软的竞争将聚焦在元宇宙、人工智能等这些新兴领域。”晟云磐盾信息技术有限公司总裁郝峻晟告诉记者，微软更多的还是会聚焦在B端（如办公软件、云计算和人工智能相关产品）以及游戏等相关领域；谷歌则在互联网领域的优势更明显一些，未来可能会更多的在C端市场推出更多定制化产品。

百度、阿里、华为积极探索场景应用

大模型因“大”而效果好，但在许多产业应用中也会因为“太大”而难以落地部署，导致商业模式不够清晰。“近十年来，AI的研究发展迅猛，但AI的应用始终是一大难题，使用门槛过高限制了AI的潜能。”阿里巴巴集团资深副总裁、达摩院副院长周靖人表示，AI模型较为复杂，尤其是要应用于行业场景，往往需要重新训练，这使得AI只掌握在少数算法人员手中，难以走向大众化。

在AI领域深耕已久的百度，其文心大模型在商业价值以及应用上的走向似乎更为明晰和开阔。百度方面表示，ChatGPT相关技术，百度都有，且有全栈布局，包括底层芯片、深度学习框架、大模型以及最上层应用。IDC日前发布《2022中国大模型发展白皮书》指出，百度文心已进入AI语言生成类大模型的第一梯队。

据了解，文心大模型已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等重要产品，服务数亿用户；在行业落地中，文心率先提出行业大模型概念，通过百度智能云在制造、能源、金融、城市、传媒等行业广泛应用，此外，还有越来越多的开发者使用文心大模型。

按照百度集团副总裁吴甜的说法，文心大模型做技术创新的同时做落地应用，收益一方面来源于在百度自身业务中的应用，另一方面来自行业客户具体场景服务的价值。这也是百度在漫长的AI探索过程中，调试出的发展方式，用李彦宏的话就是“摸着‘反馈’过河”。

有企业负责人对记者表示，现在人工智能技术都在与企业的核心业务流程做深度融合，而像ChatGPT这个基于大模型的应用服务，更像一个独立的外挂，如何深度绑定，这也成为企业使用它的一个待解决问题。

记者了解到，目前，中国企业不仅致力于开发出能力媲美ChatGPT的大模型，还在着力降低大模型的应用门槛，让其真正成为产业智能化的基座。

为了让大模型更加融会贯通，阿里达摩院在国内率先构建了AI统一底座，在业界首次实现模态表示、任务表示、模型结构的统一。在不引入任何新增结构的情况下，可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务，如同打通了AI的感官，受到学界和工业界广泛关注。

通过部署超大模型及轻量化版本，阿里巴巴通义大模型系列已在超过200个场景中提供服务，实现了2%～10%的应用效果提升，典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。

“实现通用AI——降低使用门槛和使用成本”也是华为对AI大模型的规划，实现从开发到产业化完整的系统流程。2021年到2022年，华为与鹏城实验室推出了“鹏城·神农”大模型，与中科院推出全球首个三模态大模型“紫东·太初”，与中国商飞联合推出业界首个工业级流体仿真大模型“东方·御风”，与武汉大学合作推出全球首个遥感影像大模型“武汉.洛迦”，2月中旬华为与清华大学合作推出了自动驾驶领域大模型。

其中，“紫东·太初”大模型解决了当前人工智能技术“一专一能”、小样本学习能力欠缺、跨模态语义鸿沟的痛点，通过跨模态多任务自监督学习实现图像、文本、语音三模态数据间的“统一表示”与“相互生成”，理解和生成能力更接近人类，向通用人工智能迈出重要一步。

“我们希望打通从技术到商业的断点，在大模型开发、Transformer API的封装以及大模量型部署多个环节设计了相应的工具，简化开发难度，同时将10多个主流的预训练SOTA大模型开放到昇腾社区，让开发者可以直接调用做二次开发。“华为昇腾计算业务总裁张迪煊说。

延伸阅读：

ChatGPT，云厂商“流量密码”？

ChatGPT火了，英伟达笑了

作者丨齐旭刘晶宋婧

编辑丨刘晶

美编丨马利亚

监制丨连晓东

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章