Redian新闻
>
没有百亿参数的大模型,不敢奢谈ChatGPT

没有百亿参数的大模型,不敢奢谈ChatGPT

科技

当业界几乎把所有的目光都聚焦到ChatGPT上,原本有些克制的科技大厂突然有了紧迫感,纷纷在类ChatGPT产品中证明自己的实力。一时间,数百亿、千亿乃至万亿级参数规模的人工智能大模型(下面简称“大模型”)相继涌现,这场ChatGPT引发的全球大模型竞赛趋于白热化。

“有大模型的企业能做ChatGPT,没有的则是在蹭热点。”对于互联网公司蜂拥扎堆做ChatGPT,阿里达摩院M6大模型前带头人杨红霞言辞犀利地说。在她看来,只有参数规模100亿以上的大模型才有实力提供高质量的对答。

百度、阿里已有比肩ChatGPT的大模型

大模型的核心特征是模型参数多、训练数据量大。有研究估测,训练1750亿参数语言大模型GPT-3,需要上万个CPU/GPU24小时不间断地输入数据。其能耗相当于开车往返于地球和月球,一次运算就要花费450万美元。高昂的研发成本意味着,主流的大模型只能由大型科技公司或少数研究机构掌握。

据了解,ChatGPT是基于8000亿个单词的语料库,包含了1750亿个参数。前者是ChatGPT的训练数据,后者是它从这些训练数据中所学习、沉淀下来的内容。这种海量参数规模让ChatGPT能够捕获更复杂的语言模式和关系,从而提高复杂自然语言处理任务的准确性。

从参数规模来看,国内已经诞生了能够比肩ChatGPT参数量的大模型。百度既有20多万企业用户的飞桨平台,也有2600亿参数量的文心大模型;阿里巴巴有“通义”大模型,多模态大模型M6的参数规模已经突破10万亿,规模远超谷歌、微软,成为全球最大的AI预训练模型。OpenAI前政策主管Jack Clark公开点评阿里巴巴:“这个模型的规模和设计都非常惊人,是众多中国AI研究组织逐渐发展壮大的一种表现。”

当参数规模迅速攀升至几百亿、千亿时,大模型的训练方式也出现了分野。有业内专家认为,参数数量并不代表模型结果,更为关键的是训练方式。在华为诺亚方舟实验室语音语义首席科学家刘群看来,虽然我们训练了几千亿或者几万亿的数据,但训练的充分程度仍远远不够。

ChatGPT有一个巨大先发优势

2018年,业界分化出两个预训练模型主流方向——谷歌的BERT和OpenAI的GPT。在很长一段时间里,BERT在自然语言理解类任务中的表现比GPT更好,训练方式是通过“蒙住/遮盖”一个语言片段,让模型根据前后文双向进行猜测,不断提高猜中的概率。BERT利用海量的无标注文本自监督学习,即可掌握大量语言知识,刷新了多个AI权威榜单的记录,是当时NLP领域被更多押注的方向。

百度的文心大模型也是基于BERT技术路线——通过进行不同的“蒙住”训练,采用无监督学习,有效提高训练数据规模;自回归和自编码网络被融合在一起,进行多范式统一的预训练,能够兼具理解、生成和零样本学习的能力。这些能力也让文心3.0在国际权威的复杂语言理解任务评测SuperGLUE榜单上一度登上榜首,为百度加入这场竞赛提供了“弹药”。

而GPT则是按照人类输出文本的方式,从左到右进行预测。中国人民大学应用经济学院教授潘伟告诉记者:“直到GPT-3.5 出现后,模型智能表现上的鸿沟骤然被拉大——引入了指令微调和人类反馈强化学习,才真正解锁了ChatGPT如今出色的对话能力。”

一位接近微软的消息人士透露,ChatGPT有一个巨大的先发优势,就是它通过抢先开始公测,收集了大量用户的使用数据。这部分宝贵的数据被微软独家占有。“只要ChatGPT仍然是最好用的自然语言处理类大模型,这个‘雪球’就会越滚越大,其他企业将越来越难追上。”该业内人士称。为了防止ChatGPT输出有害信息,OpenAI还花大价钱找印度和肯尼亚的外包公司标记了大量的有害文本,用来训练大模型不要输出有害信息,对数据数年持续的投入,逐步构成了OpenAI筑起的“数据壁垒”。

此外,数据质量也是大模型表现结果的重要决定因素。中国并不缺数据,百度、阿里巴巴、字节跳动这样的公司都有海量的数据积累,不过后续包括数据清洗、标注以及模型的结构设计、训练、推理等都需要时间积累,这可能是国内大模型表现结果不如国外惊艳的重要原因。“百亿级数据中可能只有10%的数据是好的,昆仑万维仅仅使用自己的专有算法清洗数据,就整整花费了近两年。”昆仑万维CEO方汉解释道。

微软、谷歌的大模型已与原有业务深度绑定

“OpenAI非常重视真实世界数据的调用,以及这些数据对模型的迭代。”清华大学计算机科学与技术系长聘副教授黄民烈表示,在GPT-3之后,OpenAI所有模型都没有开源,在这个过程中,它干了一件事——建立起了真实用户调用和模型迭代之间的飞轮。

全球科技创新产业专家、海银资本创始合伙人王煜全也持有类似观点:“真正好的创新不是你能够向大众示范多么酷炫,而是能够被广泛使用。例如马云知道互联网的优势是能在网上做电商,劣势是电商没有信用证明。他创办淘宝后,引入支付宝,将平台作为第三方中间人,解决了诚信问题。这种成功,不是因为马云的技术多么领先,而在于利用技术解决了应用痛点。”

对于已经推出大模型的厂商来说,应尽快利用这个基础工具,找到应用的痛点,找对商业模式,获得竞争优势。

除收购苹果“Siri”背后的对话式人工智能公司Nuance外,微软在生成式AI领域最核心布局就是对OpenAI的投资与合作。此次基于ChatGPT,微软与OpenAI进行了更加深度的绑定,旗下的搜索、办公等各个产品体验均有望“智能升级”。

谷歌是微软在AI、云、搜索等多重领域业务中的劲敌。谷歌自2011年成立AI部门,比微软早了8年,旗下几乎所有产品和服务都依靠AI驱动,一方面用户场景从互联网、移动互联网等传统业务延伸到智能家居、自动驾驶、机器人等领域,积累更多数据信息;另一方面在积累底层人工智能技术的同时,持续研发更高级的深度学习算法,增强图形识别和语音识别能力,对信息进行更深层加工、处理。

如何提供更多排他性、独占性强的优势产品将成为大厂抢占赛道的关键所在。“谷歌推出类似ChatGPT的大模型Bard之后,料想未来与微软的竞争将聚焦在元宇宙、人工智能等这些新兴领域。”晟云磐盾信息技术有限公司总裁郝峻晟告诉记者,微软更多的还是会聚焦在B端(如办公软件、云计算和人工智能相关产品)以及游戏等相关领域;谷歌则在互联网领域的优势更明显一些,未来可能会更多的在C端市场推出更多定制化产品。

百度、阿里、华为积极探索场景应用

大模型因“大”而效果好,但在许多产业应用中也会因为“太大”而难以落地部署,导致商业模式不够清晰。“近十年来,AI的研究发展迅猛,但AI的应用始终是一大难题,使用门槛过高限制了AI的潜能。”阿里巴巴集团资深副总裁、达摩院副院长周靖人表示,AI模型较为复杂,尤其是要应用于行业场景,往往需要重新训练,这使得AI只掌握在少数算法人员手中,难以走向大众化。

在AI领域深耕已久的百度,其文心大模型在商业价值以及应用上的走向似乎更为明晰和开阔。百度方面表示,ChatGPT相关技术,百度都有,且有全栈布局,包括底层芯片、深度学习框架、大模型以及最上层应用。IDC日前发布《2022中国大模型发展白皮书》指出,百度文心已进入AI语言生成类大模型的第一梯队。

据了解,文心大模型已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等重要产品,服务数亿用户;在行业落地中,文心率先提出行业大模型概念,通过百度智能云在制造、能源、金融、城市、传媒等行业广泛应用,此外,还有越来越多的开发者使用文心大模型。

按照百度集团副总裁吴甜的说法,文心大模型做技术创新的同时做落地应用,收益一方面来源于在百度自身业务中的应用,另一方面来自行业客户具体场景服务的价值。这也是百度在漫长的AI探索过程中,调试出的发展方式,用李彦宏的话就是“摸着‘反馈’过河”。

有企业负责人对记者表示,现在人工智能技术都在与企业的核心业务流程做深度融合,而像ChatGPT这个基于大模型的应用服务,更像一个独立的外挂,如何深度绑定,这也成为企业使用它的一个待解决问题。

记者了解到,目前,中国企业不仅致力于开发出能力媲美ChatGPT的大模型,还在着力降低大模型的应用门槛,让其真正成为产业智能化的基座。

为了让大模型更加融会贯通,阿里达摩院在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。在不引入任何新增结构的情况下,可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,如同打通了AI的感官,受到学界和工业界广泛关注。

通过部署超大模型及轻量化版本,阿里巴巴通义大模型系列已在超过200个场景中提供服务,实现了2%~10%的应用效果提升,典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。

“实现通用AI——降低使用门槛和使用成本”也是华为对AI大模型的规划,实现从开发到产业化完整的系统流程。2021年到2022年,华为与鹏城实验室推出了“鹏城·神农”大模型,与中科院推出全球首个三模态大模型“紫东·太初”,与中国商飞联合推出业界首个工业级流体仿真大模型“东方·御风”,与武汉大学合作推出全球首个遥感影像大模型“武汉.洛迦”,2月中旬华为与清华大学合作推出了自动驾驶领域大模型。

其中,“紫东·太初”大模型解决了当前人工智能技术“一专一能”、小样本学习能力欠缺、跨模态语义鸿沟的痛点,通过跨模态多任务自监督学习实现图像、文本、语音三模态数据间的“统一表示”与“相互生成”,理解和生成能力更接近人类,向通用人工智能迈出重要一步。

“我们希望打通从技术到商业的断点,在大模型开发、Transformer API的封装以及大模量型部署多个环节设计了相应的工具,简化开发难度,同时将10多个主流的预训练SOTA大模型开放到昇腾社区,让开发者可以直接调用做二次开发。“华为昇腾计算业务总裁张迪煊说。

延伸阅读:
ChatGPT,云厂商“流量密码”?
ChatGPT火了,英伟达笑了


作者丨齐旭 刘晶 宋婧
编辑丨刘晶
美编丨马利亚
监制丨连晓东

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布100万亿参数的GPT 4 刷屏AI社区,大概率是假消息ChatGPT背后的大模型,需要怎样的芯片?ChatGPT 又遇劲敌!谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练即可操纵机器人谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5ChatGPT 这样的大模型,能否在国内出现和应用?| 技术专家大论道300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型张文宏上海论文曾经只发现4%发烧ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇任正非谈ChatGPT和AI大模型!三年完成13000+颗器件替代开发刚刚!商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此想让孩子通过做EMT进而达到进医学院目的的请注意以下的事情。用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA摄影大师镜头下的日本街头魅族20系列官宣,蔚来试驾车致伤亡,威马回应全员停薪留职,北京将支持企业打造对标ChatGPT的大模型,这就是今天的其它大新闻!Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!ChatGPT 开源平替来了,开箱即用!200 亿参数,采用 4300 万条指令集微调模型这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能飞起飞落,岁月静好GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务渔歌子:GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型复旦MOSS升级版开源上线;马斯克启动TruthGPT;海康训练出百亿参数CV大模型丨AIGC大事周报DriveGPT自动驾驶大模型中国玩家首发!1200亿参数,毫末智行出品
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。