Redian新闻
>
中国企业“带着镣铐”混战大模型

中国企业“带着镣铐”混战大模型

财经

立即订阅收听音频

中国大模型们在基建上的先天不足,使得他们在这场全球的大模型乱斗中,只好带着镣铐跳舞。


 文 / 巴九灵(微信公众号:吴晓波频道) 

从百度的文心一言开始,到科大讯飞发布的星火大模型,最近两个月,中国企业陆续发布的大模型已经超过了10个。


互联网有记忆,这种阵仗,人们在之前的元宇宙看过,在更之前的“社区团购”见过,在更古早的“百团大战”(互联网企业入局团购)也见过。


它们都有一个共通点,企业们一拥而上,然后疯狂烧钱。


但这次与过去相比也有很大不同——仔细看那些入局企业的手上脚上,都带着一副名为“算力”的镣铐。



“带着镣铐跳舞”

算力、算法和数据是人工智能时代重要的基础设施和战略资源。

在大模型的混战中,各厂的大语言模型最终能不能跑起来,算力是关键。

进一步解析,对算力需求又主要分为两部分:训练算力和推理算力。而目前来说,对训练算力需求非常高。

由于主流市场上,多采用英伟达的A100和H100作为训练算力的相关设备,因此当下有一个朴素的指标来衡量算力的大小——英伟达A100芯片的张数。

比如,周鸿祎曾在接受媒体采访时认真指出,国内企业想训练出一个接近GPT3水平的大模型,要最少准备几千片英伟达的A100芯片。

而根据OpenAI关于ChatGPT的公开数据显示,它的整个训练算力消耗,理想情况下总共需要大概6000张英伟达的A100芯片,在考虑互联损失的情况下,需要一万张A100作为算力基础。


2022年3月,英伟达推出最顶级的GPU芯片H100,在官网的参数介绍中,它特别提到,该芯片可以提升训练大模型的速度超过30倍。


面对“后辈”,A100仅在频率和带宽上稍微弱于H100,依然是大模型训练的主力芯片。



有心的网友在eBay上搜索,发现目前共有5家店铺挂牌销售英伟达最新发布的H100芯片,售价普遍达到4.5万美元左右,其中标价最高的一枚超过5万美元,对比一周前发布时它的官方价格,已上涨超过12000美元。


涨价原因不言而喻,全球范围内众多巨头和创业者,纷纷加入到大语言模型的研发和训练中,导致市场对它们的需求量不断攀升,价格也因此水涨船高。


但当这股热潮刮到中国,中国的企业面临着一个更严峻的问题。


早在去年8月,美国发布政策,禁止英伟达将A100、H100两款AI芯片售往中国。


为了绕过封锁,英伟达对这两块芯片进行了降频和封锁部分传输通路的处理,最终两款阉割版的H800和A800芯片被单独出口到中国。


与常规H100 PCIe 型号的600GB/s带宽相比,H800的双向芯片到芯片互连带宽速度仅为300GB/s;A800的芯片间互连带宽从A100型号的600GB/s 降至400GB/s。


这意味着,这两款芯片的功力只有原版的六成左右,相当于是原版的平替。


大语言模型训练好比训练孩子读书,带宽的降速相当于教学进度落后于人,累积下来,最后差的就不止一星半点。


一位硅谷创业者告诉小巴,“国内企业使用综合性能只有6—7成的简配版芯片来部署大模型,意味着需要为相应的模型,配备超过20%—30%的芯片和服务器,才能达到美国企业水平。”



要命的是,受限于产能,如今阉割版的芯片也很快进入到了有价无市的状态,国内经销商已经敢喊出9万元的天价,接近A100刚上市时在国内销售的价格。


巧妇难为无米之炊,中国大模型们在基建上的先天不足,使得他们在这场全球的大模型乱斗中,只能“带着镣铐跳舞”。


从这个角度上说,如今国内企业在发布大模型之后,就敢公开提供公众测试的平台,说明他们的投入还算到位,而那些用PPT发布模型后无法测试,哪怕开放测试申请却迟迟得不到通过的大模型,可能在保证自家大模型运转的核心资源投入上存在重大问题。



抓住老鼠就是好猫


但企业们也并非没有应对之策。


一方面,资金雄厚的企业开始疯抢市场上能买到的A100、H100原版芯片,买不到就开始抢A800和H800的低配版芯片。


另一方面,就是抓紧用国产替代来弥补。


2022年,国产芯片公司壁仞科技发布的BR100芯片,已经被普遍认为能够在算力和能效比上达到全球领先水准,而百度、阿里,华为,都已经在自己的大模型基础层,部署了自己研发的GPU或者AI芯片。


百度的昆仑芯片,已经有英伟达A100超过8成的能力;阿里的含光800专用AI芯片,2019年就已经出世,而且在阿里自身架构基础上,这颗芯片能超过英伟达同期GPU芯片4颗并行的水平;而华为AI芯片昇腾910已经做到接近A100水平,下半年要发布的920业内普遍预计会超过A100。


关键,这些大平台的芯片都是跟自己的系统和技术深度捆绑,可以发挥出100%的性能,是最适合他们建设大模型的基础。


还有一个求生通道,就是把精力都投入到对大模型技术优化和参数优化的过程中。


说得专业点,就是加速大模型对于知识的收集和数据的处理,说得通俗点,就是想办法让自己的“大模型”学得更快。


李彦宏曾在“文心一言”发布会上表示:百度是用国外企业1/4—1/5的训练量,完成了跟国外企业水平差不多的大模型培养。


例如,为了支持千亿参数模型的高效分布式训练,百度专门研发了4D混合并行技术,利用软硬件的协调大大提升了大模型学习的效率,而为了加快大模型的学习,降低使用和培训的成本,百度专门针对大模型数据开发了知识增强、检索增强和对话增强的技术。


4D混合并行策略示意图
图源:DOIT

与此同时,阿里、华为、科大讯飞等开发方,都在想办法对训练工具和数据进行优化,力图用远少于国外大模型的训练量,推动自身大模型快速接近乃至超过国外顶尖水平。



TO B为王


5月10日,在一年一度的谷歌年度开发者大会Google I/O 2023上,谷歌首席执行官桑达尔・皮查伊信心满满地为所有到场观众端出了一个丰盛大餐,那就是自己对标GPT-4的大模型PaLM 2。


 图源:腾讯新闻

在OpenAI的ChatGPT一炮而红前,业内都认为谷歌是最有希望在大模型上做出突破的科技企业,毕竟2017年由谷歌提出的transformer架构,是绝大多数现代大语言模型的基石。


但谷歌这次推出大模型也给人一种着急上马的感觉,许多功能还在实验室阶段就已经开了发布会。


分析原因,除了要一雪在大模型领域“起了个大早,赶了个晚集”的“前耻”,更深层次的原因或许在于,由于近期ChatGPT已经开始第二批应用接入,对谷歌引以为傲的互联网广告收入带来直接威胁,这是一个每年2000多亿美元的大蛋糕,谷歌要“护食”,也在情理之中。


这同样也暴露了当下大模型普遍面临的另一个困境——单靠技术使用服务费或会员费,无法弥补每年需要投入的庞大成本,因而只能在流量变现上下功夫。


除此之外,全球大模型的开发方还有一个共识,大模型真正有效的商业模式,应该从B端市场切入,通过建立专业大模型帮助企业完成发展,从而稳定获得收入。


这里,就有中国企业的大机会。


众所周知,大模型的成长和训练需要大量数据的支持。目前不论是ChatGPT还是谷歌的Bard,他们都是在通用大模型领域取得了领先优势,其背后都是通过搜索引擎带来的庞大数据进行训练的,细分到具体行业,相应的数据量和数据活跃度,并没有达到用户真正的需求。


这意味着在很多行业,通用大模型其实专业度不够,无法立马在行业实现应用。


中国由于特殊国情,在各个行业都拥有着广超美国乃至世界其他国家的数据积累,而且这些数据天然具备跟海外大模型隔离的环境。


这就是为什么华为干脆没有推出通用大模型,而是直接发布七个行业大模型的原因。


同样看到这样机会的不仅仅是华为,从百度到阿里抑或是刚刚推出星火大模型的科大讯飞,这些中国厂商都无一例外紧锣密鼓地展开了对行业数据的争夺和行业客户的开发。


图源:腾讯新闻

相关消息显示,百度已经在跟长安汽车合作,推动文心大模型在汽车生产领域、自动驾驶领域的落地。虽然详细内容由于各家大模型公司都在等待合规办法的落地而不能透露,但依照知情人士透露,我们对这件事可以抱有一个正向预期。


再比如百度智能云与百图生科联合构建了异构生物超算平台,训练了一个千亿规模的生物医药大模型,不仅承载了百图生科创新免疫调控药物ImmuBot的研发,也驱动了生物医药公司利用这个大模型直接实现蛋白设计。


还有阿里云与中石油旗下的昆仑数智共同推动大模型在石油领域的应用,相关行业模型的训练接近完成,后续的服务准备在一个月内陆续推出。


目前相应的B端探索中国企业远远走在了前面,而由于这些行业的数据封闭性和规模的体现,让这些企业搭建的大模型能在投入较少的资金和成本的基础上,实现一个最大化的成果。


讲了多年的“数实融合才是经济发展的真正基石”,这句话,放到当下大模型异常火爆的现实中,依然具备指导意义。


OpenAI创始人曾这样形容ChatGPT的出现:他并不清楚ChatGPT3.5是如何实现跨越的……那像是一个美丽的误会,而他们能做的就是不断为这样的大模型培养提供资源,软件硬件都算。


这个“不断”背后的数字,是不到三年内,OpenAI烧光了180亿美元,ChatGPT3.5每次训练的成本高达1200万美元,而ChatGPT4的训练成本更是高达5000万美元以上。


其实就是一个科技版“大力出奇迹”的故事,而历史经验和企业们各自的举措似乎在暗示我们,中国企业总是能在“巧力”上创造意想不到的奇迹,至于这股巧力能否在这一次走得通,是未来留给我们的新悬念。


本篇作者 胡八一 | 当值编辑 杨帅

主编 | 何梦飞 | 图源 | VCG


凯恩斯大师营招生中,超级会员免费学习

读懂凯恩斯,寻求关于就业、经济增长的启示

点击下图▼立即报名


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【春游欧洲】(3)红灯区的诱惑,舌尖上的荷兰阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报工信部组织开展2023年度大企业“发榜”中小企业“揭榜”工作凌晨和老公定了间“纯欲风”主题酒店!铁笼加镣铐,这谁受的了哈哈哈中国企业的大模型之路该怎么走?大厂混战AI大模型,云计算谁最行?大模型混战背后:科技“生态系统”是否会出现新格局?“人大代表”人数应该增许多名校毕业的天之骄子,一边涌入华尔街,一边戴上了“金手铐”……坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」热点 | 国产大模型“混战”:科技互联网巨头纷纷入局,商业场景出现“分流”大厂激战大模型,谁更焦虑?百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报华尔街少数派陈韵|挣脱你的“金手铐”只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型42+7,凑个七七四十九天中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报恐怖!45岁6孩爸为与“小三”私奔 买“砒霜”混奶昔慢毒妻子 想“天衣无缝”将其灭口人生体验PRICELESS的一个瞬间完成Pre-A+轮融资,语言大模型企业「澜舟科技」推出孟子MChat可控大模型|36氪首发BAT交战大模型,腾讯字节何时交卷?行业观察|​商汤加入AI大模型混战,更看重模型能力而非规模大意外!高考数学轮战大模型,结果完全想不到大模型混战:科大讯飞不能输的一战梦想开花疯狂!宾顿十字路口两车追尾后,突变8人大混战大群架!女子被禁锢在史岛!可怕男友对其暴打、镣铐 逃脱后直奔警局求助3月份还在美国企业“打工”,25岁青年当选A股上市公司董事长,工作阅历曾遭质疑中国出口管制,这家美国企业“不淡定”了深圳参战大模型!整合1000亿元AI基金群,公布AI发展行动方案疯了!29岁女子“谎称15岁”混入美国高中!她出庭时说……美国顶级名校毕业生齐赴华尔街,他们为何自戴“金手铐”?独家 | 多模态大模型初创企业“智子引擎”,近日完成千万元天使轮融资大模型变“小”:黑马天启开创AI模型“重度垂直”新思路,入选北京大模型行业应用典型案例
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。