Redian新闻
>
美国计划禁止云计算厂商为中国训练AI大模型,我的一点看法

美国计划禁止云计算厂商为中国训练AI大模型,我的一点看法

科技
美国商务部长吉娜·雷蒙多(Gina Raimondo)在2024年1月26日接受路透采访时宣布了限制外国客户、尤其是中国客户使用美国云计算厂商的服务训练AI大模型的计划。雷蒙多的原话是:“我们不能允许中国或者其他我们不希望的玩家使用我们的云服务训练他们的模型。我们引入了芯片出口禁令,但那些芯片正在被美国的云计算数据中心使用,所以我们需要考虑关闭这些渠道,以避免潜在的恶意行为。”(注:原文可参见1月27日的路透社电讯)

毫无疑问,上述举措把美国对华科技制裁推到了一个新的高度,对中国人工智能产业的潜在破坏力很大。虽然我不是芯片或人工智能方面的专家,但幸运的是,我在这些产业有很多朋友。在得知这个消息之后,我马上征询了他们的看法,学到了很多东西。他们普遍认为,美国商务部的新举措从宏观角度看是可以理解的,但是为什么要在这个时间点推出,就有些耐人寻味了。

过去一年多,中国的互联网大厂和科技公司自称在AI大模型领域取得了显著战绩,“与OpenAI的差距只有半年到一年”。就在前几天,周鸿祎还宣称“去年我们看大模型像原子弹,今年再看大模型像茶叶蛋”——从资本市场炒作的角度看,上述说法很有道理(尤其是有利于大股东离婚减持);从技术研发的角度看就完全不是那么一回事了。事实上,中国科技行业对OpenAI的“赶超”,离不开下面三个因素的帮助:

第一,对境外开源大模型的吸收借鉴。

GPT-3以上的版本是不开源的,但是国外并不缺乏开源大模型可供借鉴(抄袭),其中最受欢迎的就是Meta于2023年2月发布的LlaMA,以及7月发布的LLaMA2。LLaMA本来只是有条件地对学术界开源,但很快遭到大规模泄露,Meta索性将其后续版本做成了全面开源。

LLaMA2有三个公开版本,分别拥有70亿个、130亿个和700亿个参数;Meta还宣布会在合适的时候公布更复杂的版本。虽然LLaMA2还是比不上GPT-4,但是作为一个借鉴(抄袭)的原点已经足够了。众所周知,国内一部分创业公司(名字就不点了)的“自研大模型”就是拿LLaMA2套皮的,就连参数名称都懒得改。

第二,通过租用GPT接口,对GPT模型参数进行“蒸馏”。

一个月前,外电报道称字节跳动旗下产品疑似因为调用GPT接口训练自己的大模型而被封号。其实这种事情,所有人都在做,圈内俗称“蒸馏”。所谓“蒸馏”,就是反复与GPT进行海量对话,通过GPT返回的数据对自己的模型参数进行调节;简而言之,就是让GPT帮你训练自己的模型。

只要有足够的人力、财力,任何公司都可以通过先抄LLaMA2、再租用GPT进行“蒸馏”的方法,在较短的时间内搞出一个像模像样的“自研大模型”,在测试中的表现甚至真能做到“与OpenAI只差半年到一年”(具体差多少取决于花了多少钱做蒸馏)。很可惜,通过这种方法搞出来的大模型永远无法赶超OpenAI,就像在考试时抄学霸试卷的学生永远不可能超过学霸——对了,还得小心别被监考老师抓住。

第三,租用Azure、AWS等海外云计算服务,解决算力瓶颈。

从2022年开始,美国不断收紧对华芯片出口禁令。虽然英伟达多次推出了对华“特供版”GPU,但是美国商务部随即补上了漏洞,现在可供利用的漏洞已经很小了。公允地说,哪怕不考虑芯片禁令,中国公司也很难抢到足够的GPU,因为英伟达的高端GPU一直供不应求,亚马逊等北美大厂经常是“出了新型号先抢一万张”,来自中国的客户的优先级肯定不会太高。

我们知道,AI大模型使用的算力分为“训练”和“推理”两种,前者要求明显更高。因此,中国科技公司普遍采取了“训练与推理分开”的模式,把一大块训练业务交给微软Azure、亚马逊AWS、谷歌GCP等北美云计算大厂去做,因为只有它们有足够的高端算力;至于推理,则可以全部放在国内(合规要求也必须在国内),甚至在硬件端搞一些“国产替代”。这个玩法,实际上是变相绕过芯片禁令,芯片虽然没进口到中国,相关算力却是中国公司在使用。美国监管当局肯定早已注意到了这里存在的漏洞,只是以前没管,现在决定出手管了。

当然,美国商务部的提议会不会诉诸实践、合不合法(此处是指美国的国内法),是值得争议一番的。不过在中美科技竞争的大背景下,这个提议得到实施的概率很大,美国云计算厂商的大门早晚是要对中国客户关上的。真正需要回答的问题有两个:

  1. 为什么美国要在这个时候推出新的禁令?
  2. 那些认真想赶超GPT的国内厂商,接下来去哪里找算力?


先说第一条。从商业或科技逻辑讲,美国商务部在此刻提议新的禁令,有点不太好理解:中国与美国在AI大模型方面的差距仍然很大,所谓“大模型从原子弹变成了茶叶蛋”纯粹是A股公司大股东为了减持而吹的牛逼,业内人士没人相信,美国人应该更不信。允许中国公司租用美国云计算资源,在短期内不会影响硅谷的科技霸权,反而会带来一笔不菲的收入。芯片禁令对中国AI研发的限制已经够大了,有必要更进一步、把事情做绝吗?微软、亚马逊这些云计算巨头为什么不阻止美国商务部把事情做绝呢?

对于上面的疑问有两种解释路径。一种是政治解释:今年是大选年,美国两党在互相比较谁对中国更强硬,“战场州”的选民普遍对全球化没什么好感,此时加强对华科技禁令是一张比较好的牌。至于硅谷科技巨头,这几年一直是它们春风得意、收入和利润猛增的时刻,失去一点来自中国客户的云计算收入应该不是大问题,没人愿意为此事死磕。

另一种则是科技解释:下一代AI大模型(GPT-5及其竞争对手),需要的训练算力可能会升级到“万卡规模”乃至“N万卡规模”。因为在现有基础上进一步提升大模型的能力,必须“大力出奇迹”、从资源规模上想办法,就像当年的核武器从2万吨量级飙升到千万吨乃至1亿吨一样。如果中国公司打算追赶到这一步,那它们对美国云计算资源的需求就会上升一个数量级;换个角度讲,美国本土客户的需求也会上升一个数量级,导致微软、亚马逊手中的高端算力更加供不应求。

因此,美国商务部此时提出对华云计算服务禁令,一方面是提前封死中国公司追赶的道路,另一方面也有助于把宝贵的算力资源留给美国本土公司使用。在市场经济环境下,价高者得,发生什么事情很难说;所以最佳竞争策略是把中国公司排除在市场经济之外。微软、亚马逊肯定也知道自己手里的算力会更加精贵、不缺客户,所以也没有动力提出反对。

现在轮到第二个问题:对于那些真心想追上世界领先水平(而不是炒高股价、离婚减持)的中国科技公司而言,接下来要去哪里找算力呢?答案取决于它们愿意付出多高的代价,而且不仅是经济代价。哪怕美国商务部正式颁布并严格执行禁令,中国公司要通过注册海外分支机构、寻找海外合作伙伴的方式去变相购买美国云计算服务,应该也是有门路的。问题在于一旦被抓,后果可能很严重——永远不要低估美国监管者下死手的力度。国内互联网大厂多是美国、香港上市公司,它们有没有胆子为了AI大模型冒如此巨大的风险呢?

如果不考虑上述冒险做法,那就只有立足于发掘国内算力资源了。目前AI相关芯片领域所有的“国产替代”都集中在推理端,因为推理所需算力要求不高。在训练端,全世界都存在对英伟达(设计)+台积电(制造)的替代需求,可是全世界都没做到(包括美国自己的科技大厂)。或许再过五年、十年,总归有人能拿出替代方案,但那时的世界又不一样了。上文提到过,目前国内自研AI大模型与GPT的差距还是明显的,而且GPT自身也在迅速迭代,训练算力的需求一时半会是下不来的。

目前国内的几家主流大厂(大家都知道是哪几家),平均每家手头只有1000-2000张用于通用大模型训练的显卡,有的多些、有的少些。有人猜测,某些大厂可能在海外囤积了大批显卡;不过考虑到近年来英伟达显卡一直供不应求,就算“囤积”了,规模也不会太大。即将到来的GPT-5时代,可能是一个“万卡规模”的时代,全国现有的符合要求的显卡加起来可能都满足不了哪怕一个自研大模型的训练需求。怎么办?我也很想知道。

附带说一句,在2022年11月ChatGPT横空出世之前,中国科技公司囤积英伟达显卡的最强动力,竟然是为云游戏做准备——当时很多互联网大厂是真心相信云游戏是未来、而且能迅速兑现的。无心插柳柳成荫,云游戏虽然一直没起来,为云游戏准备的显卡却成了中国AI大模型的救命稻草。

真是令人啼笑皆非:过去三年,中国游戏行业遭受了来自四面八方的一轮又一轮的抨击,夹起尾巴做人,在社交媒体上动不动就能看到游戏算科技吗”“游戏有什么技术含量”的说法现在,居然是游戏行业要在拯救中国“硬科技”的过程中,发挥举足轻重的作用我们所有人都欠游戏行业一个感谢。那些一贯轻视、侮辱、诋毁游戏的人,还欠游戏行业一个道歉。我等待着他们的道歉,我希望能听到他们的道歉!



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
核心技术 | 云计算全栈求职1V1定制计划随时开课!打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花国产RISC-V狂奔:端侧能跑大模型,AI计算成重头戏AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布终于判了!中国富商为报复妻子离婚,惨忍打死两外甥,逃回国时被捕美国计算机奥赛USACO公开赛春季训练营开营,8-18岁均可参加终于判了!中国富商为报复妻子离婚,惨忍打死两侄子,逃回国时被捕意大利罗马论坛,受益匪浅开源大模型火了!(附99个大模型微调模型/数据/工具)!美国AI战争再升级,全力阻止中国获得算力!或将禁止中国企业用云计算训模型360安全大模型3.0来了!垂直大模型,他们这么训美国计划投资越南半导体,减少对中国的依赖AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug《歌德堡变奏曲1494》校招 | HUAWEI华为云计算产品服务部2024校招开启,世界五百强,六险一金,带薪病假,内购优惠,适合留学生第二十三届中国计算语言学大会(CCL 2024)征稿启事阿里云吴结生:云计算是企业实现数智化的阶梯智能周报|Vision Pro应用生态遇阻;大模型毛利率低于云计算公司;OpenAI与台积电等公司谈判共建芯片厂…佛州留学生这下惨了!中国计算机博士被迫退学,别再说和我们无关了......美国计算机奥赛推荐机构-KTBYTE春季招生啦~早鸟享受8折优惠!美国计划“背刺”乌克兰,强行要求其和谈?云计算与大模型,新时代的科技命题看电视连续剧《宣判》说出我们恐惧是克服恐惧的开始千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024图解大模型计算加速系列:Flash Attention V1,从硬件到计算逻辑云计算三强“成绩单”:云里雾里,数最懂你再次重构云计算,强势占领企业级生成式AI版图从 Redis 开源协议变更看开源软件与云计算巨头之间的竞争博弈名单公示、训练计划:上海新青年山地马拉松集训营(名校户外)首批拟录取营员名单、初步训练计划阿里云上架罗永浩直播间,云计算正式进入大众市场恭喜工程师G先生成功出海!软件工程师的赴美之路:网络科技时代下的新生力量!中国计算机类职业如何出海?刘煜辉:对当前市场的几点看法无题
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。