Redian新闻
>
英伟达杀疯了

英伟达杀疯了

公众号新闻
如果要说哪家公司是目前全球最炙手可热的公司,相信很多人第一时间的答案一定是老黄的英伟达。

在前不久公布的2023年度财报当中,英伟达营收达到了609.22亿美元,净利润297.6亿美元,同比分别增长126%和581%。

横向比较一下,英特尔2023年营收542亿美元,净利润16.89亿美元,同比分别下降14%和78.9%,AMD营收226.8亿美元,净利润8.54亿美元,同比分别下降3.9%和35.3%,英伟达在同类型公司中可谓鹤立鸡群

因为AI革命的发生,英伟达的芯片在过去一年一直处于供不应求的状态,以至于它的毛利率达到了恐怖的72.7%,超过了茅台

那么作为一家高科技企业,英伟达接下来是会挤牙膏收割毛利,还是进一步创新推高AI算力呢?就在今天早上的GTC2024上,黄仁勋给了我们答案


01 

想要快,就要大!


想要芯片速度更快,该怎么办?

那就造的大一些!这是黄仁勋今早在GTC 2024上给出的答案。

这个大芯片,是目前英伟达,或者说这个地球上最快的AI计算芯片,它就是全新一代的BlackWell GPU芯片。

左侧为BlackWell,右侧为Hopper

与上一代的Hopper相比,新一代的芯片在面积上的确大出了不少。老黄解释道,这是因为一块完整的BlackWell芯片,其实是由两块同架构的小芯片构成

两块小芯片合成一个完整的BlackWell

因为制程从之前的台积电4N工艺升级到了现在的4NP工艺,所以即使单个小芯片的晶体管也比之前提升了200亿个,当两个小芯片合在一起后,一块完整的BlackWell芯片的晶体管数量达到了惊人的2080亿!要知道,上一代的Hopper规格只是800亿。

完整的BlackWell拥有2080亿个晶体管

在显存方面,新芯片依然采用了HBM3E规格的显存,但是容量从141GB提升到了现在192GB,带宽从4.8TB/S提升到了8TB/S

除了晶体管带来的计算能力提升,在架构上,英伟达对于FP4这个精度的计算也做了一些优化,在这个精度上,计算能力相比上代提升了5倍,其它的精度上,BlackWell的提升大约在2.5倍左右。这就像给一台发动机在增大的排量的同时,还给内部进行了一些优化,双管齐下,跑的更快了。


FP4精度不高,但响应快,因此一般都用在大模型的推理当中,优化过后,使用新芯片进行推理的速度提升了30倍

也就是说,如果把目前的ChatGPT中的GPU都换成BlackWell,那么我们得到回答的速度将会有着至少十几倍的提升。抛开专门的FP4优化,在正常的大模型训练下,采用新芯片的GB200计算卡,要比老款H100快上2.5倍到4倍

演讲中,老黄并没有提到配备一个GPU芯片的B200或者B100,只拿出了配备了2块GPU+1块CPU的GB200。其中的CPU依然是上一代ARM架构的Grace,只是GPU有了升级。


在展示BlackWell的后半段,老黄还回顾了从2016年开始,英伟达显卡在计算速度上的提升,虽然精度略有不同,但可以看出,这几年老黄在计算卡上确实没有挤牙膏,每次算力的提升都是实打实的



02 

超级计算机的新骨骼


除了芯片更强外,老黄在芯片互联之间也有大幅更新。

比如组成BlackWell的两个小芯片,它们之间的互联速度就达到了10TB/S,按照老黄的说法,这个速度已经可以满足芯片缓存(Cache)的要求,可以完全把它看作一个单独的大芯片。

英伟达引以为傲的NVlink,也算是这次最佳配角,全新的NVLink交换机带宽提升到了7.2TB/S。NVLink交换机的存在,就像人体的骨骼和血管一样,它的存在,把各个GPU计算节点连接在一起,让它们更好的发挥,协同。


这次NVLink的提升,72个的GPU可以连接在一起,组成一个DXG超级计算机,并且可以让整个计算机被看做一个超级大的GPU来用。

为了达到72个GPU之间的高速互联,DXG内部总共使用了3.2公里长的光纤线缆。


这样一台DXG服务器在训练AI时候的算力达到了恐怖的720 PFLOPs,6年前老黄亲手把DXG初代机交给马斯克和OpenAI的时候,那台机器的算力只有0.17 PFLOPs,6年时间,DXG服务器的算力提升了3600倍!


在介绍GPU的最后,老黄用大家熟悉的GPT做了一个非常量化的比较,他说目前的OpenAI最先进的模型的参数是1.8万亿个。

在使用A100 GPU训练的时候,需要25000个,耗费时间3-6个月,到上一代H100,数量降低到8000块,时间压缩到90天,需要消耗1500万度电,如果用最新的BlackWell GPU,训练时间没变,依然是90天,但是GPU的数量将缩减至1/4,电量只需要400万度。


03 

老黄依然没有忘记元宇宙


2个小时的演讲中,前一个小时围绕着硬件,后一个小时则是软件的“推广”。

NIM是英伟达新推出的一种大模型部署傻瓜化服务”,只要你的显卡支持CUDA,那么就可以非常简单的利用NIM来部署和微调出属于自己业务的大模型。


剩下的时间,老黄都在介绍它的“元宇宙——Omniverse。只不过和以前单纯的把所有的东西都数字化不同,Omniverse现在更多的扮演了AI和现实世界中的中间层


AI虽然能做到很多事情,但无法直接感觉现实世界,它只能通过各种资料来学习,从来没有实际上手过,就像经验值为0的小菜鸟。如果想让AI做到完美的控制机器,就要尽可能的让AI去现实世界中练习。

但现实练习的成本太高了,比如让AI管理一个仓库,总不能让工人,货物和机器人一起作AI的“陪练。这个时候Omniverse就派上用场了,它对于现实物理的完美模拟,可以让AI在虚拟工厂中进行训练。

在老黄的例子中,Omniverse通过数字孪生把自动化工厂和工厂中搬运机器人联系起来。在工厂中,有一堆货物从货架上掉下来。

视频中AI会根据工厂中工人的位置,货物掉落的位置,为搬运机器人指出一条既不干扰工人工作,也不会被货物绊倒的路线。有过这样的经验,AI在现实中碰到同样的情况就可以妥善处理了。


在训练之后,人类还可以直接和AI对话,让它重现刚才发生的情况以及它的对策。

除了工业,老黄还启动了Gr00t计划,同上面一样,这也是一个AI,Omniverse,现实的三层结构。只不过这次它应用在机器人身上。

机器人通过AI,人类远程示教来进行学习,然后在Omniverse这个“虚拟锻炼场进行各种锻炼,最终达到在现实中完成任务的目的。


演讲的最后,老黄还请出了一排机器人和两个装有英伟达Jetson处理器的小机器人,虽然和小机器人的沟通演示有些失败,但是对于一些像跟随,停止等基本指令,小机器人还是执行到位了。



04 

人类已经处在AI发展的快车道上


简单总结下老黄的这次演讲,有两大重点。

第一,当然是AI算力的进一步提升,基于你的不同应用场景,新一代的英伟达芯片将带来2.5倍到30倍不等的算力提升。

这意味着我们将看到更强大的模型,以及更快的模型响应速度,具备实用性的视频图文语音多模态模型也将成为可能。这一块是英伟达市值翻倍的动力,也是接下来很长一段时间的中心所在。

第二,在大模型的应用场景上,老黄的目标,是从现在的白领服务业领域,向数字孪生,向工业,向机器人的方向扩展。

2024年我们将看到AI更多的出现在现实世界,特别是人型机器人的时代可能很快就会到来。

这确实是个让人害怕又兴奋的大时代。


Ps:GPT4.0永久使用资格,3月份即将停售,感兴趣的读者可以看一下:点击此处

—— END ——

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达杀疯了,净利润暴增769%!股价飙涨,你买了吗?!英伟达卷疯了!最强芯片炸裂AI界,老黄还拿出机器人大模型全球颜值天花板,今年杀疯了破21亿,贾玲杀疯了!便宜杀疯了!49.9起的童装能做到三防面料、立体剪裁!2024年第一场土拍,杀疯了!"黑碎花半裙"带火的「高级感穿搭」!简直杀疯了!回头率200%~~乌俄最新:疯了疯了,彻底疯了……明星拉客?美色诱惑?各地文旅营销杀疯了!第一批用Kimi做内容的网红已经杀疯了围剿小米,截胡比亚迪?吉利杀疯了!又一个黄金生意,杀疯了日本日记15: 京都打卡之童话般的古都奈良淘宝的广告,在朋友圈杀疯了叔圈顶流回归,一集就杀疯了杀疯了! 募资近百亿, 黑石还在持续拓展中国市场+人才扩招!从抗老到长生不老?2024年这5大美妆品类杀疯了杀疯了!净利润暴增3000%「春夏100%纯棉四件套」杀疯了!11款氛围感图案,ins风一键get~~21.59万!小米SU7杀疯了!我们已下单!全球最性感的女神,杀疯了蘇軾滿庭芳阮经天,杀疯了!24 Fall杀疯了!麦吉尔新生成为最幸运的一批人「塌房」后回归,她这次杀疯了杀疯了!《周处除三害》值得去影院看吗?杀疯了!《周处除三害》这片子是怎么过审的?智利海景,初升的月亮韩剧又一爆款!收视率杀疯了,可一半人都在骂…我将怎样写小说?(1)美国裁员“杀疯了”,留学生被迫回国卷?41岁的“普女”吴昕,在小红书杀疯了!和娃的一天刚刚!卢伟冰开小米汽车出席发布会!新旗舰杀疯了……继哈尔滨全网爆火之后,河南最近也杀疯了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。