Redian新闻
>
浅聊一下最接近英伟达B200的AI芯片

浅聊一下最接近英伟达B200的AI芯片

科技

夕小瑶科技说 原创
作者 | 智商掉了一地
刚刚结束的英伟达 GTC2024 大会,可谓是赚足了观众眼球。老黄放出了“AI芯片核弹” —— B200,面向 AI 模型的新一代 Blackwell GPU 架构,支持万亿参数级模型训练。

这款芯片到底是什么量级的存在?它是不是新的 AIGC 浪潮的定海神针?

B200 真的已经碾压了其他芯片?

这让人们不禁开始思考,其他芯片厂商是否还有机会追赶这一巨头的步伐?是能继续保持住陪跑者身份,还是望尘莫及?

全球最强AI芯片 GB200,断层式领先

英伟达(NVIDIA)作为领先的图形处理器和 AI 芯片制造商,它在两年前推出的 H100 芯片在 ChatGPT、GPT-4 推出后身价水涨船高,甚至成为稀缺的“国际战略物资”。甚至直到几个月前,其他头部竞争对手的产品才能和 H100 相媲美。

基于新一代Blackwell架构的 B200 相比上一代  Hopper H100 ,再次迎来质的升级,性能显著提升。

可以这样直观地感受:在之前,GPT-4 需要约 8000 个 Hopper GPU 和 15 兆瓦的功率,执行 90 天的训练,而相同的 AI 训练只需使用 2000 个 Blackwell GPU,消耗 4 兆瓦的功率即可完成。这意味着 Blackwell GPU 在性能上的提升不仅仅是线性的,它又是一次新飞跃。

▲GTC 大会对 GB200 的介绍

此外,GB200 Grace Blackwell Superchip将不再只是芯片,而是结合了两个 B200 芯片的强大平台。这款产品的诞生,更关键的不止在算力的提升,而是能耗和成本的降低

▲Nvidia GB200 Grace Blackwell 超级芯片,图源 Nvidia
  1. 巨大的性能提升:GB200芯片拥有 2080 亿个晶体管,相较于上一代 H100 芯片只有800亿个晶体管,算力提升了 6 倍

    在处理多模态特定领域任务时,其算力更是能达到 H100 的 30 倍

  2. 能耗和成本大幅降低:GB200 与 H100 相比,仅需原来 1/25 的成本和能耗。

  3. 先进的技术组件:GB200 集成了诸多先进技术,包括第二代 Transformer 引擎、第五代 NVLink 高速互联技术、Ras Engine 和 Secure AI 等。

参数晃瞎眼,芯片性能怎么看?

那么究竟什么是算力,又该如何初步评判芯片的性能呢?我们先简单明确一下这些概念:

  • FLOPS(Floating Point Operations Per Second):即每秒浮点运算次数。
  • TOPS(Tera Operations Per Second),是Operations Per Second的特定量级,1TOPS 代表处理器每秒可进行一万亿次()操作。TOPS 通常用于衡量 AI 加速器和专用处理器(如 TPU、NPU 等)的性能,因为这些设备在执行深度学习和神经网络推理时,往往涉及大量的整数和定点运算。
  • TFLOPS(teraFLOPS)是 FLOPS 的特定量级,表示每秒一万亿()次的浮点运算,表示每秒进行的浮点运算次数。TFLOPS 常用于衡量 GPU 和高性能计算系统的性能
  • PetaFLOPS:1 PetaFLOPS = 1000 TeraFLOPS。"Tera" 和 "Peta" 分别表示十亿和一万亿。
  • 位宽:表示处理器在一次计算中能处理的数据位数,通常以 bits(比特)为单位。

简单来说,算力计算方式就是把芯片的峰值算力(单位:TFLOPS)乘以位宽(单位:bits),这样就能得到总处理性能(单位:TTP),即:

总处理性能=芯片峰值算力×位宽

举个例子,假设一款芯片的峰值算力是 2 TFLOPS,位宽是 64 bits,那么它的总处理性能就是:2 TFLOPS × 64 bits = 128 TTP。

国外AI芯片“三足鼎立”

势必分一杯羹的 AMD 家的 MI300 系列

在AI芯片竞争激烈的当下,AMD被认为是最有望与英伟达竞争的公司。

AMD CEO 苏姿丰:“英伟达现在占有大量市场,但是我们可以在这个市场分一杯羹。”

苏妈在23年12月份的AMD发布会上官宣了其最新AI芯片,用于模型训练和推理的 MI300X GPU 和用于 HPC 高性能计算的 MI300A APU,当时对标的是H100,要知道 H100 是英伟达22年3月份发布的 Hopper 架构芯片,整整领先了第二名AMD一年的时间。

据官方发布的各个维度的对比测评数据来看,MI300X相比H100的提升在 1.X-2.X倍的数据提升。比如:MI 300X的内存配置是H100的2.4 倍,FP8、FP16、TF32算力是英伟达H00的 1.3 倍。

Inter 推出 Gaudi 3 抗衡英伟达和AMD

和AMD几乎同时,硬件处理器老大哥英特尔宣布在美国市场推出了自家AI芯片 Gaudi 3,宣称 Gaudi3 的性能将优于英伟达的 H100,不过这一说法并未得到验证,预计2024年正式上市。

从图表中能够看到,虽然这些国外头部芯片厂商之间的角逐非常激烈,但英伟达的多项产品仍都处于领先地位。

▲图源 semianalysis
▲头部芯片商产品对比

Gaudi3 MI300X 对标的都是 H100,且都在24年交付市场,如今24年已过去1/4的时间,AI芯片三足鼎立的场面恐怕来的更晚一些了。

芯片市场只有:英伟达和其他

在这场 AI 芯片的竞争中,还有一些新兴的初创公司和专注于特定市场细分领域的玩家。例如,Graphcore 和 Cerebras Systems 等公司正在开发专门针对 AI 和机器学习工作负载优化的处理器,这些处理器在某些应用场景中可能会提供比传统芯片更高的性能。

每家公司都在努力提高其产品的性能、效率和可扩展性,以满足从大模型AIGC、数据中心、云计算到边缘设备的各种计算需求。

英伟达凭借其在 AI 领域的早期投入和持续的技术创新,以及与云服务提供商和企业的深度合作,在 AI 硬件和软件生态系统中保持了显著的优势。

在 GTC 大会上透露,已有多家大型企业和云服务提供商(包括亚马逊云科技、谷歌、微软、Oracle 等)计划采用 GB200 架构的产品,未来将可能通过云服务的模式,出售 GB200 的接入权。

从上面分析不难看出,目前AI芯片的市场只有英伟达和其他,其他公司包括第二第三还在赶超英伟达两三年前的产品,英伟达已经拉开其他多个迭代轮回的距离。

政策限制下,国产芯片或将迎来机会?

再来看看国内的芯片情况,

大部分已经投入商用的国产芯片产品(包括华为昇腾 910)对比英伟达最新的 AI 芯片产品,起步较晚,虽然已在奋力追赶,但在性能上仍存在一定的差距。

▲AI 芯片国产替代方案,资料源《财经十一人》

目前来看,能够实现量产并且打开国内市场的多是华为、阿里、百度、腾讯等互联网大厂,以及寒武纪、天数智芯等独角兽公司的产品,其他大部分芯片厂商的产品基本都面向特定的应用场景。

美国芯片出口jin令限制了高端芯片如 A100 和 H100 的销售,提供了降级版本 A800 和 H800 给中国公司,这对国内 AI 和 GPU 依赖行业是挑战。然而,这也促使国产芯片需求增加,为本土企业提供了市场机遇,推动技术进步。

▲NVIDIA 芯片性能与半导体限制政策前后比较

国产优秀代表:华为昇腾 910、天数智芯、寒武纪等

昇腾 910 作为华为海思自主研发的 AI 芯片,其算力超过英伟达 V100,接近 A100/A800 80G PCIe 版本,但与 H100/H800 相比仍有较大差距。尽管如此,昇腾系列以其丰富产品线和软硬件结合,成为众多企业的选择。但由于昇腾 910 不支持 32 位浮点运算,在 AI 应用方面,目前多用于华为自身生态中的大模型业务。

▲昇腾 910B 与英伟达 A800 的对比

天数智芯在 2021 年推出了代表产品天垓 100,基本可以对标英伟达发布于 2017 年的 V100,虽与 V100 相隔四年,但天垓 100 实现了国内通用 GPU 从 0 到 1 的重要突破,也能确保自主可控,且能兼容 CUDA,便于算法和应用迁移。

AI 领域独角兽企业寒武纪已经量产了许多 AI 处理器,其在 2020 年发布的旗舰产品 MLU370-X8 主要面向训练任务,它支持互联,能高效执行大模型的训练推理任务

之前我们的各种芯片主要都靠技术进口,在政策限制的挑战下,国内芯片企业如华为海思、寒武纪、中芯国际、紫光集团等纷纷加大研发力度,力争在关键技术上实现突破。华为海思的麒麟 990 芯片在智能手机市场取得成就,尤其在 5G 和 AI 领域表现突出,中芯国际也在制造工艺上紧追国际先进水平。

不过,目前的环境对于芯片初创企业来说还是举步维艰,就算是谷歌和英伟达这种超大规模的公司,也都依赖于游戏行业或者内部需求为 AI 芯片的研发“输血”,尚未有哪家公司只靠着卖 AI 芯片就能在市场上屹立潮头,创业公司基本都面临着亏损,需要源源不断的巨额融资来支撑发展。

国产芯片发展:力求自主可控

国内半导体产业链正在加速重构,涵盖材料、设计、制造到封装测试的全链条,力求自主可控。尽管与国际顶尖水平存在差距,但基础半导体材料和设备的国产化已取得显著进展。在芯片设计方面,也涌现出众多拥有自主知识产权的企业。

此外,国家各项扶持政策的实施,也会在一定程度上加快国产芯片技术的研发和产业化进程。国产芯片企业也在积极探索与国内外的合作机会。通过技术引进和合作提升产品竞争力。在某些细分市场,如物联网、智能家居、5G 通信等领域,国产芯片已经开始展现出较强的竞争力。

国产芯片要实现长远发展,除性能之外还需充分考虑生态适配等多方面因素。

最近的上海半导体博览会上,除了很多卡脖子的设备厂商,不少新材料相关企业也前往参展,也吸引了很多投资人在现场寻找机会。期待国内芯片厂商持续发力,在集成电路生产方面,努力缩短与台湾省之间的差距,甚至赶超,在未来的全球半导体市场中占据一席之地。

总结

总之,B200 芯片的推出,展示了英伟达在 AI 芯片技术上的领先地位,也预示了 AI 技术在各行各业的应用将进一步加速部署。

对于其他芯片制造商来说,英伟达的这一突破无疑是一个巨大的挑战。

摩尔定律的放缓曾引发对半导体行业未来的担忧,但新的技术突破和应用场景总在不经意间出现,推动行业发展

因此,这并不代表其他芯片厂商就此无法追赶。他们可以通过硬件设计、软件优化和专用加速器的创新,继续在这个快速发展的 AI 计算竞赛中寻找自己的立足点。

而未来的芯片市场,注定充满变数和挑战,但也正是这样的不确定性,才让我们对技术进步的未来充满无限的期待和憧憬~

参考资料

 [1]https://tele.m.ofweek.com/2024-03/ART-8320503-8220-30629183.html
 [2]https://1587356929.spaces.eepw.com.cn/articles/article/item/324622
 [3]https://www.semianalysis.com/p/wafer-wars-deciphering-latest-restrictions
 [4]https://www.bilibili.com/video/BV1uK411i7kn/?vd_source=96aec58f45fdbb97384e36e3781ec33b

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达卷疯了!最强芯片炸裂AI界,老黄还拿出机器人大模型Meta加速抛弃英伟达?今年将部署自研推理芯片,训练芯片也在路上推理性能提升30倍!英伟达发布史上最强AI芯片,黄仁勋:将成最成功产品免中介费|八九月入住|近BU新建高级公寓1B3700+ 2B2B 5300+ 3B2B 6700+,室内洗烘,中央空调详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管许章润:就女子羈獄 致暴政書英伟达黄仁勋:下一代智能汽车芯片与三家中国车企达成合作财经早参丨英伟达推出最强AI芯片;英国否认国王去世;许家印被罚4700万,终身市场禁入;三只羊、东方甄选回应“梅菜扣肉”事件消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存,B200 配 288GB 显存炸裂!英伟达发布全球最强AI芯片:性能提升30倍;盒马CEO侯毅退休;许家印拟被终身禁入证券市场;三只羊回应梅菜扣肉事件丨邦早报重磅!英伟达官宣全球最强 AI 芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?黄仁勋刚刚发布,英伟达最强GPU B200,首次采用Chiplet?一个顶五个H100的B200,老黄这是打破摩尔定律了?英伟达股价又创下历史新高!扎克伯格宣布购买35万GPU芯片,芯片的巨大潜力增长每秒800个token,这颗AI芯片挑战英伟达英伟达抛出年度AI杀器:史上最强芯片,还有机器人大模型Elon Musk抢购英伟达GPU,也要买AMD芯片倦侣6:囡囡身世英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200无题英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...阿尔特曼拟筹7万亿建AI芯工厂;传英伟达组建芯片定制部门;传OpenAI年化收入超20亿美元丨AIGC大事日报英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密英伟达盯上了华为!特供版AI芯片价格首次曝光!起售价11万元低于华为英伟达B200成本6000美金?卖40000美金?五, 湖南影视来宾,黎老耶鲁大学风波证监会立案调查:国产芯片上市公司重大财务造假!股价一度爆炒到300元,声称自研芯片比肩英伟达!深夜炸场!英伟达发布全球最强 AI 芯片,性能暴涨 30 倍,老黄才是这个时代的乔布斯英伟达的颠覆式创新:芯片行业迎来30年来的新王者重磅!英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈与地球擦肩而过!5颗小行星"最接近时间点"曝,体积相当于体育场
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。