Redian新闻
>
英伟达,落后了?

英伟达,落后了?

科技

虽然摩尔定律已经逐渐走到尽头,但我们却来到了一个更加看点十足的时代,不同于以往每隔18个月靠工艺迭代带来的常规演变,以英特尔、英伟达和AMD为首的芯片巨头之间的竞争变得异常激烈。从英特尔、英伟达、AMD三家的产品布局来看,三家几乎都集齐了CPU、GPU甚至是DPU产品线。如今,他们正在酝酿更大的规划!


随着近日AMD推出CPU和GPU组合的下一代数据中心APU——Instinct MI300,自此,三家的“多PU组合”争斗战已然打响。在此之前,英特尔的Falcon Shores XPU混合搭配CPU + GPU,英伟达的Grace Hopper Superchip是Grace CPU + H100 GPU的组合,都是如出一辙。他们都在做一件伟大的事情:在一个芯片中集成CPU、GPU和AI加速器,最终成为一个类似APU的产品,目标是更广阔的超级计算市场。但是在实现方式上,英伟达落后了?


英特尔的XPU计划之一:Falcon Shores


首先来说下英特尔的XPU计划?XPU是指使用多种计算架构以最好地满足单个工作负载的执行需求的想法,这是英特尔过去几年来最感兴趣的一个方向。英特尔希望将X86和Xe结合起来用于超级计算/HPC市场。这也导致了英特尔开始研发从CPU、GPU个一些ASIC产品(如IPU、VPU、FPGA)等等各种产品。


在英特尔2022年年度投资者会议上,英特尔披露了一个代号为Falcon Shores的处理器新架构,它将x86 CPU和Xe GPU硬件组合到单个Xeon插槽芯片中,利用下一代封装、内存和 I/O 技术,为计算大型数据集和训练巨大 AI 模型的系统提供巨大的性能和效率改进。不过英特尔的目标似乎不仅仅是将CPU和GPU集成在一起,英特尔正在寻求为拥有绝对海量数据集HPC用户开辟市场——这种数据集无法轻松适应独立GPU相对有限的内存容量。


Falcon Shores的目标是在2024年推出,采用埃米级制程,这意味着它可能会使用Intel 20A或Intel 18A制造工艺制造。英特尔预计Falcon Shores在多个指标上比当前一代产品增长5倍,包括每瓦性能提高5倍,单个 (Xeon) 插槽的计算密度提高5倍,内存容量增加5倍,内存带宽增加5倍。


图源:pcper


英特尔表示,Falcon Shores的混合设计是通过使用tile(也称为小芯片)实现的,通过提供x86和Xe内核之间的灵活比例,这将使芯片制造商在设计过程的后期配置芯片方面具有更大的灵活性。


AMD发布Instinct MI300 APU


近日,AMD在CES 2023上披露了其下一代数据中心处理器Instinct MI300,被AMD称之为下一代数据中心APU。它采用了13个Chiplet,共有1460亿个晶体管,MI300可以说是AMD迄今为止最大的芯片。


该芯片的计算部分由九个5nm小芯片组成,它们包含CPU或GPU内核,但AMD没有详细说明每个小芯片的使用数量。这九个裸片被3D堆叠在四个6nm基础裸片之上,而且这些裸片是有源的中介层,可以处理 I/O和各种其他功能。从下图中可以清晰的看到,Instinct MI300中心芯片侧面的八个HBM3堆栈。


图源:Future


MI300的关键优势除了将CPU内核和GPU内核放在同一设计中的操作简单性之外,还在于它可以让两种处理器类型共享一个高速、低延迟的统一内存空间。这将使在CPU和GPU两个核之间快速且轻松的传递数据,能让每个核处理他们最擅长的计算方面。此外,它还可以通过让两种处理器类型直接访问同一内存池,简化插槽级别的HPC编程。


但是MI300芯片并不是批量产品,因为其价格昂贵且相对稀缺,所以它们不会像EPYC Genoa数据中心CPU那样得到广泛部署。AMD预计将在2023年下半年交付Instinct MI300。但是,这一Chiplet的设计技术将会衍生出更多的变体。


英伟达Grace Hopper Superchip


不同于英特尔和英伟达采用Chiplet架构的做法,英伟达首款GPU+CPU组合——Grace Hopper Superchip还是单芯片的方式,下图是渲染图。


Nvidia对其Grace Superchip的渲染图:两个带有RAM的处理器合二为一


NVIDIA®Grace Hopper架构将NVIDIA Hopper GPU与NVIDIA Grace™ CPU结合在一起,在单个超级芯片中连接高带宽和内存一致的NVIDIA NVLink Chip-2-Chip(C2C)®互连,并支持新的NVIDIA NVLink开关系统。


NVLink C2C是NVIDIA为超级芯片开发的内存相干、高带宽和低延迟互连。它是Grace Hopper超级芯片的核心,提供高达900 GB/s的总带宽。这比加速系统中常用的x16 PCIe Gen5通道的带宽高7倍。结合NVIDIA NVLink切换系统,所有运行在最多256个NVLink连接的GPU上的GPU线程现在都可以以高带宽访问高达150TB的内存。


NVIDIA Grace Hopper超级芯片逻辑一览

(图源:英伟达)


英伟达表示,该超级芯片将为运行TB级数据的应用程序提供高达10倍的性能提升,英伟达已承诺在2023年上半年推出其超级芯片。


可以看出,英特尔、英伟达和AMD都开始在CPU+GPU组合上发力,他们所采用的方式:要么芯片继续平铺做大,要么拼3D堆叠、Chiplet、拼架构,目前从各家的CPU+GPU组合型产品推出的时间上来看,AMD和英伟达都在2023年,而英特尔将在2024年。软件支持方面,英特尔有oneAPI,英伟达有CUDA,AMD似乎还稍逊一些。而在架构方面,英特尔、AMD均已奔向3D Chiplet,但英伟达似乎仍在单芯片上努力。


英伟达何时拥抱Chiplet?


Chiplet用于CPU已经不是新闻了,AMD多年来一直在其Ryzen和Epic等CPU处理器中使用Chiplet设计并取得了巨大成功。英特尔也于2023年1月11日正式发布了基于Chiplet设计的第四代至强CPU-Sapphire Rapids,它通过内置加速器将目标工作负载的平均每瓦性能提升了2.9倍,在优化电源模式下每个CPU节能可高达70瓦,将总体成本降低52%-66%。


但是就目前的情况来看,GPU也已迈入了Chiplet时代。如今英特尔和AMD已经均已发布了3D Chiplet CPU和GPU中的产品。而英伟达无论是GPU还是CPU似乎还在单芯片上努力,英伟达要落后了吗?


2023年1月11日,英特尔发布了其首款Chiplet小芯片封装的GPU,代号Ponte Vecchio,GPU Max系列单个产品整合47个小芯片,集成超过1000亿个晶体管。这是英特尔性能最高、密度最高的通用独立GPU。英特尔的这一芯片的具体性能对比情况暂未可知,但是我们暂且可以看看AMD与英伟达的GPU性能对比。


AMD最新一代的GPU Navi 31,是AMD第一款、也可以说是历史上第一个基于Chiplet设计的GPU,AMD的两款最新显卡Radeon RX 7900 XTX和Radeon RX 7900 XT均是基于Navi 31。其中,XTX是旗舰机型,拥有更多的shader处理器,更高的内存带宽,更多的显存,而XT则是有些弱化的版本。


如果我们将AMD的显卡和英伟达的RTX 4080作对比,AMD的GPU的性能非常接近英伟达的RTX 4080。据chipsandcheese的评测对比数据,如下图所示,英伟达的4080采用4nm制程,晶体管密度比AMD的低一些,面积也更大一些,但英伟达4080具有更高的SM数量,这意味着寄存器文件和FMA单元相比AMD要有更多的逻辑控制。英伟达还具有更简单的缓存层次结构的优势,它仍然提供相当大的缓存容量。


AMD 7900/6900与英伟达4080的比较

(图源:chipsandcheese)


英伟达的GPU目前做法还是将所有的晶体管,都放在一个更大的单芯片上,采用尖端工艺4纳米节点。


而AMD的Navi 31基于Chiplet设计和先进的RDNA3架构。其裸片由GCD核(图形计算芯片)和 MCD内存小芯片(内存缓存芯片)组成。从下图可以清晰的看到,中间部分是5nm制程的GCD核,周围分别是6颗6nm制程的MCD,包含内存控制器和Infinity缓存。这说明,着色器处理器和其他单元比较获益于先进工艺,而对于内存控制器和缓存来说则不必需要使用最先进的工艺。


AMD Navi 31裸片

(图源:AMD)


两种不同工艺的芯片组装在一起,所使用的尺寸更小,与此同时,Chiplet的设计方式使得晶圆的缺陷芯片数量也少的多,从这个意义上来说,Chiplet架构的使用降低了成本。Chiplet的设计还助于通过在图形芯片上使用更少的区域来实现VRAM连接,从而实现更高带宽的 VRAM 设置。但是也不是万利的,代价就是AMD必须支付更昂贵的封装解决方案,因为简单的封装走线在处理GPU的高带宽要求方面表现不佳。


此外,AMD Navi 31 GPU很重要的一项创新是Infinity Link总线,为何要说到这个呢?因为Chiplet的设计方式肯定会产生更多的延迟,而GPU是对延迟极其敏感的,所以AMD特意为此开发了全新的Infinity Link总线(即 Infinity Fanout Links 系统)来连接GDC和MCD部件,从而在GCD和MCD小芯片部件之间实现5.3 TB/s的带宽,这种超级先进的互连系统无疑是小芯片GPU设计的关键决定因素。


可以说,AMD的Navi 31为图形处理器世界带来了真正革命性的小芯片GPU设计,如果这一设计取得成功,那么未来GPU就可以不用依赖先进工艺来提升性能,而是通过堆叠更多的GCD来实现。GPU市场迎来新的战争。


写在最后


3D IC设计逐渐成为了主流,Chiples也进一步崛起,在芯片大厂的推动下,基于Chiplet的3D IC设计进一步展示了其说服力。Chiplet将彻底改变这个行业。英伟达何时采用Chiplet,备受业界关注,不过估计也快了,毕竟黄仁勋已指出,"Moore's Law is dead" 。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3283内容,欢迎关注。

推荐阅读


关于车企“造芯”的一些看法!

一文看懂WiFi 7

拯救未来计算的三种办法!


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
文科生理应高薪,但我们的文科太落后了ChatGPT引发人工智能浪潮,苹果、亚马逊、Meta、谷歌、微软、英伟达,谁能占据上风? |【经纬低调分享】是的。对个体来说,还是法治清爽。但中国的“大局观”虽因压制个体而遭到反抗与蔑视,但却一直在整体层面起作用。悖论是推特不再优先审查新冠不实信息;亚马逊云科技 re:Invent 全球大会开幕;英伟达训练AI玩MC获奖 | 极客早知道理科落后70载,文科落后多少?火热报名中!英伟达Omnivores负责人、北大教授IEEE Fellow开讲:AI+数字孪生中的突破与新生两千年秦兵马俑神经渲染与AI生成框架结合,5倍提升游戏速度,英伟达是这样做的深入解读:英伟达最强异构平台车企只配打工?宁德时代之后,英伟达们“磨刀霍霍”含连花清瘟口罩刷屏/ 曝英伟达4080将降价/ 微软拟效仿微信开发「超级应用」... 今日更多新鲜事在此微信测试更多图片打开方式,神州十五号圆满发射,英伟达或停产性价比神卡,三星新一代显存带宽容量双翻倍,这就是今天的其它大新闻!英伟达 RTX 4080 显卡在欧洲首次跌破建议零售价GPU出货量现20年来最大跌幅!英伟达游戏显卡价格腰斩,AMD仍在观望消息称英伟达将修改 RTX 4070 规格,不再基于 AD104-275 GPU这年头靠稿费能养活自己吗?人工智能热火朝天,英伟达是“淘金者”还是“卖铲人”?英伟达 RTX 4070 Ti 显卡跑分曝光:OpenCL 性能比 RTX 3070Ti 快 45.8%人工智能“显威”,英伟达和美光坐上“快车”?大作玩着,显卡就着了火:英伟达因RTX 4090缺陷被用户起诉正式发布前,英伟达 RTX 4070 Ti 已在塞尔维亚提前上架7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型英伟达将与微软联手开发人工智能超级计算机英特尔VS英伟达,谁将成为芯片赛道的“王者”?一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势英伟达首席科学家:5nm实验芯片用INT4达到INT8的精度,每瓦运算速度可达H100的十倍解禁今宵博诱莱英伟达 RTX 4060Ti 规格初步泄露:配备 8 GB GDDR6 显存,TDP 仅 220W国家发文!今日施行!中国5G毫米波落后的局面要颠覆了?不着急了!2025年5月7日起乘飞机须持Real ID!延后了两年英伟达 RTX 40 系列笔记本 GPU 的 TGP 和频率曝光,RTX 4090 最高可达 200W这才是英伟达增长最快的业务!不是数据中心或游戏警示片起作用了?这家银行又有2人主动投案,落马名单继续拉长五四运动反对文言文提倡白话文跟上中国节奏!安省各大公交系统大升级:信用卡,手机等直接付费!TTC却落后了...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。