从最强AI算力到均衡性能增益,AMD连甩一大波高招。芯东西7月16日报道,首批搭载AMD锐龙AI 300系列移动处理器和锐龙9000系列桌面处理器的AI PC设备将于本月月底开始发售!面向AI PC市场,AMD终于亮出积攒已久的大招。在上周洛杉矶举行的AMD Tech Day上,AMD向全球媒体奉送了大把猛料,将从台式机到笔记本电脑的一系列AI PC产品策略倾囊相告。多位AMD高管深度揭秘了全新Zen 5微架构、RDNA 3.5 GPU架构和新一代XDNA 2 NPU架构的技术细节和测试结果。本地运行Windows 11中的Copilot Plus功能,至少需要有40TOPS算力的NPU。AMD声称其专为AI加速设计的XDNA 2架构带来了“世界上最强大的NPU”,AI性能可达到50TOPS,比苹果M4的AI神经引擎、英特尔Lunar Lake NPU、高通骁龙X NPU算力都要高!第三代锐龙AI处理器已支持本地运行70亿参数、2K输入序列长度的大模型,产生第一个token用时1000~4000ms,每秒可生成20个token,并正向支持300亿参数大模型、支持2K-3K输入序列长度、每秒生成100个token的目标进发。除了AI算力外,Zen 5均衡的性能增益、更长续航、新超频功能、对主流游戏的支持等表现,都令人印象深刻。AMD正将Zen 5应用于整个产品系列,消费端的锐龙AI 300系列移动处理器和锐龙9000系列台式机处理器采用台积电4nm制程,计划下半年发布的代号为“Turin”的EPYC服务器处理器则将采用台积电4nm和3nm制程。首批锐龙9000系列桌面处理器将于7月31日发布,包括4个SKU:16核锐龙9 9950X、12核锐龙9 9900X、8核锐龙7 9700X、6核锐龙5 9600X。其中锐龙9 9950X被AMD称作是“最快的消费级桌面处理器”。首批锐龙AI 300系列移动处理器有2个SKU:锐龙AI 9 HX 370和锐龙AI 9 365。AMD称这是“AMD技术的巅峰”、“唯一不妥协的AI PC解决方案”,具备全生态系统兼容性、完整PC产品组合、Copilot就续和第三代AI体验、领先性能、全天候电池寿命五大优势。AMD 3D V-cache处理器有望在今年晚些时候以锐龙9000X3D的命名推出。同样基于Zen 5的第五代AMD EPYC服务器处理器(“Turin”)将于今年下半年上市,将提供多达192个核心和384个线程,采用了台积电4nm和3nm工艺技术,并通过可信IO增强安全性。从云计算、健康、工业、汽车、连接、PC、游戏到机器人,AMD正全面赋能AI,相信AI将是开启PC新一轮进化的关键,未来将实现基于自然语言的人机交互、AI代理以及无缝、始终在线、AI数据驱动的用户体验。AMD声称,只有AMD能够提供从云端、企业级到AI PC完整的AI技术平台。
AMD锐龙9000台式机处理器(代号为Granite Ridge)有16个Zen 5核心和32个线程,兼容AM5主板,和锐龙7000系列使用相同的I/O芯片。AMD承诺AM5将是一个长寿的平台。Zen 5 CPU核心(CCD)采用台积电4nm工艺技术,IOD采用台积电6nm工艺技术。旗舰芯片锐龙9 9950X有两个Zen 5 CCD和一个IOD,提供16个核心、32个线程、4.3GHz基本时钟频率和最高5.7GHz的加速时钟频率、80MB缓存(64MB L3+16MB L2),TDP为170W。锐龙9 9900X有12个核心、24个线程、4.4GHz基本时钟频率和最高5.6GHz的加速时钟频率、76MB L3缓存,TDP为120W。与24核英特尔酷睿i9-14900K相比,12核锐龙9 9900X的生产力和内容创作性能提高了2%~41%,游戏性能提高了4%~22%。在AI加速方面,运行Mistral开源大语言模型,AMD锐龙9 9900X的速度比酷睿i9-14900K快20%。锐龙7 9700X有8个核心、16个线程,基本时钟频率为3.8GHz,加速时钟频率最高为5.5GHz,缓存为40MB(32MB L3+8MB L2),TDP低至65W。将8核锐龙7 9700X与20核英特尔酷睿i7-14700K对比,游戏性能增幅在4%~31%区间。AMD锐龙7 5800X3D被认为是市场上最强大的游戏处理器之一。AMD称常规锐龙7 9700X能以65W的较低TDP提供前者以105W功耗实现的几乎相同的性能。最后,入门级SKU 锐龙5 9600X只有6个核心、12个线程,基本时钟频率为3.9GHz,加速时钟频率最高达5.4GHz,缓存为38MB,TDP仅有65W。与14核酷睿i5-14600K相比,6核锐龙5 9600X在生产力和内容创作方面的优势就更明显了,特别是HandBrake的跑分高达94%,游戏性能也有5%~29%的领先。总的来说,这些SKU的TDP都比前代更低,同时性能和能效变得更高。锐龙9000系列的整体热阻比上一代提高了15%,在相同TDP下将运行温度降低了7℃。锐龙9000系列改进了超频功能,例如最新AGESA支持DDR5-8000内存;其他新功能包括新的内存超频和内存优化性能配置文件功能、DDR5-5600内存(JEDEC标准)。AMD还提供了一个“曲线整形器”,支持用户在动态调整电压频率曲线,在保持稳定性的同时更详细地控制功率、电压和频率。如果用户希望优先考虑性能而非效率,特别是对于多线程工作负载,较低的默认TDP意味着在启用PBO时有更多的额外性能空间。在启用PBO后,三款锐龙9000系列处理器分别实现了6%~15%的性能提升。这些功能将出现在现有的X600系列和即将推出的X800系列主板上。高端X870E和X870主板将配备至少一个USB 4.0端口,而低端B850和B840芯片组将使用USB 3.2。X系列主板将支持其GPU和SSD的PCIe Gen 5标准,B840则仅支持PCIe Gen 3。
本地AI PC有很多云端AI所不具备的优势,如保护隐私和数据安全、减少延迟和响应时间等。AMD第一代锐龙AI处理器带来了超过50款系统,前两代带来超过150款系统,而随着第三代锐龙AI处理器走向市场,将有超过300款系统采用锐龙AI技术。有第三代AMD锐龙AI处理器加持的Copilot+PC,能畅跑Recall、视频字幕、实时翻译、Co-creator等最新AI功能。OEM大厂们也能基于第三代锐龙AI处理器实现更好的AI体验,比如宏碁LiveArt通过动作捕捉生成相同姿势的图像、华硕StoryCube进行一站式文件管理、惠普 Al Companion用AI优化设备性能。AMD还宣布了一款AI图像生成工具AMUSE 2.0 Beta,支持文生图、图生图,而且能将用户手绘草图变成精美的图像,现已支持华硕Zenbook S16触控笔。用于笔记本电脑的AMD锐龙AI 300系列移动处理器(“Strix Point”),被AMD称作是“锐龙AI 300是其在AI旅程中开创性的一步”。该处理器广泛支持覆盖超过10万个Windows游戏、3500万个Windows应用程序、60亿台Windows设备的全Windows生态系统,可用于从超薄本、便携本、游戏本到内容创作、商用本和移动工作站等不同类型的产品。锐龙AI 300系列采用Zen 5 CPU+XDNA 2 NPU+RDNA 3.5 GPU的架构组合,目前只公布了两个SKU,TDP范围为15~54W。锐龙AI 9 HX 370是旗舰芯片,拥有12个核心和24线程,最高升压频率达5.1GHz;锐龙AI 9 365拥有10个核心,最高升压频率可达5.0GHz。两款都配备了24 MB L3缓存。性能上,对比英特尔酷睿Ultra 9 185H、高通骁龙X Elite XIE-84-100,锐龙AI 9 HX 370在运行App启动、Office生产力、网页浏览等生产力任务方面均性能领先,领先幅度高达30%。在内容创作任务上,锐龙AI 9 HX 370也表现出色,3D渲染Blender性能高达酷睿Ultra 9 185H的3.8倍。在技术日现场,华硕展示了包括Zenbook S 16,ProArt P16,ProArt PX13在内的多款新一代AI PC产品。和搭载苹果M3芯片的MacBook Air 15相比,搭载锐龙AI 9 HX 370的 Zenbook S16(华硕灵耀16 Air)在跑AI、多工作流、3D渲染、图像处理、游戏等任务时都快得多。相比搭载M3 Pro芯片的新款Macbook Pro,搭载锐龙AI 9 HX 370的ProArt笔记本电脑跑分也更胜一筹,分数高出15%。为了帮助开发者加速开发下一代AI应用,AMD还打造了丰富的锐龙AI软件,支持超过1000种AI模型。其统一AI软件栈能够帮助更多ISV获得更好的AI体验。
相比Zen 4,全新Zen 5架构更强大、更节能,采用更快、更小、更低功耗的晶体管,启用4nm和3nm制程技术,产品类别覆盖从桌面、服务器、客户端到嵌入式。从内部细节来看,Zen 5带来了更多每周期传送指令、双倍的缓存数据带宽和AI加速,改进了分支预测的准确性、吞吐量和延迟,增强的指令缓存延迟和带宽优化进一步促进了数据流和数据处理速度,同时不会牺牲准确性。Zen 5的整数执行能力也有所升级,具有8位宽调度/退出系统,优化了并行性;内部改进部分包括6个算术逻辑单元(ALU)和3个乘法器,通过更统一的ALU调度程序进行控制,并采用了更大的执行窗口,从而能支持更多的操作。其他增强功能还有更高的数据带宽,配备48KB 12路L1数据缓存,可满足4周期负载。AMD将L1缓存的最大带宽和浮点单元翻番,并改进了数据预取,以确保更快更可靠的数据访问与处理。此外,上一代Zen 4支持AVX-512指令是使用两个相互协作的256位数据通路,而Zen 5拥有完整的512位AI数据通路,使用具有完整512位数据通路的AVX-512,并将浮点加法的延迟从3个周期减少到2个周期。一些搭载于笔记本电脑的Zen 5移动处理器仍支持“双泵”256位。AMD提供了一些基础测试数据。相比上一代Zen 4,Zen 5将IPC平均提高了约16%,跑《孤岛惊魂6》游戏性能提升10%,并在数学加速单元上取得突破,单核机器学习性能提升多达32%,单核AES-XTS性能提升多达35%。对数据带宽、调度/退出和解码/操作缓存的优化,给Zen 5带来了非常均衡的性能增益。获取/分支预测的影响较小,但性能提升显著。
AMD相信NPU是AI PC不可或缺的功能,能提供远高于CPU和GPU的AI能效比。而AMD锐龙AI是世界上第一款集成NPU的x86处理器,也即AMD第一代的锐龙AI处理器锐龙7040系列。全新XDNA 2 NPU有32个AI引擎Tile,比上一代多12个,每个Tile的MAC数量是上一代的2倍,片上内存是上一代的1.6倍,AI性能达到50TOPS。与第一代的锐龙7040系列的NPU相比,XDNA 2的算力提高到5倍,能效翻倍。与其他NPU不同,AMD XDNA 2的架构设计构建于灵活的空间数据流架构之上。这是一个具有智能互连的二维AI计算阵列,可在运行时动态编程并重新配置以创建自定义计算层次结构。XDNA 2将灵活的计算和自适应内存层级结构相结合,使用互联的AI引擎(AIE)网络,每个引擎都经过精心设计,可以动态适应任务,提高可扩展性和效率。可编程互联大大降低了对内存带宽的需求,使其能高效分配资源。XDNA 2引入了对块状浮点Block FP16的支持,通过采用额外的技巧,试图以8位运算的性能和速度提供接近16位运算的精度。相比INT8和BF16,Block FP16能够更好地兼顾对高吞吐量、模型存储、大模型精度的平衡。与FP32基线相比,Block FP16几乎没有精度损失。AMD演示了在Block FP16数据类型上运行Stable Diffusion XL Turbo来实现超快速的图像生成。跑70亿参数的Llama v2大语言模型时,第三代锐龙AI NPU的速度达到英特尔酷睿Ultra 7 155H NPU的5倍。技术日现场演示了在第三代AMD锐龙AI处理器上运行Llama 2-7B的AI RAG,问答非常流畅。
在图形显示方面,AMD为新iGPU引入了RDNA 3.5,针对每瓦性能进行了优化。基于RDNA 3.5的Radeon 890M集成显卡最多有16个CU单元(GPU核心)。锐龙AI 9 HX 370配备了16个,锐龙AI 9 365配备了12个。AMD认为15W是平衡性能和效率的神奇数字。与上一代相比,配备RDNA 3.5的新处理器运行3DMark Timespy和3DMark Night Raid等图形工作负载时,在15W情况下性能分别提高了32%、19%。相比上一代,Radeon 890M的纹理采样率、插值和比较率都是上一代的2倍,有助于改善游戏画面的图形细节和纹理,显著提高其有效执行复杂图形操作的能力和速度。改进的内存管理技术降低了内存访问频率,能够实现更好的功率优化和数据处理,有助于延长电池寿命。从游戏基准测试结果来看,锐龙AI 9 HX 370畅玩7款热门游戏,性能比高通骁龙X Elite、英特尔酷睿Ultra 9-185H更具竞争力,帧数最高超出对手65%。由于兼容性问题,骁龙X Elite有3款游戏(《孤岛惊魂6》、《F1 2022》、《刺客信条:幻景》)都不能玩。AMD还演示了Radeon 890M集显在全高清分辨率下以60fps运行《对马岛之魂》,不过不确定有没有启用FSR3和帧生成。
AI正在改变工作、交流和娱乐的方式,算力需求也从数据中心逐渐下沉到终端设备。经过大半年的探索,AI PC已是科技圈绝对的潮流,从PC整机厂到ISV和芯片企业都在探索如何打造出最能击中消费者需求的AI PC样板间。随着搭载全新锐龙AI处理器的OEM产品首批AI PC在本月上市,AMD即将踩下油门,与苹果、英特尔、高通等入局者竞速。谁能为更轻薄、更智能、更长电池寿命的AI PC提供更强的动力,谁就有望在日益激烈的AI PC硬件竞赛中占据上风。从官方成绩来看,AMD显然不容小觑。在Zen 5架构上实现提高性能和能效的双管齐下,将进一步巩固AMD在游戏台式机市场的地位。AI性能登顶的XDNA 2 NPU,则使其移动处理器对于以AI生产力为卖点的新一代AI PC更具吸引力。AI PC市场方兴未艾。在通往拉满端侧智能体验的路上,AMD锐龙AI想成为AI PC市场上“唯一不妥协”的那个选择。
9月6-7日,芯东西联合智猩猩发起主办的2024全球AI芯片峰会(GACS 2024)将在北京召开。峰会主会场将进行开幕式、数据中心AI芯片专场、AI芯片架构创新专场、边缘/端侧AI芯片专场;分会场将进行Chiplet关键技术论坛、智算集群技术论坛和中国RISC-V计算芯片创新论坛。
目前,AMD人工智能事业部高级总监王宏强已确认参会并将带来主题分享,此外,清华大学交叉信息研究院、人工智能学院助理教授、北极雄芯创始人马恺声,珠海芯动力创始人兼CEO李原,锋行致远创始人兼CEO 孙唐,兆松科技联合创始人兼CTO伍华林,PhySim资深产品工程师黄建伟5位嘉宾也将出席。更多嘉宾将陆续揭晓,欢迎报名。