可媲美Arm Neoverse V的RISC-V内核
来源:内容由半导体行业观察(ID:icbank)编译自semianalysis,谢谢。
由于团队、上市策略和绩效,Ventana 可能是最令人印象深刻的RISC-V团队。它们的产品也是最接近商业化的。Ventana 表示,他们的核心目标是从数据中心到汽车,从 5G Edge 到 AI,甚至是客户端,但我们认为最有利的价值主张将在数据中心、网络和 5G DU/RU 中,至少对于第一代是这样。
Ventana 的团队在业界有着悠久而传奇的历史,包括构建第一个 64 位 Arm 内核。该团队的大部分成员都经历了 Veloce、Applied Micro、Macom 和 Ampere Computing 的发展。Ventana 总共筹集了 1.08 亿美元,有足够的跑道来开发他们的第二代 CPU。
切入正题,Ventana 的 Veyron VT1 每核性能可与 Arm 的 Neoverse V 系列(Amazon Graviton 3中的 V1 和Nvidia Grace中的 V2 )相媲美,但时钟更高。
此外,它在 300W 功率预算内可扩展至 128 个内核。这与AMD 的 Genoa 可以做到的性能相当。Ventana 还可以实现两倍于亚马逊 Graviton 3 的核心数量,尽管功率更高。
另一个重要的区别是 AMD Genoa 和 Graviton 3 在硅片中测量并可供客户使用。Ventana 的性能数据是对第一季度流片后进行的实际测试的模拟。关于新产品的推出,我们通常认为在硅进入实验室之前都是空谈。假设这些第一方数据有 20% 的误差;Ventana 仍将粉碎英特尔当前一代的 Ice Lake,甚至粉碎英特尔的下一代 Sapphire Rapids,后者要到 2023 年年中才会大量出货。
在我们进入技术细节之前,我们想强调进入市场战略的优势。Ventana 不仅仅针对拥挤的通用 CPU 市场。Ventana 还在制造可以集成到通用 CPU 市场和各种异构计算用例中的 CPU 小芯片。
此外,Ventana 并不制造 IO Die,而是与相关公司合作。这开启了一个非常不同的整合和合作战略。IO 裸片可以从现有供应商处获取,也可以使用大部分获得许可的 IO 和 NOC IP 开发。
客户可以专注于他们的用例和特定领域的加速器。这些特定领域的加速器可以直接集成在 IO 裸片上,和/或可以开发小芯片。这种策略对于超大规模市场非常有效,因为这正是他们想要的商业模式。
像亚马逊、微软、谷歌、Meta、阿里巴巴、腾讯和百度这样的公司不喜欢听从供应商的心血来潮,因为他们增加了更多的利润堆叠层。相反,他们希望掌控并垂直整合更多的产品。
没有必要让每个超大规模计算器和 ASIC 都重新发明轮子。他们可以以比完全封装的 CPU 低得多的成本购买和集成高性能 CPU 芯片。此外,当涉及到异构计算和定制设计时,CPU 小芯片设计允许他们将加速器和 CPU 之间的功耗和延迟保持在最低水平。
只需约 2000 万美元,就可以在 TSMC 的 16nm 上开发和流片 IO 裸片。只需约 3000 万美元即可设计和流片台积电 7nm 上的 IO 裸片。这个 IO 芯片可以从几个内存控制器和几个 PCIe 端口扩展到大量的 IO 和网络。考虑到超大规模处理器的数量,通过将高性能 CPU 和专用 ASIC 精确组合集成到 IO 裸片中作为小芯片来创建新处理器的增量成本相对较低。
这种商业模式可以扩展到 DU 和 RU 中的 5G ORAN 处理器、边缘 AI、边缘网关、内存数据库、应用程序/网络托管、存储服务器、负载均衡器、缓存设备、内容交付网络等。正如摩尔定律的爬行和工作负载变得更加成为处理器的目标,除非采用开放的小芯片方法,否则专用加速器的工程成本将会飙升。
Ventana 使用开放计算项目的 ODSA BOW 标准进行封装。我们知道至少有 4 种不同的计算类型小芯片和至少 3 种不同的 IO 相关小芯片正在按照该标准制作。虽然从长远来看 UCIe 将成为赢家,但在 2023 年和 2024 年, BOW 将更加普遍。Ventana 计划在未来的版本中支持 BOW 或 UCIe。chiplets / IO Die 都使用 AMBA CHI 协议,与CXL over UCIe 相比,延迟和功耗要低得多。
虽然 AMD 确实拥有小芯片 CPU 架构和定制芯片业务,但他们没有使用开放协议。此外,AMD 也不愿意只向超大规模厂商出售 CPU 小芯片。AMD 希望控制从硅设计到任何定制硅交易的封装的垂直堆栈。这种策略导致更多的保证金叠加和更高的定价。AMD 的选择对他们的商业模式很有意义,但也为超大规模企业提供了分解它们的机会。英特尔的商业模式将遵循与 AMD 相同的路线,但他们的架构要到 2025 年才能实现这种程度的分解。
最终,Ventana 最强大的卖点是将定制硅的增量成本从目前的数百美元提高到数千万美元。当超大规模制造商只从无晶圆厂公司购买一些小芯片,而其余的芯片直接从代工厂购买时,针对特定工作负载的每个部署包的增量成本要低得多。
核心本身非常令人印象深刻。它是一个 8 宽的乱序内核,具有 512KB 的海量指令缓存。每个核心都带有一个 3MB 的 L3 缓存片,尽管这在未来的版本中很容易配置。核心目标很简单,但很难实现。最大的单线程性能、最大的核心密度、跨核心的高效扩展以及跨核心的可预测/低延迟。值得注意的是,VT1 没有 RISC-V Vector 扩展,因为这些扩展在设计过程中批准得太晚了。VT2 是一个相对较快的后续版本,将具有 RISC-V Vector 扩展。
chiplet Ventana 已开发出可扩展至 16 核的规模。人们会认为具有 16 个大型高性能 CPU 内核的小芯片会产生一个大芯片,但这也许是 Ventana 解决方案中最令人印象深刻的部分。该小芯片采用台积电 N5 工艺技术,尺寸为 62mm²。将其与N5 上的 AMD 8 核 Zen 4 小芯片进行比较,后者比 Ventana 的 16 核小芯片更大。
其成本效益更令人印象深刻。Ventana 还在设计其 CPU,使其更容易跨工艺节点移植。例如,Ventana 与 Intel 的 IFS 加速器计划有合作关系,我们相信他们会在 Intel 的 3 或 18A 工艺技术上使用 VT2。
上图显示了为 Ventana VT1 设计的多个软件包之一。这个特定的 IO 芯片包含重要的网络功能,例如以太网、数据包处理和DPU 中的CXL 2.0 。Ventana 使用 BoW 与此 IO 裸片进行芯片到芯片互连,每个方向的速度为 1Tbps。该链路从 PHY 到 PHY 连接的延迟小于 2ns,在 IO 裸片和 CPU 核心小芯片之间传输 <0.5pj/bit。
与 Intel 的 Sapphire Rapids 相比,这是更低的延迟(<2ns vs. 2.4ns)和更低的功耗(<0.5pj/bit vs. 0.5pj/bit),与 AMD 的 Zen 4 相比,这是更低的延迟和更低的功耗(<0.5pj/位对比 <2pj/位)。Ventana 小芯片封装是标准的 8-2-8 有机基板,带有130um 微凸块,而英特尔必须使用其成本更高的带有55um 微凸块的 EMIB 高级封装才能实现这些结果。
凭借正确的上市战略和令人印象深刻的表现,Ventana 可能会取得成功,但软件故事也是谈话的重要组成部分。Arm 从宣布进军服务器到大规模部署花了十年时间。RISC-V 将花费更少的时间,因为系统和软件更适合切换,但这是一个大问题。Ventana 和其他任何人一样清楚这一点,团队中的许多成员都经历过这些作为第一个 64 位 Arm 内核以及他们对 Ampere Computing 的遗产的初期痛苦。
Ventana 声称为许多应用程序准备了大量软件,特别是在低级、存储和网络应用程序上。通过使用具有 ISA 兼容性的基于 SiFive 的开发板,Ventana 已经能够在没有自己的芯片的情况下开发软件。从这个意义上说,将服务器软件生态系统引入 RISC-V 的挑战始于 3 年前。如果 Arm 花了 10 年时间,而 RISC-V 的加速时间表将花费一半的时间,那么我们距离数据中心中的 RISC-V 可能只有几年的时间。
当然,这是乐观的看法。我们预计 5G ORAN、网络和超大规模内部工作负载可能会更快跃升,但通用多租户云实例还有很长的路要走。带有 Ventana CPU 芯片组的开发套件将于明年年中上市,并于明年底批量发货。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3263内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者