Redian新闻
>
利用硅光,攻克带宽瓶颈

利用硅光,攻克带宽瓶颈

公众号新闻

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。

毫无疑问,人工智能和当今许多 HPC 工作负载的最大瓶颈是带宽。网络级别的带宽;套接字级别(socket level)的带宽;计算和内存级别的带宽。无论单个芯片可以高精度推动多少万亿次浮点运算,一旦您的工作负载超出单个加速器、节点或机架,带宽很快就会成为限制因素。


我们已经看到芯片制造商在多个层面上努力解决这个问题,他们将更多的高带宽内存封装到芯片上,提高互连速度,以及使用小芯片来突破标线限制。英特尔的“Ponte Vecchio”Max系列GPU和AMD最近发布的“Antares”Instinct MI300X GPU是后者的典型例子。在小芯片之间驱动数据本身确实会引入 I/O 瓶颈,但我们无法让芯片变得更大。


除了需要大于光刻机掩模版限制的socket之外,我们还需要更多的容量来满足现代人工智能和高性能计算工作负载的需求。在过去的几年里,我们看到了更密集的盒子、机架和集群的趋势。云提供商、超大规模提供商和 GPU 比特仓现在正在部署具有数万个加速器的集群,以满足人工智能应用程序的需求。目前估值超过 10 亿美元的硅光子初创公司 Lightmatter 相信自己已经占领了这个市场。


Lightmatter 首席执行官 Nick Harris 在接受The Next Platform采访时吹嘘道:“未来几年,世界上所有专为人工智能训练和推理或高性能计算而设计的 GPU 都将基于 Passage 构建。” 。


Lightmatter 的 Passage 是一款硅光子中介层,旨在支持高速芯片到芯片和节点到节点通信。硅计算和内存芯片可以连接到 Passage 的表面,而芯片之间的通信则根据彼此之间的距离以电气或光学方式进行。



需要明确的是,Passage 并不试图用光学互连取代所有芯片间互连,例如英特尔的Ponte Vecchio或 AMD Antares GPU 上的互连。


“假设您的Passage tile上有 HBM,HBM 和处理器之间的链接是电气的。当你扩展那些英寸尺寸的链接时,这些链接就是光学的,”Harris 解释道。就像光学 HGX:



Lightmatter 尚未透露客户名单,但看看英特尔、AMD 和 Nvidia 的现代计算平台,不难看出 Passage 的适合位置。典型的 GPU 节点是围绕载板构建的,载板通常以全面配置互连四个或八个加速器,以便它们可以作为单个计算单元一起工作。


然而,与使用芯片到芯片互连的可能性相比,socket到socket的通信可能慢一个数量级。“芯片到芯片毫米级互连具有一定的带宽,然后当您进入 PCB 级别时,带宽会下降 10 倍,”Harris 说道。


看看 Nvidia 的 HGX 板,该芯片制造商能够在使用 NVLink 的每个加速器之间实现约 900 GB/秒的带宽,即 7.2 Tb/秒。相比之下,Harris 声称 Lightmatter 有一个项目即将推出,芯片的带宽为 60 Tb/秒,即每个芯片的带宽为 7.5 TB/秒。


下面的分解展示了如何使用 Passage 将八个计算芯片网格化在一起,但并不限于此。Lightmatter 表示,如果您愿意,它可以在单个封装中安装多达 48 个掩模版有限的芯片。



硅和 Passage 之间的连接是电气连接,光电转换发生在中介层本身内。这意味着 Passage 可以重新映射以适应新芯片,同时也无需将光子学集成到计算本身中。


“我们所做的是改变 Passage 的平面图,以便我们可以映射其 I/O 引脚和电源引脚的位置,以通过 TSV 供电,”Harris 说。“然后,I/O 引脚将要么到达光学调制器,以在通道内或通道外发送数据,要么它们将穿过并到达板上的主机 CPU。我们让 Passage 看起来像一个纯粹的电气中介层。”



扩展到机架及其他范围



正如我们之前提到的,在合理的时间表上训练大型人工智能模型需要加速器。Nvidia 使用其 NVLink 交换机设备来连接机架上的 GPU,同时其 InfiniBand 或 Spectrum-4 以太网交换机为系统提供数据,从而实现了这一目标。


据 Harris 称,由于每个Passage tile的边缘都集成了光纤连接点,这种切换基本上是不必要的。正如我们在 2022 年 Hot Chips 上了解到的那样,每个连接点都提供高达 16 TB/秒的带宽,可用于将多个块互连在一起。


我们已经看到英特尔的 Habana Gaudi2 加速器采用了类似的方法,该加速器具有两打 100 Gb/秒以太网端口(21 个用于全网状网络,3 个用于节点到节点通信),从而无需额外的 NIC。


这里的区别是 Passage 还支持光路交换功能,可以即时编程。Harris表示,这有几个好处,特别是对于人工智能训练工作负载而言。


“当你编写人工智能训练程序时,你可以确定地知道执行情况。当程序运行时它不会动态改变。这样你就可以提前知道整个接线图需要是什么样子。这意味着你可以对大量计算机的拓扑进行编程,”他说,并声称 Lightmatter 现在有客户使用 Passage“扩展到 300,000 个节点的超级计算机”。


Harris没有透露这些客户是谁,但他确实表示,该公司正在与“大量购买”的主要半导体合作伙伴和云提供商合作。


Harris补充说,这些大型集群不是固定的,可以进行分区以满足不断变化的客户需求。“因此,也许一个 4,096 个节点的集群可以作为 256 个节点出租。它可以让你滑动并切分这笔巨额投资,”他说。



聚光灯下的硅光子学



过去几年,随着人工智能兴趣的增加推动了需求,以及对更快互连技术的投资(更重要的是对于初创公司本身而言),硅光子供应商已成为人们关注的焦点。


“人工智能——高性能计算的盟友,”哈里斯说。“人们只是在花无限的钱。空白支票簿,花你需要的一切来赢得人工智能竞赛,这对于光子学和 Passage 等技术来说是一个很好的环境。”


去年 12 月,Lightmatter 在第二轮 C 轮融资中筹集了 1.55 亿美元,使其总资金达到 4.2 亿美元,并将该公司推向独角兽领域。


话虽如此,Lightmatter 并不是唯一一家搭乘人工智能炒作列车的硅光子初创公司。今年早些时候,我们研究了另一家名为 Celestial AI 的初创公司,该公司已筹集 1 亿美元用于开发自己的硅光子互连技术。与 Lightmatter 的 Passage 非常相似,Celestial 的光子网格涵盖了芯片到芯片、封装到封装以及节点到节点的连接。


当然,还有 Ayar Labs,该公司自 2015 年起就一直在开发硅光子小芯片。该芯片制造商的 TeraPHY 于 2019 年首次出现,旨在为封装内和封装外的数据提供光学 I/O。9 月,我们研究了英特尔根据 DARPA 合同开发的令人尴尬的并行图形处理单元,该单元使用 Ayar Labs 扩展到数百万个线程。迄今为止,该公司已筹集约 2.2 亿美元,其中包括 2022 年初英特尔和 Nvidia 注入的 1.3 亿美元现金。


另外,早在 2022 年,Nvidia 就展示了未来光连接 GPU 系统的样子。


可以说,如今硅光子领域并不缺乏竞争。市场将需要它,因为我们将需要多种方法来突破带宽瓶颈。


原文链接

https://www.nextplatform.com/2024/01/04/how-lightmatter-breaks-bandwidth-bottlenecks-with-silicon-photonics/

点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3636期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析鲨鱼“旺季”已到来,攻击人引恐慌!专家警告:远离悉尼港Marvell披露下一代硅光平台硅光计算芯片,后摩尔时代人工智能算力基座没有瓶颈!瑞幸又发明了“刮刮乐”土耳其逆天了,攻入三个国家?布朗大学用人工智能攻克中国高考难题英伟达H200突然发布!最强AI芯片!容量翻倍,带宽狂飙!30+事业遇到瓶颈,如何重启人生?内心越脆弱的人,攻击性越强 | 社长日签叶书新西兰前总理Jacinda要结婚了!就在下周!NZ将攻克“癌症之王”,造福全世界!全球首座,商运投产!攻克一批关键技术技术、设施、资金等仍存在瓶颈,农村生活污水治理如何破局?比北海道便宜又能满足泡汤、逛街、购物欲的日本滑雪之旅,攻略来了!6042 血壮山河 卢沟桥之变 11国家重点研发计划项目成果发布——五项循证研究突破心血管事件链单病种防治瓶颈中华文明和科举制度英伟达H200突然发布:容量翻倍,带宽狂飙面经分享|掌握这个心态,一举攻克面试难关半夜鸡叫周扒皮和各国的工作时间达摩院攻克胰腺癌早筛难题!2024年会是AI4Science的真正风口吗?如何突破增长瓶颈,找到品牌的长期主义? | 生机·刀法年度品效峰会微众银行九年“蝶变”:用数字银行创新破解普惠金融发展瓶颈达摩院医疗AI攻克胰腺癌早筛难题,成果登上顶级期刊《Nature Medicine》海枫生物:打破药物有效性评价瓶颈,公共技术平台助力新药成果快速转化如何突破医改瓶颈?看看这家百年医院的做法。“小度智能屏”被爆后台 “偷带宽”,一个月上传数据高达 6T小红书,正在攻克“男”关减震利器,攻守兼备!海富通悦享一年持有期混合新发在即脑机接口安全吗?马斯克带团队来解密|中企荐读受张益唐启发,17岁少年攻克世界数论难题为什么看好硅光?《逃离横滨》 下我国首次攻克!具有完全自主知识产权
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。