Redian新闻
>
互联,成为核心技术

互联,成为核心技术

科技


今天,人工智能毫无疑问是全球最火热的技术,同时也成为了半导体行业最炙手可热的新市场。在人工智能技术中,目前看来影响力最大的技术将会是大模型技术,其核心特点就是通过使用规模巨大(参数可达百亿到千亿数量级)的模型,并且在海量的数据上训练,来实现人工智能能力的突破,并且赋能新的应用,其中典型的例子就是去年下半年开始获得万众关注的ChatGPT;而在未来,大模型的复杂度预计会进一步提升,以满足应用的需求。


训练和部署大模型需要强而有力的硬件支持,而这也是人工智能时代芯片成为核心技术的原因,因为大模型需要的算力归根到底来自于芯片,同时人工智能市场的发展也极大地推动了芯片行业的市场规模,以及相关芯片技术的演进。


在给人工智能大模型提供足够的算力用于训练和部署的核心芯片技术中,数据互联正在占据越来越重要的位置。芯片互联越来越重要主要出于两个原因:


首先,随着大模型的参数规模和训练数据容量快速提升,训练和部署最新的大模型一定会使用分布式计算,因为单机几乎不可能提供运行大模型的足够算力。在分布式计算中,随着分布式计算节点数量提升,理想情况下计算能力是随着计算节点数量线性提升,但是现实中由于不同计算节点间的数据交互需要额外的开销,因此只能接近而无法真正实现计算能力随着计算节点增加而线性增加。换句话说,随着模型规模越来越大,需要的分布式节点数量越来越多,对于这类分布式计算节点间的数据互联需求(带宽,延迟,成本等)也就越来越高,否则这类分布式计算中的数据互联将会成为整体计算中的效率瓶颈。


其次,从芯片层面考虑,随着摩尔定律越来越接近物理极限,目前以chiplet(芯片粒)为代表的高级封装技术正在成为芯片性能提升的重要方式。使用chiplet可以把单个复杂的大芯片系统分成多个小的芯片粒,每个芯片粒都可以用最合适的工艺去单独制造,因此确保复杂的芯片系统可以以合理的成本和良率来制造。对于人工智能大模型而言,用于训练和部署的芯片的规模都非常大,因此chiplet将会成为支持人工智能芯片的核心技术。而在chiplet方案中,多个chiplet之间的数据通信也需要数据互联技术,换句话说高带宽、高密度的数据互联将会成为使用chiplet搭建的人工智能加速芯片中的核心组件。


如上所述,在人工智能时代,数据互联将会成为核心技术,而其中最关键同时也是未来将会有最多发展的数据互联方案,就是用于分布式计算中的中长距离数据互联,以及用于chiplet场景中的超短距离数据互联。


用于分布式计算的数据互联:硅光子技术成为关键


人工智能大模型的分布式计算,包括训练和部署,通常都在数据中心中完成。我们在数据中心数据互联中看到两个重要趋势,即常规长距离通信的进一步规模化,以及新的短距离应用的崛起。


在常规的长距离数据中心数据互联领域,目前为了满足人工智能等应用的需求,互联速度正在快速提升,从今天主流的100/200/400Gbps光互联技术快速进展到800Gbps光互联技术,而到2026年更是预期会使用上1.6Tbps光数据互联。除了数据率提升之外,在人工智能时代,数据中心中每台服务器上对于数据互联的需求也在提升,因此单台服务器会需要更多的光数据互联模块。与传统的分立式光互联模块相比,基于硅光技术的光互联模块能实现更高的集成度:在硅光技术中,波导器件、光栅和调制器等核心模块都可以集成在同一块芯片上,从而可以大大降低光互联模块的成本,这对于人工智能应用来说是一个重要优势,因为训练大模型中需要大量的高带宽数据互联同时也不能提高太多成本。


随着对于数据互联带宽的要求进一步提升,数据中心中的光互联带宽也需要进一步提升,功耗则需要进一步降低,而从这个角度,硅光子技术搭配共封装光学(co-packaged optics,CPO)也会成为下一代光互联带宽和功耗优化的核心技术。



在共封装光学技术中,使用硅光子技术实现的光互联模块和使用传统CMOS技术实现的数字逻辑(例如光互联模块后接的网络模块)将会使用高级封装技术集成在同一个封装里——而在传统的实现中,光互联模块和其他CMOS芯片并不会集成在同一个封装里。通过使用共封装光学技术,光互联模块和其他芯片之间的互联距离大大缩小,从而减小了光互联模块与电信号接口的信号传输衰减,而这对于超高带宽通信至关重要,因为在这些超高数据率的应用中,真正限制数据率的往往不是光信号,而是光信号在转换成电信号之后的信号衰减(即last-mile问题)。另一方面,通过减小信号衰减,光互联模块的整体功耗可以减小。而共封装光学是基于硅光技术之上的,因为传统的分立式光模块因为体积太大,无法使用共封装光技术和其他芯片集成到同一个封装里。


除了目前已经为人熟知的数据中心中长距离光互联模块之外,在人工智能时代将会崛起的另一个光互联技术将是计算集群中的中短距离光互联。如前所述,在大模型时代,分布式计算将会得到广泛应用,而在具体的大规模分布式计算拓扑结构中,常用的结构就是首先由物理位置相邻的服务器组成一个集群(cluster),在这样的计算集群中执行需要大量数据交换的任务,而计算集群之间再使用长距离数据互联连接在一起以提升计算规模。在这样的计算集群中,目前常规的数据互联是使用铜绞线的互联;但是随着对于数据带宽、延迟和功耗的需求越来越高,使用在计算集群中的光互联正在成为越来越重要的技术路径。


与长距离通信不同,计算集群间的数据互联需要延迟极低、功耗也较低,但是由于互联距离较小(即色散效应较小)因此可以允许更多的波分复用,因此光互联可以考虑多个波分复用信道,每个信道的数据率较小(例如16-64Gbps),这样做可以尽可能减小对于数字矫正技术的依赖(使用数字矫正技术将会提升延迟,同时也增加功耗),以满足对于功耗和延迟的需求。此外,在计算集群中,我们会预期光模块和CMOS芯片(例如GPU或者HBM)更紧密地集成在一起,因此在共封装光学CPO技术之上,我们可能会看到集成度更高的晶圆级共封装光学(WL-CPO)技术,该技术可以为光学互联模块和CMOS芯片之间提供更多互联接口,从而进一步增加通信带宽。



用于chiplet的超短距离数据互联


除了长距离光互连之外,另一个人工智能时代的重要数据互联技术是用于chiplet之间通信的超短距离数据互联。



随着摩尔定律接近物理极限,使用chiplet来实现复杂芯片系统已经是业界共识。在人工智能时代,随着对算力需求的进一步提升,单芯片系统预计会用到越来越多的chiplet,同时chiplet之间的互相通信需求也会越来越大。长距离光通信数据互联的主要演进方向是共封装光学这类的新封装工艺,而与之相对地超短距离chiplet数据互联演进更多是依赖电路设计和系统设计。我们可以看到chiplet对于数据互联需求的两大方向:


1

更高的数据带宽,更长的通信距离(从毫米级别上升到厘米级别),更严格的功耗要求

2

更复杂的通信协议需求


先看第一个方向,这条需求对于chiplet数据互联的电路设计提出了越来越多的需求。随着chiplet数量越来越多,系统越来越复杂,势必chiplet之间的互连距离会越来越长,这也就意味着互联线上的衰减会更大,会需要更强的收发机;另一方面,随着人工智能对于chiplet间数据通信带宽的要求提升,每个chiplet上的数据互联模块数量也会增加,这就意味着单个数据互联模块的功耗不能过大以满足总功耗的限制。另外,随着数据互联需求的快速提升,单个数据互联模块的芯片面积又不能太大,这样才能满足chiplet上总互联接口的需求。因此,chiplet数据互联电路主要有两大指标,一个是能效比(J/bit),用来衡量数据率与功耗之间的关系;另一个指标则是数据率密度(bit/s/mm),用来衡量数据率与芯片面积之间的关系。随着chiplet数据互联需求的提升,未来我们可望会看到越来越高的数据率密度,同时越来越好的能效比。


第二个方向则是通信协议需求,这里涉及了chiplet之间协同工作的方式,例如在处理器系统中,如何确保chiplet之间缓存一致性的问题。未来随着chiplet系统越来越复杂,传输的复杂度也会提升,未来甚至可能会把目前NoC的模式搬到chiplet上。这对于chiplet数据互联IP的设计也是一个新的发展方向。


总体来说,对于chiplet的数据互联来说,随着人工智能相关需求的兴起,未来它可望会成为芯片IP领域一个越来越重要的品类,而具体的技术方向,则会沿着电路设计的优化和系统/传输协议复杂度提升的方向去演进。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3534期内容,欢迎关注。

推荐阅读


芯片双雄,决战Chiplet

半导体,还有变数?

MEMS,未来看什么?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
三名美籍被剔除!中微发布公告:调整核心技术人员「武汉象印科技」完成数千万元Pre-A轮融资,提供工业级三维激光雷达扫描技术为核心的数字技术解决方案|早起看早期追忆半个世纪前的苏州一日游战报!加沙已经被拦腰切断!哈马斯正在被消灭!泽连斯基访问以色列,一个以美国、以色列和乌克兰为核心的“统一战线”形成!Airbnb房东注意!加拿大秋季财报更新:严厉打击短租!再建30万套出租公寓,以自住房为核心大型舰船损失严重 俄军或将打造以快艇为核心的“蚊子舰队”闲聊7月经济数据点评——需求仍为核心矛盾首富的傲娇和价值观仅剩2席|学习核心技能,演练实操项目,复盘求职真题实训,华尔街大佬带你绝地求生,突出重围!名师观点丨陈劲:加快推进以科技创新为核心的全面创新突破关键核心技术!全球直径最大,下线→铸就中华文化新辉煌——以习近平同志为核心的党中央引领宣传思想文化事业发展纪实机构点评汇总:云赛智联,要素核心与智算主力马上抢位|以数据分析求职技能为导向,核心技能 + 实战项目 + 真题实训全覆盖!VLDB顶会论文解读 | PolarDB MySQL高性能强一致集群核心技术详解免费试听|交易销售/资产管理/风险管理/量化,三周掌握核心技能,玩转二级市场!学会什么核心技能,可以保证30岁后不被职场淘汰?【老键曲库】Sad sad, Sinead O\'Connor died连追四人夺回公章,信托行业的核心技能是“自由搏击”一家年GMV3亿的品牌对直播的反思:警惕起哄,保住基本盘,利润为核心聚力创新算力网关,中国电信推进算力网络关键核心技术攻关!「柏川数据」获千万元天使轮融资,强化以自动化标注为核心的数据智能服务|36氪首发大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型兔展智能:以视觉为核心大模型“兔灵”首次揭开面纱,聚焦内容生产精准可控小米新十年目标:持续投资底层核心技术,致力成为新一代全球硬核科技引领者|绿研院日报苹果本周或发布新iPad mini/Air /问界新M7累计大定突破6万台/天猫双11把全网最低价定为核心KPI39 份云原生核心技术文档免费公开,吃透 K8s/Docker!| 极客时间5123 血壮山河之武汉会战 富金山战役 11「武汉象印科技」完成数千万元Pre-A轮融资,提供工业级三维激光雷达扫描技术为核心的数字技术解决方案|36氪首发免费试听|核心技能+实操项目+真题实训,帮你轻松获取求职竞争优势!揭秘追觅洗地机创新黑科技,三大核心技术剑指两大痛点一次点火成功!又一关键核心技术取得突破!《科创价值报告》系列首期|《复旦张江:以“光动力+ADC药物”为核心成长驱动的临床治疗学领导者》「柏川数据」获千万元天使轮融资,强化以自动化标注为核心的数据智能服务|早起看早期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。