400G来了!骨干网光通信的最新趋势
来源:鲜枣课堂
作者:小枣君
█ 400G,真的来了
大家也许都有所耳闻,从去年开始,国内运营商骨干网已经全面拉开了400G商用的帷幕。
先是2023年大量的商用验证,然后是集采的全面启动。2024年,是规模商用的正式落地。
不久前,2024年3月,中国移动开通了全球首条400G全光省际(北京-内蒙古)干线,被视为一个重要的标志事件。
骨干网升级400G的原因,是显而易见的。
一方面,居民数字生活(高清视频、远程会议、在线直播、在线游戏等)所带来的消费互联网流量增长,仍在持续。
另一方面,全行业都在推动数字化转型,来自行业数字化系统的流量激增,加剧了骨干网的压力。
骨干网压力陡增,还有一个关键的原因——AI大爆发。
AIGC大模型崛起之后,引发了一股AI浪潮。为了满足AI业务的需求,需要建设大量的智算中心。模型从千亿参数向万亿参数发展,GPU算力集群也从千卡集群走向万卡集群甚至十万卡集群。
小枣君在以前的文章中介绍过,GPU算力集群其实就是海量的GPU卡(GPU服务器)通过高性能网络(例如InfiniBand、RoCEv2)连接在一起的一个阵列。它对网络性能和可靠性的要求极高,直接影响到训练效率和成本。
仅从GPU服务器的网络端口速率来说,就已经从单口400G起步,甚至要用到800G或更高。
GPU服务器的网络端口
以前,GPU算力集群属于DCN(数据中心内部网络)的范畴。现在,随着集群规模不断扩大,已经开始考虑将分布式智算中心应用于模型训练。
也就是说,将异地的几个智算中心,一起用来进行训练。
这就对DCI(数据中心互联网络)提出了更高要求,光通信骨干网必须在技术性能上能够满足这一需求。
我们国家在算力上的战略,还是秉承了“全国统筹、整体布局”的思路。从2022年2月开始,我国启动了东数西算工程,打造全国一体化算力体系。
简单来说,一方面,我们要建设大量的数据中心(相当于电厂),另一方面,也要建设粗壮的骨干传输网络(相当于输电网),把这些算力给“流通”起来,满足各行各业的需求。
█ 400G,是如何做到的?
当前的光通信骨干网,作为整个数字社会底座的光通信网络,必须具备超大带宽(400G,将来800G甚至1.6T)、超低时延(多级时延圈)、超大规模组网(服务于分布式计算,以及刚才说的AI集群)、超高稳定性、超高可靠性、超高安全性、超灵活部署、智能运维管控等多方面特性。
今天,主要说说最重要的速率带宽。
光通信技术发展到现在,想要实现速率的提升,无非就是在以下几个方面做文章:
首先,是波特率。
传输速率,是比特率,是单位时间传送的比特个数,单位是bit/s。
比特率=波特率×单个调制状态对应的二进制位数。
波特率是单位时间内传送的码元符号(Symbol)的个数。波特率越高,每秒传输的符号越多,当然信息量就越大,速率就上来了。
波特率由光器件的能力决定。器件芯片制程越先进,波特率越高,速率(比特率)就越高。
目前,CMOS工艺从16nm提高到7nm和5nm,波特率也逐渐从30+Gbaud提高到64+Gbaud、90+Gbaud、128+Gbaud。
现在的400G能够商用,就是得益于波特率能够达到128Gbaud。
再看看调制方式。
刚才那个公式,里面的“单个调制状态对应的二进制位数”,就是调制方式决定的。
400G技术的调制方案,目前主要有16QAM、16QAM-PCS(PCS是概率整形技术,下次专门介绍)和QPSK三种,适用于不同的应用场景。
光通信和无线通信不太一样,不会一味追求高阶调制。
调制阶数越低,对线路的要求越低,建网成本也越低。所以,长途骨干网早期设计阶段的时候,基本上聚焦于16QAM和QPSK。后来有了16QAM-PCS,也加入了竞争。
以前没提“东数西算”、运营商们都认为400G不会需要太长距离的传输,所以,采用技术更成熟、价格更低的低波特率器件,配合调制阶数较高的16QAM,是行业的主流意见。
后来,一方面因为传输距离的要求增加,从1000多km变成几千km,再一个,128GBaud波特率器件迅速成熟(在DCN场景,800G迅速崛起,对产业链产生刺激和推动),为QPSK脱颖而出创造了条件。
QPSK对非线性的耐受能力更高,相比16QAM-PCS可以适当提高入纤功率。其次,QPSK的背靠背OSNR门限相比16QAM-PCS有优化。再有,设置QPSK的通道间隔为150GHz,使得在传输过程中几乎没有滤波代价。
这些优势,都使得QPSK逐渐成为行业在骨干网和DCI的一致首选。
三种方案的大概对比
现在,前两种方案,被考虑的应用场景更多是城域或省干。
第三,是扩展波段。
波特率和调制主要影响的是单波速率。一根光纤,是可以有多个波的,只要频谱范围足够大,就可以了。
单波带宽×单纤波数=单纤带宽。
前面表格写了,QPSK 400G的通道间隔达到150GHz。传统的C波段和扩展C波段都不足以满足频谱带宽的需求。
于是,现在逐渐采用了C6T+L6T的方式,一共是12THz的频谱带宽。计算一下,80个波,单波400G,一起就是单纤32T容量。如果牺牲一点距离,用在省干的话,部署QPSK或16QAM-PCS,容量还能再大些,达到48T。
关于波段的详细介绍,可以看这里:光通信到底有哪些波段?
扩展波段的最大问题,在于器件是否能够支持,且成本是否可控。这里所说的器件,包括ITLA、CDM、ICR、EDFA及WSS等,涉及到光的收发和光路交换、放大等。
波段扩展的话,还涉及到一个问题,那就是整合。
现在的波段扩展,其实更像是两套系统(C和L)的简单绑定。两套系统独立运作,通过合波的方式,进行传输,然后到了对端,再进行分波,各自继续处理。
两套系统的话,体积会更大,功耗会更高,设计也更复杂。所以,行业需要研究,怎么进行器件整合,真正让一套系统,同时支持不同的扩展波段。也就是实现真正的一体化。
光纤通信,除了光模块和光设备,还需要关注光纤。
现在的主流光纤是G.652D光纤。400G QPSK,在G.652D上,借助EDFA放大,也能传输1500km。
行业经过多年的验证,已经认定,G.654E光纤是新的继任者。如果用性能更好的G.654E,同等条件下,400G QPSK的传输距离,可以增加30%以上。
G.654E光纤已经具备规模化生产的能力,将在长途干线上进行大规模部署。G.654系列的一些低损耗光纤,也成为海缆系统跨洋超长距离传输的首选。
除了传统光纤之外。行业还认为,多芯光纤和空心光纤拥有广阔的应用前景。
多芯光纤是一种空分复用,在一个光纤里,塞入更多的纤芯,采用少模,可以大幅提升光纤的容量。
空心光纤就更牛逼了,直接把光纤做成空心,用空气取代玻璃纤芯。
空心光纤被证明可以带来更大的容量、更低的时延,更小的传输损耗,以及超低非线性,被行业一致认为是光通信里最具潜力的技术之一。
█ 400G的下一步,800G or 1.6T?
400G正式规模商用之后,整个行业的目光将会放在400G以上(beyond 400G)的技术标准体系上。
对于接下来是搞800G、1.2T还是1.6T,行业还在加紧论证。
如果想要实现更高的速率,就必须在“调制方式+波特率”上继续做文章。130GBd,或者更高的260GBd,是必然方向。更高波特率,意味着相关器件必须跟上,形成成熟的产业链。
超过400G,不能再指望QPSK了。16QAM调制,是行业目前普遍认可的选项。
波段也需要进一步扩展。在扩展C和L的基础上,考虑往S波段、U波段、E波段等进行扩展。如果是C+L+S,那就是12T+5T,达到17THz的频宽。
多方面因素相叠加,单根光纤单个方向传输速率超过100Tbps,指日可待。
在数据中心内部,800G(基于100GBd以上波特率,单通道100G)已经商用了。单通道200G、400G、800G,只是时间有早有晚。在这方面,国外的进度更快一些。
随着容量的不断提升,带来的技术挑战也不断增加。光通信的发展,说白了,依赖于器件、芯片、制程、材料。
想要满足前面提到的功耗、安全、运维等方面的要求,还依赖于工艺、架构、封装、人工智能、数字孪生等一系列的创新。产业链上下游需要做的工作,还有很多。未来的路,还很长。
█ 最后的话
光通信是整个社会的数字动脉。这些年,人们对很多技术(包括5G)都提出过质疑,但没有人会对光通信提出质疑,因为它是社会发展的刚需。
人类数据流量不断增加的趋势,在未来几十年都是不会变的。人工智能技术的高速崛起,会将这个趋势进一步放大。
光通信目前的发展,是无法满足需求的。这意味着,企业会有更大的动力,投入资源进行研发,以获得利润。
希望光通信产业能进一步爆发,为数智社会发展铺平道路。
参考文献:
1、《AI时代高速光传输关键技术、应用进展及未来展望》,信通院技术与标准研究所,张海懿;
2、《算力网络开启400G全光新时代》,中国移动研究院,段晓东;
3、《AI时代的400G全光算力互联网》,中国联通研究院,唐雄燕。
微信扫码关注该文公众号作者