2023光模块行业研究报告(附下载)
导语
今日免费下载:2023光模块行业研究报告
来源:中信建投证券
关注下方“浑水报告”公众号,后台回复“领取”,可获3次报告下载机会!
1.ChatGPT 惊艳亮相,AI 带动光模块需求
1.1 ChatGPT 掀起 AI 浪潮,国内外科技巨头将展开竞赛
近期,ChatGPT 的爆红引发了人们对于人工智能发展的高度关注。2022 年 11 月 30 日,OpenAI 发布语言模型 ChatGPT。该模型采用对话的形式与人进行交互,可以回答后续问题、承认错误、挑战不正确的前提、拒 绝不适当的请求。ChatGPT 不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。
ChatGPT 用户数攀升。据瑞银集团数据显示,ChatGPT 推出仅两个月后月活用户已经突破 1 亿,成为史上用户增长速度最快的消费级应用程序。根据 Sensor Tower 数据显示,TikTok 达到 1 亿用户用了 9 个月,Instagram 则花了 2 年半的时间。2023 年 1 月,ChatGPT 平均每天大约有 1300 万独立访客,是 2022 年 12 月的两倍之多。
ChatGPT 运行背后需要强大的云计算算力支撑。OpenAI 在 2018 年推出的 GPT 参数量为 1.17 亿,预训练数据量约 5GB,而 GPT-3 参数量达 1750 亿,预训练数据量达 45TB。在模型训练阶段,ChatGPT 的总算力消耗 约为 3640PF-days,总训练成本为 1200 万美元。在服务访问阶段则会有更大消耗,据测算,仅满足当前 ChatGPT 日常用户搜索访问,使用服务器(GPU)进行处理,对应算力基础设施初始投入成本约为 30-40 亿美元。2 月 7 日晚,ChatGPT 再次因访问量激增而宕机,体现出 AI 应用对于云计算的海量算力需求。
1.2 AI 训练侧或改变数据中心网络架构,光模块需求有望明显提升
以 ChatGPT 为代表的 AIGC 技术,依靠强大的 AI 模型和海量数据,能够在多个应用场景下产生优质的内容,有望推动人工智能更广泛的应用。算力作为 AIGC 技术的重要支撑之一,是影响 AI 发展与应用的核心因素。算力基础设施成了目前行业亟需布局的资源,除了 CPU/GPU 等算力硬件需求强劲,网络端也催生了更大带宽需求,以匹配日益增长的流量。与传统数据中心的网络架构相比,AI 数据中心的网络架构可能存在一些变化。
在传统的数据中心中,网络侧主要包括传统树形三层架构和叶脊架构。早期的数据中心一般采用传统的三层结构,包括接入层、汇聚层和核心层,其中接入层用于连接计算节点与机柜交换机,汇聚层用于接入层的互联,核心层用于汇聚层的互联且实现与外部网络连接。随着数据中心内部东西向流量的快速提升,三层网络架构的核心层和汇聚层任务加重,性能提升需求高,设备成本将大幅提升。因此,适用于东西向流量的扁平化的叶脊网络架构应运而生,叶交换机直接与计算节点相连,脊交换机相当于核心交换机,通过 ECMP 动态选择多条路径。叶脊网络架构具备带宽利用率高、扩展性好、网络延迟可预测和安全性高等优势,在数据中心中实现广泛的应用。
AI 数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一。英伟达的 AI 数 据中心中,采用了胖树(fat-tree)的网络架构来实现无阻塞的功能。胖树的网络架构基本理念为:使用大量低 性能的交换机,构建出大规模的无阻塞网络,对于任意的通信模式,总有路径让他们的通信带宽达到网卡带宽, 架构中用到的所有交换机都是相同的。胖树网络架构一般用于网络要求较高的数据中心中,如超算中心和 AI 数据中心等。
在英伟达 DGX A100 SuperPOD 的 AI 数据中心系统中,三层交换机全部为 Nvidia Quantum QM8790 的 40端口交换机。第一层交换机与 1120 张 Mellanox HDR 200G Infiniband 网卡连接;第二层交换机下传端口与第一 层相连,上传端口与第三层互联;第三层交换机只有下传端口,与第二层相连。此外,存储侧独立组网,与计算侧网络架构分开,也需要一定数量的交换机和光模块。因此,相比较传统数据中心,AI 数据中心中的交换机及光模块数量大幅提升。
英伟达的 A100 GPU 主要对应 200G 光模块,H100 GPU 可以对应 400G 或 800G 光模块。每个 A100 GPU 配一张 Mellanox HDR 200Gb/s Infiniband 网卡,每个 H100 GPU 配一张 Mellanox NDR 400Gb/s Infiniband 网卡。英伟达在 H100 SuperPOD 的设计中,采用了 800G 的光模块,在光口采用 1 个 800G 光模块可以替代 2 个 400G 光模块,在电口也可以将 8 个 SerDes 通道进行整合,与光口的 8 个 100G 通道一一对应。因此这种设计下,交 换机的通道密度提高,物理尺寸显著降低。
光模块速率由网卡决定,网卡的速率受限于 PCIe 通道速率。英伟达 A100 的 DGX 服务器内部通过 NVLink3 连接,单向带宽为 300GB/s,但是 A100 GPU 连接 ConnectX-6 网卡是通过 16 个 PCIe 4.0 通道,带宽总和为 200G 左右,因此网卡带宽为 200G,需要连接 200G 的光模块或者 DAC 电缆。H100 的 DGX 服务器内部通过 NVLink4 连接,单向带宽为 450GB/s,但是 H100 GPU 连接 ConnectX-7 网卡是通过 16 个 PCIe 5.0 通道,带宽总和为 400G 左右,因此单个网卡带宽为 400G。可以看出,光模块速率是由于网卡与 GPU 之间的 PCIe 带宽所决定。假设 A100 和 H100 的 DGX 服务器内部所用 PCIe 通道速率达到 800G(即 PCIe 6.0),那么也可以采用 800G 带宽 的网卡,即也可以采用 800G 光模块,大大提升系统计算效率。
NVLink 带宽远大于网卡侧的 PCIe 带宽,因此若将 NVLink 从服务器内部 GPU 互连拓宽至不同服务器之间的 GPU 的互连,将显著提升系统的带宽。若要实现不同服务器之间按照 NVLink 协议的 GPU 互连,除了需要采用 NVSwitch 芯片的物理交换机,还需要物理器件来实现交换机和服务器之间的连接,那么光模块也成为 了重要的组成部分,从而也会大幅增长 800G 光模块的需求。目前该方案仍然处于前沿研发阶段,若要规模化商用仍需时日。但是 NVLink 较高的带宽仍然是非常具有吸引力的,一旦方案成熟,有望快速实现广泛应用。
训练侧光模块需求与 GPU 出货量强相关,推理侧光模块需求与数据流量强相关。AI 对光模块需求的拉升主要分为两个阶段,训练和推理。其中,训练侧的网络架构以胖树架构为主,因为在大模型训练过程中,对于网络性能的要求很高,网络无阻塞是重要的需求之一,比如腾讯用于大模型训练的星脉网络采用了胖树架构。同时,我们认为大部分厂商会采用 Infiniband 协议的网络,时延远低于以太网,可以提升计算效率,缩短模型训练时间。训练侧光模块的需求与所用 GPU 显卡的数量强相关,根据胖树架构中 GPU 和光模块的比例关系可以得到所需光模块的数量,A100 对应 200G 光模块,H100 对应 400G 或者 800G 光模块。推理侧面向用户侧,网络架构更接近于传统云计算数据中心的叶脊架构,主要用于承载 AI 应用带来的数据流量增量。传统云计算主要是 ToB 市场,用户数量不多,若未来出现图片或视频相关的爆款 AI 应用,一方面用户数量有望大幅提升,另一方面单个用户产生的数据流量可能会显著增长,因此数据总流量将暴增,所以推理所需的算力和流量实际上可能远大于训练,因此对于包括光模块在内的网络设备需求将起到有力的支撑和提振。
1.3 800G 光模块量产窗口已至,2024 年或成 800G 大年
北美云厂商收入及资本开支增速有所放缓,若不考虑 AI 增量,今年传统云计算市场需求预计将持续低迷。2022Q4,北美三家云厂商亚马逊、谷歌和微软的云业务收入总计 502 亿美元(其中 Meta 的云相关收入未披露), 同比增长 20.7%,环比增长 5.2%,增速有所放缓。2022Q4,北美四家云厂商的资本开支为 395.04 亿美元,同比增长8.1%。其中,Meta的资本开支为90.43 亿美元,同比增长68.4%,微软同比增长6.97%,谷歌同比增长18.99%,亚马逊同比降低 12.37%(2015Q4 以来首次单季度负增长)。海外云厂商的Capex增速放缓,也影响了数通光模块市场的需求,若不考虑 AI 增量带来的拉动,传统云计算市场的需求处于低迷状态。
2022Q4,亚马逊的云业务收入为 213.78 亿美元,同比增长 20.2%,环比增长 4%;2022 年云业务收入为 800.96 亿美元,同比增长 28.77%。公司提到了 AWS 客户在考虑削减在云上的开支,公司也注意到了 AWS 营收的持续放缓趋势。2022Q4,亚马逊的资本开支为 166 亿美元,同比下降 12%,环比上升 1%。2022 全年资本开支 636 亿美元,同比增长 4%,与三季度指引基本一致。公司对于下个季度及 2023 年的资本开支未给指引。
AWS 推出 AIGC 相关的重磅产品,包括生成式 AI 平台 Bedrock 服务,支持用户通过 API 访问亚马逊自己的 Titan(泰坦)大模型,由两个全新大语言模型组成;同时支持调用来自 AI21 Labs、Anthropic、Stability AI 等第三方的多样化模型;此外还推出了两款专门针对生成式 AI 优化的计算实例 EC2 Trn1n 实例和 EC2 Inf2。其中,为了提升 EC2 实例的训练效率,AWS 采用了第二代 Elastic Fabric Adapter(EFA),网络带宽为 800Gbps。因此,我们认为亚马逊有望在 AI 上增加资本开支,继 400G 光模块之后,公司有望在大规模采购 800G 光模块。
2022Q4,Meta 的资本开支为 90.43 亿美元,同比增长 68.4%。2022 全年资本开支为 314 亿美元左右,同比 增长 69%。公司预计 2023 年资本开支为 300-330 亿美元,低于公司之前 340-370 亿美元的预期,主要原因是数据中心建设的成本降低,因为新的数据中心架构性价比高,可以同时支持 AI 和 Non-AI 的工作载荷。根据 LightCounting 数据,2022 年 Meta 仍有 40 多个数据中心正在建设和升级,但是对于 200G 的需求有削减,也影 响了今年传统云计算市场的景气度。在 AI 方面,Meta 开源了 LLaMA 大模型系列,参数量为 70 亿-650 亿左右;Meta 近期也发布了图像分割大模型 SAM,可以处理包含多个具有不同形状、大小和外观的对象的复杂场景。同时,Meta 承诺建立人工智能基础设施,并追赶亚马逊和谷歌,这些采用 400G 光模块的场景有可能将采用 800G 光模块。因此,我们认为 Meta 在 2024 年可能大规模采购 800G 光模块。
2022Q4,谷歌云业务收入为 73.15 亿美元,同比增长 32.02%,环比增长 6.51%;2022 年云业务收入为 262.8亿美元,同比增长 36.8%。公司云业务仍然是未来重要的项目之一。2022Q4,谷歌的资本开支为 75.95 亿美元,同比增长 18.99%,环比增长 4.4%。2022 年资本开支为 314.9 亿美元,同比增长 28%。公司预计 2023 年的资本支出将与 2022 年基本持平,但资本开支的结构将有所改变,公司将增加对技术基础设施的投资,包括对 AI 及云服务的建设投资,同时将缩减办公设施的资本支出,进一步提高整体投资效率。谷歌今年是 800G 光模块市场的主要需求厂商,明年需求量有望持续快速增长。
2022Q4,微软智能云业务收入为 203.25 亿美元,同比增长 19.81%,环比下降 2.8%。2022Q4,微软的资本 开支为 62.83 亿美元,同比增长 8.14%,环比下降 8.56%。公司预计资本开支将持续增长,考虑到在云基础设施建设的时间安排方面,季度间支出会出现正常波动。微软在 AI 大模型方面发展较为快速,作为 OpenAI 的重要投资方,微软可以在 Azure 云上提供 OpenAI 的产品,同时也有融合 ChatGPT 的 New Bing 搜索引擎以及智能 Office 工具 Copilot 产品。微软在应用侧借助 OpenAI 的产品取得先发优势,对于算力的需求也将保持强劲。微软开源 Deep Seed Chat,降低训练门槛,有望带动推理侧更大的需求。因此,我们认为微软对于 800G 光模块这种高性能网络设备的需求也有望大幅提升。
800G 光模块 2022 年底开始小批量出货,2023 年需求主要来自于谷歌和英伟达,2024 年有望大规模出货,并存在时间前移的可能。从交换机的电口来看,SerDes 通道的速率每四年翻倍,数量每两年翻倍,交换机的带 宽每两年翻倍;从光口来看,光模块每 4 年升级一次,实际出货时间是晚于电口 SerDes 及交换机芯片新版发布的时间。2019 年作为 100G 光模块升级的时间点,市场分成了 200G 和 400G 两条升级路径。但是在 2023 年这 个时间点,市场下一代高速率光模块均指向 800G 光模块,叠加 AIGC 带来的算力和模型竞赛,我们预计北美各大云厂商和相关科技巨头均有望在 2024 年大量采购 800G 光模块,同时 2023 年也可能提前采购。
多家光模块厂商具备 800G 光模块能力,国内多家厂商具备较强的竞争力。在 2023 年的 OFC 光博会上, 各家光模块公司均推出了自己的 800G 光模块产品,涵盖不同封装方式、材料和传输距离等种类。值得一提的是,国内厂商在 100G 和 400G 光模块时代已经取得了显著的进展,跻身全球先进水平。在数通 800G 光模块时代,以中际旭创和新易盛为代表的国内厂商有望延续 400G 时代的竞争力,同时华工科技、剑桥科技、博创科技、光迅科技和德科立等公司也有望取得突破。
2.光器件种类丰富,应用广泛
光器件,即采用光学技术的器件,一般是介于光学芯片、元件和光学模块、设备之间的产品形态。随着光学技术在通信、云计算、消费电子、工业、医疗等领域的广泛应用,光器件作为重要的基础组成部分,在各种光学设备和模块中起到了关键的作用。光器件种类繁多,按照不同的分类方式,可以分为多种产品。按照是否有外接能源分为有源光器件和无源光器件;按照功能分类,包括光收发器件、波分复用器件、放大器件和开关器件等;按照产品形态分类,包括光纤类器件和自由空间类器件等。
2.1 光有源器件是核心器件,推动光学技术的发展和应用
有源光器件,即外接能源的光器件,包括激光器、探测器和调制器等产品。有源光器件是各项光学技术应 用的核心驱动部分,其门槛也相对较高。例如,在光通信中激光器和探测器负责光电信号的转换,调制器负责 信号调制;在激光雷达中激光器负责产生发射光信号,探测器负责接收反射回来的光信号以实现测距等功能;在光纤激光器中产生高功率的激光,实现焊接、打标和切割等目的;在医疗检测等领域,激光器发射探测光信 号,探测器接收反射回来的信号来检测相关样品。
2.1.1 激光器是现代光学领域的“心脏”,为光通信、激光雷达等领域持续输血
什么是激光?在英文中,激光是 laser,即 light amplification of stimulated emission radiation,通过受激辐射 产生的光放大。什么是受激辐射?受激辐射指的是外来光子与处于高能级的电子发生作用,诱导电子跃迁到低能级,释放出一个与外来光子具有相同频率、相位、传播方向和偏振状态的光子,从而具备相干性。什么是自 发辐射?与受激辐射相反,指的是在没有外来光子的情况下,处于高能级的原子或者谐振子向低能级自发跃迁产生光子,这些光子的传播方向和偏振态等性质是无规律分布的,因此不具备相干性。
产生激光一般需要满足三要素和一前提。三要素即泵浦源、增益介质和谐振腔,一前提即粒子数反转。泵浦源,把能量提供给低能级的电子,使其跃迁到高能级,能量供给方式有电泵浦、光泵浦、化学泵浦和核泵浦 等;增益介质:被激发、释放光子的电子所在的物质,即促使激光被放大的物质,一般激光的波长由增益介质的材料所决定;谐振腔:被激发的光在谐振腔中来回谐振,每次经过增益介质功率都会被放大。粒子数反转:二级系统中,电子自低能级向高能级跃迁和自高能级向低能级跃迁的概率是一样的。为了实现光放大,高能级需要有更多的电子,从而使受激辐射发生的概率更高,这个状态称为粒子数反转。
激光器分类繁多,应用广泛。激光器是利用受激辐射原理进行发射激光的器件,下游应用广泛。激光器按照不同种类分为不同激光器。如按照泵浦方式来区分,分为电泵浦激光器、光泵浦激光器等;按照输出波长分 类,分为红外激光器、可见光激光器和紫外激光器等;按照增益介质来分,包括液体激光器、气体激光器和固体激光器,固体激光器中可以分为光纤激光器、半导体激光器和全固态激光器等;按照工作方式分类,分为连续波激光器和脉冲激光器,脉冲激光器按照脉冲的宽度分为毫秒激光器、纳秒激光器和飞秒激光器等。
激光器二极管和发光二极管在线宽、相干性和发光方式上差异较大。半导体激光器中常见的是激光二极管 LD(Laser Diodes),激光二极管经常拿来和发光二极管 LED(Light Emitting Diodes)比较。两者均为二极管,采用 PN 结为基本结构,通过向有源区注入载流子,少数载流子和多数载流子之间复合时将能量以光子的形式释放出来。相比较 LED,LD 有源区多了增益介质,同时两个侧面平整且镀膜形成光学谐振腔,因此 LD 出射的是激光,具有较强相干性,光谱线宽较窄,而 LED 出射的光斑相干性较差,发射角较大。
半导体激光器 LD 按照发射光所在位置分为 EEL(边发射激光器)和 SEL(面发射激光器)。其中,EEL 是常见的一类半导体激光器,指的是出射激光一般在激光器芯片的端面,且平行于激光器芯片所在晶圆的表面。EEL 一般包括 FP 激光器、DFB 激光器和 DBR 激光器等,一般腔长较长(在几百 um 到几 mm 之间),光在谐振的过程中能够获得足够的增益,因此激光器出射功率较高。EEL 的两个端面可以作为谐振腔的反射面,因此需要抛光和镀膜等处理。SEL 也是广泛应用的激光器,指的是出射激光一般以面发射的形式存在,垂直于所在晶圆的表面。VCSEL 激光器是最为常见的面发射激光器,全称为 vertical cavity surface emitting laser。该激光器具备高集成度、低温漂系数、光斑较圆及封装测试成本较低的优势,但也有工艺复杂、成本相对较高等缺点。
——END——
海量报告,点击【报告搜一搜】小程序 免费下载
【PS:点击详情可查看内容】
点击微信小程序👉:"报告搜一搜";免费下载各行业研究报告pdf和word、可视数据、学习资料。提供研究报告、市场研究报告、行业报告、行业研究报告、调研报告、市场调查报告...
微信扫码关注该文公众号作者