光子芯片能否承接AI带来的新算力需求？我们与曦智科技创始人沈亦晨聊了聊

2023-05-24 21:05

随着数字经济深入各行各业，对算力的需求也在同步暴增。特别是新一代AI浪潮正在席卷全球，ChatGPT的出现推动科技巨头们，争相推出生成式人工智能产品，随着模型规模越来越大，训练和推理成本也水涨船高。

在AI革命背后，一场芯片行业的潜在算力革命也正在酝酿——把电换成光。

随着摩尔定律接近极限，未来算力提升的空间很有可能在光子计算芯片技术上。数字芯片受限于底层元器件：CMOS晶体管，而光学信号和光学器件遵循不同的物理原理。

光学信号与散射介质的互动在大多数情况下是线性的，因此可以被映射为一种线性计算。生活中有诸多光学线性计算的现象，一个典型的例子是光学照相机的镜头，镜头前的光学信号在穿过镜头时，完成了两次二维空间光学傅立叶变换，然后在感光元件上成像，因此，照相机镜头可以被看作一种不可编程的光学线性计算单元，但拥有实用价值的计算单元必须具备可编程性。

矩阵运算正是当今AI大模型训练与推理所需要的，可编程的光子矩阵计算有望在摩尔定律失效后，继续支持算力的不断提升，为数字经济时代提供强劲的硬件基础设施。

相比传统电子芯片，光子芯片具有大带宽、高并行、低功耗的天然优势，结合光子矩阵计算（oMAC）、片上光网络（oNOC）和片间光网络（oNET）等技术，因此光电集成技术也是未来大容量数据传输、人工智能加速计算等领域最具前景的解决方案之一。

面对AI时代的算力变革，我们邀请到了曦智科技创始人沈亦晨博士，他于2016年获得麻省理工学院物理学博士学位，在Nature Photonics、Science等顶级刊物累计发表学术著作40余篇，申请全球专利近200项，获得授权30余项。2017年，他以第一作者和通讯作者的身份在《自然·光子》杂志发表封面论文，颠覆性的提出了一种以光学神经网络为蓝本的全新计算架构，开创了光子计算这一新的产业方向。基于此项突破，沈亦晨博士入选了《麻省理工科技评论》全球“35岁以下科技创新35人”。

沈博士在2017年创立了曦智科技，是光电混合计算领域的先行者，针对未来计算范式的大趋势，曦智科技拥有多项关键技术，为实现算力网络提供高效支撑。2021年曦智科技发布了全球首款64×64光子张量协处理器PACE，而电芯片达到同样阶段经历了数十年的历程。

面对这一令人兴奋的新趋势，我们访谈了沈博士，聊到了光芯片的发展历史、关键技术里程碑、在AI方面的优势、工程化中的难题、商业化如何一步一步落地等等问题。如果你对光子芯片、AI算力提升等话题感兴趣，不妨阅读一下这篇访谈文章，以下，Enjoy：

经纬：您最初是如何选择光芯片这个领域的？可编程的光子芯片技术，此前一直是空白，想必也是一个挺难实现的领域，在技术攻克的过程中如何克服这些难题？

沈亦晨：我自己是物理和数学的背景，博士时就选了应用物理和应用数学这两个方向。我当时觉得应用物理非常能够产生实际影响力，当时我看到了纳米光学这个方向。应用数学从2012年以后开始最大的应用方向，是深度学习、机器学习。所以很自然的，从我自己的背景出发，就想到了怎么把纳米光学和机器学习这两个领域结合起来，然后就有了当时的课题，以及之后的创业方向。

当时在做光计算这个课题的时候，还没有想到太多应用前景，更多的是因为这个课题在科学上的挑战性——因为大家都做不出来，我一定要把它做出来。当时我们做光计算课题的时候，这个领域还几乎不存在。

后来当我跟导师讨论的时候，导师听到这个想法觉得特别好，他认为我应该不只写一个理论的结课作业，而是应该把这个想法真正做出来。

那时还是2014年，AI还没有那么多人关注，AI是在2015年的时候开始火起来，然后在2016年谷歌的AlphaGo赢得了与围棋世界冠军李世石的人机大战，AI硬件相关也开始火热起来。

其实挺机缘巧合的，我们刚好在正确的时候，做出来了一件比较正确的事情，当然如果不是我们在当时第一个提出这件事情，可能会晚几年，但最终肯定还是会有人想到这个方向。

提出一个想法很简单，但当你把想法一步一步实现，到最终做出产品，这里面要经历千辛万苦。我们做了上百次的尝试，解决了无数大大小小的工程问题，最后才能做出一个集成了上万个光器件、能够稳定运行的产品，这里面有太多酸甜苦辣。

经纬：光芯片在通信方面，其实已经比较成熟，但在计算芯片方面很少有案例，两者几乎同时间出现，但走了两种不同路线，造成这种分野的原因是什么？

沈亦晨：用光来做计算，是远远比用光来通信要晚的。光通信从90年代开始就出现了，像海底光缆就是典型。但是芯片层面的光计算，是我们在2015年才第一次提出来。90年代也出现过一些光计算，但那时不是芯片级别的，而是用棱镜等分立式空间光学，来做的光计算，当时包括贝尔实验室等等都做了一些这方面的研究，但集成在芯片上的光计算，应该是最近十年才有的事情。

但在技术复杂度上，光通讯比光计算要简单很多，因为通讯只需要把信号从一个地方传到另一个地方，但计算不仅仅需要同时把几亿路信号从一个地方传到另一个地方，在传输过程中还需要完成一些逻辑运算，所以要复杂得多。

在集成度上两者也有很大的区别。光通讯类似于电话，一个电话、电缆，两端再加几个信号收发模块就可以了。但是一个光计算芯片上，至少要有几万个光的元器件，这比市面上所有通讯类产品可能高了三个数量级。

经纬：以往阻碍光计算发展的核心困难是什么？哪些地方的突破使得今天可以快速发展？

沈亦晨：主要是两方面，一是光计算是集成光学，而这个行业要想发展，背后需要供应链支持，比如我们是一家设计公司，但如果没有晶圆厂的生产能力，我们只是设计也没有用。从2010年开始，各大晶圆厂都开始有自己的硅光产线了，他们能直接量产硅光芯片，这是很重要的一个突破。而在2010年以前，全世界没有成熟的12寸硅光产线，这就意味着哪怕你有一个很厉害的设计，但也生产不出来这个产品。

另一个是算力需求，也可以说是应用场景。最近十年的算力需求增加，是过去五十年的总和。在1950年，算力需求是每18个月翻一倍，但是随着互联网、人工智能等等的发展，在过去八年里，算力需求是每年翻十倍，这也给光计算带来了非常大的机会。

经纬：光计算芯片的技术原理是怎样的？我之前听过一个凸透镜的比喻，但因为是计算芯片，还需要做到可编程化，特别是一颗光芯片上要集成上万个相关器件，这一点非常不容易，从技术原理上是如何实现的？

沈亦晨：首先光子芯片是很广的定义，拿电芯片来类比，电芯片不是只能做计算，电芯片也可以用来通讯、传感。光芯片也一样，比如激光雷达是光芯片、光通讯也是光芯片、光计算也是光芯片，每一种的技术原理是不同的。

如果定义为光计算芯片，可以理解为是用光的器件来完成两部分内容，一部分比较简单，是用波导代替电的铜导线来做芯片和板卡上的信号传输，这部分比较容易理解，其实就是换了一种介质，把电信号换成光信号，然后不是去通过光纤，而是波导上面集成度更高的信号传输，并且通道数量是几千个，而不是一根光纤。

另一部分是光在波导里面传输的时候，波导和波导之间出现的光信号干涉，我们用这个物理过程来模拟线性计算这一类的计算过程。打个比方，一个凸透镜是通过光在镜片里面传播的物理过程，去模拟了一个类似傅里叶变换的数学过程。在光芯片里也是一样，光在芯片上波导传播的时候，当两个波导靠得很近的时候，里面的光信号就会相互干涉，这个干涉的过程就刚好模拟了一个线性计算过程。当有很多个波导，比如128根波导形成一个网络互相干涉的时候，我们就可以通过控制这些波导的干涉，来模拟任何一个通用的矩阵运算。

经纬：我们知道，光芯片非常适合用作AI的矩阵运算，这背后的原理是什么？

沈亦晨：因为光是一种电磁波，而电磁场遵循麦克斯韦方程，所以本质上电磁场的运作就是麦克斯韦方程，而麦克斯韦方程是一个线性方程，所以电磁场的相互作用是一种线性的相互作用。

那么，为什么光的干涉最适合用来模拟线性运算？从第一性原理来理解，因为电磁波就是线性运算。比如我把两个手电筒的光让它交叉，这两束光是会相互直接穿过去，它们不会相互作用。但是如果把两个电子撞到一起，它们会变成一个电子或是互相反弹，所以电子是会相互作用的。这就是我们可以用光来做线性运算，而电子不行的主要原因。

经纬：英伟达、英特尔等等都开发了GPU或TPU计算架构，如果光计算在未来得到更大规模运用，比如应用在AI上，那么在计算架构方面，是去模仿电芯片的架构，还是未来会根据光的特点开发自己独特的架构？

沈亦晨：暂时我们还主要用电芯片的架构，这主要是商业化、渗透率的考虑。目前我们不希望从根本上改变整体计算架构，因为如果一下子改变整个计算架构，对商业化来说会非常不友好。我们的思考是一步一步来，当下先在不改变计算架构的情况下去做替代，比如把尽量多的铜导线替换成波导，先实现信号传输时几乎没有功耗。

同时，我们会把用于线性计算的部分，比如英伟达的GPU里就有专门做线性计算的计算核部分，可能占到整个芯片四分之一到三分之一大的大小，我们会优先把这部分换成光的计算核。

我们尽量不调整其他部分，对于软件开发者或是使用芯片的人来说，甚至不会注意到这个改动。这个过程就像燃油车到电动车的过程中，司机不用改变驾驶习惯，油门、刹车的位置都不变，但发动机其实换成了电机。

当然，我们在2021年也针对光的优势，开发过专门适合光的计算架构，它的优势确实很大，当时的实测数据几乎快了1000倍。但虽然更前沿，却有很大的兼容性问题，我们认为当下市场更需要的是在更通用的情况下，能快10倍的产品。

经纬：光芯片的性能如何，一个很重要的指标是一颗芯片上集成多少光的器件，目前能集成多少光器件？除了数量，还有哪些方式可以提升光芯片的性能？

沈亦晨：这是光子芯片与电子芯片不一样的地方。对于电子芯片来说，想要更快，基本上只能靠把晶体管做得更小，电集成度几乎是性能提高的唯一维度。但对于光芯片来说，把集成度做高并不是唯一维度，有好几种方法。一种是提高光器件的主频，现在光通讯产品的主频，已经从1GHz提高到50GHz，但电子芯片在过去二十年一直停留在1GHz。并且电芯片在主频方面的提升空间也已经用完了，但光还有50-100倍的提高空间。

另一种光芯片独有的提升维度，是光的波长数量。比如在同一个芯片中，同时通过红色、绿色和黄色的光，不同颜色的光之间是不会相互干扰的，这就能形成很好的并行运算。如今光通讯已经实现了16个不同波长的光同时做信号传输，所以光计算我认为至少也有10倍到几十倍的提升空间。

当然，器件集成度也是一个提高性能的维度。我们在2021年底就已经实现了把一万个光器件集成在一个光芯片上了，正在研发的新版本可能会放几万个光器件在芯片上。

经纬：光芯片未来的产业链会是怎样的？会涉及哪些核心的器件？

沈亦晨：有好几个部分。第一是调制器、探测器，基本上是光电、电光转换的元器件。第二，对于电芯片来说，波导相当于是铜导线。第三是干涉器，从某些程度来说它代替的就是晶体管。第四是激光的光源，以及波长的混波器，就是把几路不同波长的光合并成一路，或是把一路但有好几种颜色的光，把每种颜色分出来，这也是电芯片里没有的器件。大概有10种左右最基本的光器件，组成了一个集成光路芯片。

经纬：这么多器件要塞到一个芯片里，所以尺寸级别是纳米级？目前在生产环节，光芯片与电芯片有何异同？

沈亦晨：对的是纳米级。在生产层面，与电芯片相同的是，光芯片也是在当下成熟的晶圆厂里生产。不一样的是，光芯片有独特的光器件设计，这些设计是我们和晶圆厂独家合作开发。我们是一家设计公司，尽量利用好现有的成熟产业链。

经纬：从技术演进来看，您在2017年发表的论文，是光计算芯片领域的一个重要的里程碑事件。在2017年之后，这个领域有哪些新的重要变化？

沈亦晨：我们在2017年前后，主要是专注于解决线性计算这一件事情，之后我们越来越产品化和系统化，后来全行业其实也都发现，只解决线性计算这个事情还远远不够，尤其是在最近生成式人工智能的模型越来越大，更大的瓶颈出现在“片上”和“片间”的数据搬运上，包括从存储单元到计算单元，以及计算和计算单元之间的数据调度。

比如现在训练GPT大模型，需要几千张板卡一起协作，这时候单个板卡的算力不是瓶颈，而是这么多芯片板卡之间怎么协同。所以我们最近在研究的，是“片上”光互连和“片间”光互连，这两个方向就是为了让数据搬运更有效率，现在越来越多的光计算厂商都在着手解决这个问题。

比如片间互连，它和光通讯不一样，目前市场上所有光通讯产品都是基于以太网协议的，来做机柜或交换机之间的通讯。但是我们所说的“互连”，是指直接从一颗芯片到另一颗芯片，这是在一个计算体系内的通讯。

当然也有一些其他新方向，比如通过新型器件降低功耗，以实现更高的光电转换效率。以及光芯片最核心的几个器件：干涉器、调制器、探测器，其实每一个器件都有值得创新的地方，因为大部分功耗都是发生在这些器件上的，如果能够做出更低功耗、更高精度的器件，都有望开发出更好的产品。

经纬：您之前提过，您主要做的是光电融合的方案，这样的好处是不需要彻底改变架构，只需要进行模块替换。光电融合的最终输出，是还需要利用电子芯片来做？那这部分需要什么样的制程来支持？

沈亦晨：光电转换本质上只需要一个电信号的传输，制程是和晶体管相关，但是在光电转换的过程中，不需要用到晶体管，只需要用到铜导线就可以。从技术原理来说，就是一个发光二极管收到铜导线带来的电信号，就能把电转换成光信号。一个光的探测器，收到光信号之后自动就能产生一个电信号，再通过铜导线接出去，这个和制程没有直接关系。光电转换已经是几十年的成熟技术了，在光通讯领域也很常见，比如海底光缆的两端都还是电信号，这里面也涉及到光电转换。

经纬：您怎么预判光芯片的商业化路径？我记得现在已经有非常成熟的产品出来了。

沈亦晨：我们正在从多个维度来实现商业化。我们现在做的是在计算市场中，为对芯片通用性要求不高的客户设计专用推理芯片，将光芯片的优势最大化，同时做到一定体量的落地。

然后依托这些垂直领域，我们再去慢慢把产品做得越来越通用。这个路径和AMD、英伟达的发展历史也类似，英伟达最早是做游戏显卡，这也是当时很小的一个市场，是英特尔忽视的市场，然后英伟达慢慢做大，很多产品在AI的时代迎来了新一波爆发。

另一方面，除了做整个计算完整的解决方案以外，我们也会把某些单个技术模块化，比如光的矩阵运算，或是光的片上互连、片间互连，我们也会把这些技术模块化成为产品。如果拿智能电动车行业作类比，就像除了做整车以外，我们也可以对外卖电池、电机、操控系统等等。其实如果能把电芯片的某些环节，通过更高效的光的方式连在一起，同样也能带来算力提升，只不过这种提升没有整个替换那么大。但针对这一点，很多电芯片设计公司也有需求，我们同样也能在这些层面上实现落地。

经纬：刚刚您提到比较近的应用场景是专用推理芯片，这部分是指AI大模型的推理计算吗？

沈亦晨：对大模型确实是，但只是一部分，其实在很多对延迟特别敏感的行业，都可以有应用。光芯片一个很大的优势，是延迟特别低，计算速度特别快。比如金融行业，很多量化基金对延迟非常敏感。生成式人工智能大模型也是，现在跟ChatGPT聊天，得等几秒钟才能出回复，那未来肯定希望把延迟降到几毫秒。

经纬：光芯片的设计和生产中，肯定有一些工程化的难题，比如对温度等等物理条件的干扰跟电芯片会不太一样。目前有没有一些工程化的难点有待解决？

沈亦晨：这些都是工程上的问题。换个角度来说，其实电比光对温度更敏感。因为发热以后电阻就变了。对于光芯片来说，当温度变了一些以后，波导的损耗不会变，所以相比之下光芯片在温度方面表现更稳定。激光器可能会有一些影响，所以我们在设计计算系统时，会把激光器单独设计在其他地方，而不把它单独放在芯片上，尽量让其不要受芯片发热的影响。

对温度和热量等物理变化的控制，一直是所有芯片公司很重要的话题，我们一定得确保它不会因为这些变化而影响器件性能。

经纬：最后我想问你一个关于科学家创业的问题，这个问题也是硬科技公司经常遇到的。我们聊过挺多科学家出身的创始人，他们往往在更前沿、更完美的产品和市场实际需求之间产生纠结，但商业窗口期往往不等人，你在平衡这两者时，有什么特别经验吗？

沈亦晨：对我也经历过不少这样的时刻，我觉得过去三年中，公司最重要的改变也就在这里。首先我们也是一个由科学家组成的创业团队，前三年主要在做从零到一的基础技术，包括第一个原型机的开发。到了2020年以后，我们开始进入做产品的阶段了，这段时间还是很痛苦的，我们发现特别领先的技术，未必是适合商业化的技术，此时我们就要在中间找到平衡点，我确实也在越来越偏向于客户需求导向。

另一个策略是，我们从2021年底开始，把那些特别前沿的技术研发，转而与核心高校和科研院所合作，而把更多精力与研发资源，投入到与产品化相关的事情里去，要以解决客户需求为第一要务。

也许你还想看:

经纬2022年终盘点：乐观者前行，follow the white rabbit

经纬张颖：2023，不只克服困难而是习惯困难

经纬张颖：给科研/技术背景出身创始人的9条建议

ChatGPT之父Sam Altman：大型AI企业，将诞生于哪些领域？

ChatGPT的前世今生，以及未来

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章