卢涛：后登纳德时代，IPU架构引领Transformer向高阶版演进

2023-09-19 09:09

在人工智能蓬勃发展的今天，人们对算力的需求达到了前所未有的高度，这为芯片行业带来了空前的挑战和机遇。同时，人们也不禁思考，芯片行业未来的发展方向究竟是怎样的？

9月15日，在2023世界计算大会上，Graphcore总裁兼大中华区总经理卢涛受邀出席，并发表演讲，分享了其对于芯片行业工艺的洞察以及对未来行业发展的宝贵洞见。

行业困境：

堆砌晶体管提升性能非长远之计

除了我们众所周知的与芯片上晶体管数量相关的摩尔定律，业内还有一个著名的衡量芯片尺寸与功率的关系的登纳德定律——当一个工艺发生跳变时，晶体管数量虽然可以达到两倍，但如需保持同样的功耗，就无法全部激活使用晶体管的数量，因为这意味着用料和功耗的增加。

所以实际上根据摩尔定律来看，如果晶体管数量一年可以提升30%，但因为有登纳德定律的限制，性能的提升只有15%。

产品困境：

受限于结构，算力、功耗难两全

关于现阶段芯片产品现状，我有两点思考：

第一点思考是芯片产业的特点。放眼今天 AI计算和高性能计算，处理器在做不同的算术运算时，所消耗的能量是大不相同的。在50瓦的功耗下，FP16.32和FP64各自边际算力的对比为2pJ与32pJ。结合登纳德的定律，如果要设计一枚功耗200瓦的800平方毫米芯片，其中真正活跃运行的晶体管大概只有33%，剩下的67%称之为“暗硅”，即非活跃的跳变。

另外，芯片的性能和功耗也受内存影响。同一个字节，将其从外部DDR搬到处理器的核心，其功耗大概是320pJ，但从芯片内部的SRAM搬运到处理器核心中，则仅需10-64pJ。如果把片内每个SRAM分布式地“扣”在处理器核心的旁边，这时传输一个字节大概仅需要1pJ。所以在设计一款处理器的时候，需要在架构方面做一些权衡。

例如GPU，其面积的35%用于AI计算，55%为“暗硅”，还有10%作为SRAM。“暗硅”通常用于高精度计算或图形图像运算等业务。所以在 AI计算时，实际有效的业务点是其中的35%加10%。而从能耗的角度，GPU将90%分布在算术计算上，10%分布在片内的SRAM。而 IPU则采用25%的面积用于计算，75%面积用于RAM的规划方式，并实现了计算和存储各一半的功耗表现。

第二点思考，以机器智能为代表的全新计算业务的显著特点是大规模并行、稀疏化以及低精度计算。众所周知，FP16.32是目前用于训练的主流精度，但如今厂商们都在寻求如FP8之类的低精度计算。

结合芯片产业的特点和AI计算任务的需求特点，Graphcore打造了IPU处理器。不同于标量处理器CPU和向量处理器GPU。IPU是针对人工智能、高性能计算而构建的处理器，具有大规模并行和超高速内存访问的特点。

基于IPU，Graphcore推出了Bow-2000和C600。Bow-2000以训练见长，采用了便捷的模块化设计，可以像搭积木一样进行堆叠，根据模型和数据规模的大小，非常便利地进行横向和纵向扩展。C600以推理见长，是一款能效比非常好的产品，在185瓦的功耗情况之下，我们做到了（FP16的运算中的）280T的算力，比当前主流的GPU在应用上表现更佳。值得一提的是，C600是行业中率先支持FP8浮点运算的数据格式的产品之一。

软件生态：

以开放态度，打造习惯友好型的开发模式

对于人工智能的开发者和使用者来说，软件生态也是十分重要的，Graphcore不仅有底层的软件，向上更支持主流的机器学习的平台，像TensorFlow、PyTorch，还有国内百度的Paddle Paddle、阿里云的Halo等。这些都是构建一个处理器所必需的软件工具。我们对大量的机器学习的平台软件做了集成。

Graphcore希望 IPU能在计算架构方面充满创新性，为开发者提供对他们过往开发习惯尽量友好的开发模式，以便他们在IPU上进行开发。因此，Graphcore构建了一套名为PopRT的开发工具，帮助开发者实现零代码推理部署已经训练好的模型，同时带来低延时和高吞吐量，极大地缩短AI业务商业变现的时间窗口。如今，开发者的应用基本上是基于GPU开发的，而通过PopRT进行编译、转换，最后可以直接在IPU上运行。可以说如今主流的模型都可以通过PopRT进行零代码转换，最终在IPU上运行起来。

近期Graphcore加入了PyTorch基金会，以更好地开展开源PyTorch框架和生态系统方面的合作。我认为，作为一家科技企业，在当今世界的格局之下，企业发展的下限自然是合规，而上限是开放，只有保持足够开放的态度，才能不停地探索自己的天花板。这也是我们积极加入PyTorch基金会的初衷——希望IPU拥有原生的PyTorch使用体验。

Graphcore现已支持Byte MLPerf （推理）， IPU是最早支持该基准套件的硬件平台之一。Graphcore支持Byte MLPerf模型库中的大部分模型，涵盖自然语言处理、语音、计算机视觉、推荐、多模态等多个领域，可以用于搜索、语音识别、推荐、内容检测、人工智能生成等多个场景。在未来，Graphcore还将继续扩展IPU支持的Byte MLPerf模型类别。

AIGC应用：

IPU崭露头角，助力下一代模型突破

AI大模型已经展现出非常广泛的应用前景，同时也展现了在未来的无限应用可能。IPU为多个AI大模型提供良好的支持，包括语言大模型Llama 2、Dolly 2.0、GPT-J、ChatGLM-6B等。

在 ChatGLM-6B上，IPU带来了“刷屏式”的体验，可以做到每个token 3.5毫秒的效率，实现了瞬间生成整个屏幕的内容。在日常聊天、文本摘要、辅助写作、代码编写等方面，都能生成相当符合人类偏好的回答。目前ChatGLM-6B可以无损、快速地部署在IPU上，而不会因为性能优化而牺牲模型的精度和参数量。ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署，大大降低了用户部署的门槛。

此外，IPU还对图像生成式AI模型提供很好的支持，如Stable Diffusion。Graphcore携手Paperspace在IPU上引入了Stable Diffusion模型，以配合推出的高级版notebook。未来，面向Graphcore IPU的Stable Diffusion 2.0也将很快与Paperspace Gradient Notebook一起面世。过去半年Graphcore微信公众号的一些配图也是在IPU上通过Stable Diffusion生成的。

未来之路：

IPU助力多维度网络模型发展

虽然人们普遍认为AIGC已是足够先进的技术了，但在全世界范围内已经有一些前沿的 AI科学家们开始探索 GNN（图神经网络）在AI for Science的更多可能。GNN是一种更高维度的模型，相比之下Transformer只能算GNN的简化版，那么GNN能够运用在哪些领域？

在互联网上，GNN可用作社交图谱；在医疗领域，GNN可用作新药研发中的分子模拟等；在科学计算领域，一些比较前沿的研究院也在运用 GNN；另外在交通规划中，GNN也可有效模拟不同参数的推演结果。GNN作为一个多维度的网络，IPU在这些模型上相对GPU有特别大的优势，例如在互联网的社交图谱这一部分甚至达到了10倍左右的优势。