Redian新闻
>
卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进

卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进

公众号新闻

在人工智能蓬勃发展的今天,人们对算力的需求达到了前所未有的高度,这为芯片行业带来了空前的挑战和机遇。同时,人们也不禁思考,芯片行业未来的发展方向究竟是怎样的?

9月15日,在2023世界计算大会上,Graphcore总裁兼大中华区总经理卢涛受邀出席,并发表演讲,分享了其对于芯片行业工艺的洞察以及对未来行业发展的宝贵洞见。




行业困境:

堆砌晶体管提升性能非长远之计


除了我们众所周知的与芯片上晶体管数量相关的摩尔定律,业内还有一个著名的衡量芯片尺寸与功率的关系的登纳德定律——当一个工艺发生跳变时,晶体管数量虽然可以达到两倍,但如需保持同样的功耗,就无法全部激活使用晶体管的数量,因为这意味着用料和功耗的增加。

所以实际上根据摩尔定律来看,如果晶体管数量一年可以提升30%,但因为有登纳德定律的限制,性能的提升只有15%。



产品困境:

受限于结构,算力、功耗难两全


关于现阶段芯片产品现状,我有两点思考:

第一点思考是芯片产业的特点。放眼今天 AI计算和高性能计算,处理器在做不同的算术运算时,所消耗的能量是大不相同的。在50瓦的功耗下,FP16.32和FP64各自边际算力的对比为2pJ与32pJ。结合登纳德的定律,如果要设计一枚功耗200瓦的800平方毫米芯片,其中真正活跃运行的晶体管大概只有33%,剩下的67%称之为“暗硅”,即非活跃的跳变。

另外,芯片的性能和功耗也受内存影响。同一个字节,将其从外部DDR搬到处理器的核心,其功耗大概是320pJ,但从芯片内部的SRAM搬运到处理器核心中,则仅需10-64pJ。如果把片内每个SRAM分布式地“扣”在处理器核心的旁边,这时传输一个字节大概仅需要1pJ。所以在设计一款处理器的时候,需要在架构方面做一些权衡。

例如GPU,其面积的35%用于AI计算,55%为“暗硅”,还有10%作为SRAM。“暗硅”通常用于高精度计算或图形图像运算等业务。所以在 AI计算时,实际有效的业务点是其中的35%加10%。而从能耗的角度,GPU将90%分布在算术计算上,10%分布在片内的SRAM。而 IPU则采用25%的面积用于计算,75%面积用于RAM的规划方式,并实现了计算和存储各一半的功耗表现。



第二点思考,以机器智能为代表的全新计算业务的显著特点是大规模并行、稀疏化以及低精度计算。众所周知,FP16.32是目前用于训练的主流精度,但如今厂商们都在寻求如FP8之类的低精度计算。

结合芯片产业的特点和AI计算任务的需求特点,Graphcore打造了IPU处理器。不同于标量处理器CPU和向量处理器GPU。IPU是针对人工智能、高性能计算而构建的处理器,具有大规模并行和超高速内存访问的特点。

基于IPU,Graphcore推出了Bow-2000和C600。Bow-2000以训练见长,采用了便捷的模块化设计,可以像搭积木一样进行堆叠,根据模型和数据规模的大小,非常便利地进行横向和纵向扩展。C600以推理见长,是一款能效比非常好的产品,在185瓦的功耗情况之下,我们做到了(FP16的运算中的)280T的算力,比当前主流的GPU在应用上表现更佳。值得一提的是,C600是行业中率先支持FP8浮点运算的数据格式的产品之一。



软件生态:

以开放态度,打造习惯友好型的开发模式


对于人工智能的开发者和使用者来说,软件生态也是十分重要的,Graphcore不仅有底层的软件,向上更支持主流的机器学习的平台,像TensorFlow、PyTorch,还有国内百度的Paddle Paddle、阿里云的Halo等。这些都是构建一个处理器所必需的软件工具。我们对大量的机器学习的平台软件做了集成。

Graphcore希望 IPU能在计算架构方面充满创新性,为开发者提供对他们过往开发习惯尽量友好的开发模式,以便他们在IPU上进行开发。因此,Graphcore构建了一套名为PopRT的开发工具,帮助开发者实现零代码推理部署已经训练好的模型,同时带来低延时和高吞吐量,极大地缩短AI业务商业变现的时间窗口。如今,开发者的应用基本上是基于GPU开发的,而通过PopRT进行编译、转换,最后可以直接在IPU上运行。可以说如今主流的模型都可以通过PopRT进行零代码转换,最终在IPU上运行起来。



近期Graphcore加入了PyTorch基金会,以更好地开展开源PyTorch框架和生态系统方面的合作。我认为,作为一家科技企业,在当今世界的格局之下,企业发展的下限自然是合规,而上限是开放,只有保持足够开放的态度,才能不停地探索自己的天花板。这也是我们积极加入PyTorch基金会的初衷——希望IPU拥有原生的PyTorch使用体验。



Graphcore现已支持Byte MLPerf (推理), IPU是最早支持该基准套件的硬件平台之一。Graphcore支持Byte MLPerf模型库中的大部分模型,涵盖自然语言处理、语音、计算机视觉、推荐、多模态等多个领域,可以用于搜索、语音识别、推荐、内容检测、人工智能生成等多个场景。在未来,Graphcore还将继续扩展IPU支持的Byte MLPerf模型类别。



AIGC应用:

IPU崭露头角,助力下一代模型突破


AI大模型已经展现出非常广泛的应用前景,同时也展现了在未来的无限应用可能。IPU为多个AI大模型提供良好的支持,包括语言大模型Llama 2、Dolly 2.0、GPT-J、ChatGLM-6B等。



在 ChatGLM-6B上,IPU带来了“刷屏式”的体验,可以做到每个token 3.5毫秒的效率,实现了瞬间生成整个屏幕的内容。在日常聊天、文本摘要、辅助写作、代码编写等方面,都能生成相当符合人类偏好的回答。目前ChatGLM-6B可以无损、快速地部署在IPU上,而不会因为性能优化而牺牲模型的精度和参数量。ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署,大大降低了用户部署的门槛。



此外,IPU还对图像生成式AI模型提供很好的支持,如Stable Diffusion。Graphcore携手Paperspace在IPU上引入了Stable Diffusion模型,以配合推出的高级版notebook。未来,面向Graphcore IPU的Stable Diffusion 2.0也将很快与Paperspace Gradient Notebook一起面世。过去半年Graphcore微信公众号的一些配图也是在IPU上通过Stable Diffusion生成的。



未来之路:

IPU助力多维度网络模型发展


虽然人们普遍认为AIGC已是足够先进的技术了,但在全世界范围内已经有一些前沿的 AI科学家们开始探索 GNN(图神经网络)在AI for Science的更多可能。GNN是一种更高维度的模型,相比之下Transformer只能算GNN的简化版,那么GNN能够运用在哪些领域?

在互联网上,GNN可用作社交图谱;在医疗领域,GNN可用作新药研发中的分子模拟等;在科学计算领域,一些比较前沿的研究院也在运用 GNN;另外在交通规划中,GNN也可有效模拟不同参数的推演结果。GNN作为一个多维度的网络,IPU在这些模型上相对GPU有特别大的优势,例如在互联网的社交图谱这一部分甚至达到了10倍左右的优势。




随着人工智能的蓬勃发展,芯片行业的未来究竟何去何从?当Wired杂志的记者询问图灵奖得主、神经网络之父Geoff Hinton“我们该如何构建功能更强大的机器学习系统?”时,他不紧不慢地从钱包里掏出一枚IPU芯片。我想,对于行业的未来,他心里已经有答案了。





获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击Transformer出逃八子最后一人正式创业!坐标日本搞AI“群”模型,本人:在谷歌有被困住的感觉华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报Transformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手Transformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱ViLT: 没有卷积和区域监督的视觉-语言Transformer模型ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性ChatGPT危了!注意力机制的神秘bug曝光!Transformer模型恐大受冲击...钗头凤 - 爱的星空环法第十九天----催人泪下的兔子ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器【万水千山, 一起走遍】台北故宫博物院, 至善园​下一代Transformer:RetNet结构可视化及Vision RetNet展望​Transformer升级之路:RoPE是一种β进制编码Transformer速查宝典:模型、架构、训练方法的论文都在这里了ICML 2023 | UPop: 使用统一渐进剪枝压缩视觉-语言TransformersNeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer让注意力提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升!用 Transformer 和 RLHF「炼」大模型,危?8年了,Transformer注意力机制一直有Bug?ACL 2023 Findings | 概率句法角度的Transformer诠释起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi712种模态,一个学习框架,Meta-Transformer实现骨干网络大一统彻底抛弃Transformer,八金刚之一再创业!联手前谷歌Brain大佬创建自然启发智能模型更加与主接近降龙十八掌:这套优化transformer内存占用的组合技值得收藏Transformer能解释一切吗?冷却的不止季节(92)— 包养谷歌最后一位Transformer论文作者离职创业,野心不小,要颠覆当前生成AI范式NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型Attention机制竟有bug,Softmax是罪魁祸首,影响所有TransformerAttention机制竟有bug?Softmax是罪魁祸首,影响所有Transformer揭秘Transformer基于上下文学习的能力:看它如何学到正确的线性模型?云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。