利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读
OAI小组的成立与生态建设为多元算力芯片落地适配搭起了一座桥,但如何让这座桥更坚固、更好走更为重要。
2019年OAI小组制定了一系列开放加速计算的规范,但这些规范在落地的过程中,AI芯片企业依然需要进行大量的定制化工作,多元算力发展面临落地部署慢、研发成本高的难题。因此,这些对开放计算突破AIGC时代算力瓶颈寄予厚望的参与者亟需一份更加细化、完善的“说明书”。
浪潮信息拟定的这一份《指南》就是这样的存在,其制定了AIGC时代AI服务器的设计理论和方法,以便企业能开发出符合开放加速规范的AI服务器,并快速找到能匹配应用场景的最佳AI算力产品方案。
▲浪潮信息发布《开放加速规范AI服务器设计指南》
总的来看,《指南》包括四大设计原则和全栈设计方法。
其中,四大设计原则主要围绕着应用导向、多元开放、绿色高效和统筹设计。张政解释道,这四大原则的设计基于的是其最终客户在产业发展、算力应用方面遇到的痛点。
应用导向指的是,企业在设计AI加速芯片或系统时,以提供“用得了”、“用得起”、“用得好”的解决方案为目标,尽可能避免过渡冗余设计或者追求性能带来的时间、空间、资源浪费;多元开放更注重对不同技术体系的兼容和适配,突破关键技术创新的同时,进一步壮大开放加速计算生态。
绿色高效主要聚焦于液冷散热、高效供配电、智能运维等技术的应用;统筹设计能帮助AI芯片企业在集成大模型分布式训练时,充分考量计算、网络、存储的需求特点。
随之而来的就是,面向AI芯片企业更加具体、全面、细化的设计方法,也就是《指南》中提到的开放加速计算系统全栈设计方法,围绕着多元协同设计、全面系统测试、性能测评调优进行了归纳总结。
具体而言,AIGC计算系统的部署形式是一体化高集成度算力集群,《指南》阐释了从节点到集群的软硬全栈参考设计,在系统厂商和芯片厂商的协作下减少企业的定制开发内容,进一步节省成本。
测试方面主要包含系统层面和应用层面。
2023全球AI芯片峰会预告
9月14-15日,2023全球AI芯片峰会(GACS 2023)将登陆深圳。峰会将以「AI大时代 逐鹿芯世界」为主题,邀请50+位AI芯片领域覆盖产学研用的学术代表、商业领袖、技术专家与资深投资人,共探AI芯片的求新、求变、求索之径。欢迎报名。
微信扫码关注该文公众号作者