Redian新闻
>
利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读

利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读

科技

业界首个面向AIGC的《开放加速规范AI服务器设计指南》重磅发布,多元算力供应成关键。
作者 |  程茜
编辑 |  漠影
芯东西8月11日报道,昨天,在第五届OCP China Day(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》(下文简称《指南》)正式发布。
这一《指南》为开放加速规范服务器提出了四大设计原则以及全栈设计方法,包括硬件设计参考管理接口规范性能测试标准,能帮AI芯片企业显著缩短OAM加速芯片研发和系统适配周期,大幅节省研发投入。
AIGC时代到来,动辄上百亿、上千亿参数规模的大模型使得算力缺口问题被放大,需要处理大量大模型训练任务的AI服务器受关注度也水涨船高。

然而事实是,AI芯片的多元化发展为大模型寻找创新应用提供了机遇,但走向落地,当采用不同技术路线的AI芯片集成到AI计算系统时,企业通常需要投入大量时间、资金来使其AI加速芯片与系统实现高性能的适配,这背后消耗的成本无法估量。
诚然,开放加速计算(OAI)自诞生起就锚定了AI计算基础设施的标准化,但此前界定宽泛、覆盖面广的标准无法真正成体系应用到产业中。因此,这一产业需要的是一个行之有效、落地有声的细化指南。
在OCP China Day期间,芯东西与浪潮信息AI&HPC产品线高级产品经理张政进行了深入交流,找到这则《指南》在AIGC时代下扮演的真实角色。

01.
从技术突破到应用落地
海量算力背后的新解法


近日,关于GPU短缺、GPT-5可能需要3-5万张H100 GPU的讨论在社交媒体疯传,AIGC时代的算力已成“兵家必争之地”,再加上其商业化落地、产业化应用提速,AI计算能力这块基石的重要性与日俱增。
因此,为了补上AI算力的缺口,AI芯片公司相继推出各类非标准PCIe CEM的新型态AI加速芯片,越来越多创新技术路径出现,使得AI计算芯片逐渐多元化。随之而来的一大问题就是,不同技术形态的AI加速芯片无法进行标准化快速适配,产业上下游生态面临割裂风险
解决这一风险的答案可以追溯至2019年,彼时,OCP OAI(Open Accelerator Infrastructure)小组成立,这一小组的研发初衷与当下蓬勃发展的多元算力芯片相对应,并且其关注的为超大规模深度学习训练的AI加速芯片进行形态定义、促进生态建立,在展示开放计算可行性的同时,为规避AI计算芯片多元化趋势背后的风险提供了有效解法。
不同厂商的AI加速芯片在结构、电气特性上存在显著差异,导致不同芯片需要定制化系统硬件平台,OAI小组对AI加速芯片形态进行了定义,通过统一接口、AI加速芯片基板OAI-UBB设计规范、推出基于OAI-UBB1.0规范的开放加速硬件平台,一步步构筑起开放加速计算的生态体系,从而在AIGC时代算力需求狂飙的当下,能为企业提供可匹配其应用场景的AI算力产品方案。
OAI主要通过全球产业链协作的模式,实现产品、规范等共享的同时,推动基础设施创新,在缓解算力供应短缺的同时,进一步加速AIGC时代的技术落地。
参与其中的浪潮信息,在协同合作伙伴完成早期技术验证和经验积累的同时,也发现AI芯片落地过程中还存在众多难以跨越的鸿沟。
因此,浪潮信息基于此前的技术积累发布了这一《指南》,《指南》的最大价值在于,一方面能帮芯片企业快速开发新形态AI芯片,节省开发周期、开发成本,并加速产品的升级和迭代;另一方面,也能让最终客户在实际应用场景中更快享受到多元算力带来的价值。
正如浪潮信息服务器产品线总经理赵帅此前提到的,开放架构的出现就是让领先技术更快从一个行业下沉到千行百业

02.
四大设计原则+全栈设计方法
多元算力芯片落地适配的“说明书”


OAI小组的成立与生态建设为多元算力芯片落地适配搭起了一座桥,但如何让这座桥更坚固、更好走更为重要。

2019年OAI小组制定了一系列开放加速计算的规范,但这些规范在落地的过程中,AI芯片企业依然需要进行大量的定制化工作,多元算力发展面临落地部署慢、研发成本高的难题。因此,这些对开放计算突破AIGC时代算力瓶颈寄予厚望的参与者亟需一份更加细化、完善的“说明书”

浪潮信息拟定的这一份《指南》就是这样的存在,其制定了AIGC时代AI服务器的设计理论和方法,以便企业能开发出符合开放加速规范的AI服务器,并快速找到能匹配应用场景的最佳AI算力产品方案。

▲浪潮信息发布《开放加速规范AI服务器设计指南》

总的来看,《指南》包括四大设计原则全栈设计方法

其中,四大设计原则主要围绕着应用导向多元开放绿色高效统筹设计。张政解释道,这四大原则的设计基于的是其最终客户在产业发展、算力应用方面遇到的痛点。

应用导向指的是,企业在设计AI加速芯片或系统时,以提供“用得了”、“用得起”、“用得好”的解决方案为目标,尽可能避免过渡冗余设计或者追求性能带来的时间、空间、资源浪费;多元开放更注重对不同技术体系的兼容和适配,突破关键技术创新的同时,进一步壮大开放加速计算生态。

绿色高效主要聚焦于液冷散热、高效供配电、智能运维等技术的应用;统筹设计能帮助AI芯片企业在集成大模型分布式训练时,充分考量计算、网络、存储的需求特点。

随之而来的就是,面向AI芯片企业更加具体、全面、细化的设计方法,也就是《指南》中提到的开放加速计算系统全栈设计方法,围绕着多元协同设计、全面系统测试、性能测评调优进行了归纳总结。

具体而言,AIGC计算系统的部署形式是一体化高集成度算力集群,《指南》阐释了从节点到集群的软硬全栈参考设计,在系统厂商和芯片厂商的协作下减少企业的定制开发内容,进一步节省成本。

测试方面主要包含系统层面和应用层面。

全面系统测试中,浪潮信息沿用了一部分AI服务器的测试用例,同时面向OAM服务器,他们将自己此前在创新实践中遇到的问题,一并进行了细化放入《指南》之中,从而增强新研发设备的稳定性和可靠性。
也就是说,要解决在AI系统生产、部署、运行过程中,异构加速计算节点的高故障率的问题,想要保证系统的稳定性,其对应的测试条件及环节要更为严苛。基于此,《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面的梳理,以满足AI计算系统部署的要求。
应用层面,AIGC领域加速计算系统软硬件具备强耦合性,对系统的性能要求更高。浪潮信息将此前在全球权威AI基准评测MLPerf等测试中的问鼎冠军的实战测试优化经验,也呈现在了《指南》中。
例如模型性能测试中,《指南》具体指明了基于ResNet、Bert、Yolo等AI主流模型单机开展测试时推理、训练评测重点关注的性能指标,以及多机环境中重点评测的指标。
这样一来,AI芯片创企既能拥有成熟的系统平台,规避闭源生态风险,还能在这份说明书的基础上,缩短芯片开发落地适配的进程。

03.
为AIGC拉满算力引擎
开放计算落地已成趋势


此外,《指南》里的四大设计原则之首就是应用导向,技术落地效果如何与应用成果密不可分,也是评判这一指南的重要因素之一。
目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用,越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。

其中,云端AI算力企业燧原科技打造了国内第一个OAM模组,是该公司2019年发布的云燧T11 PoC,2021年发布云燧T21训练OAM模组,这些基于开放加速计算标准构建的高性能人工智能训练加速模组,能在性能、部署、覆盖、运维方面具有较大优势。
随后,去年3月,浪潮信息与其联手打造“钱塘江”智算中心方案,智算中心能支撑超千亿参数规模模型的高效、并行训练。目前,这一方案已在某大型实验室落地1280卡规模的全液冷AI训练集群。
除此以外,还有壁仞科技发布了符合OCP标准的OAM模组壁仞100、英特尔联合浪潮信息推出新一代AI服务器NF5698G7,集成8颗OAM高速互联的Gaudi 2加速器……
无一例外,这些产品已成为开放加速计算产业展现可行性、可用性的有效见证者
当下,诸多应用成果、符合OAM标准的设备出现,都展示了开放加速计算技术的可行性,并以此辐射出完整的生态体系。
AI加速计算系统的规范体系正在逐步确立、完善,面向AIGC领域的设计指南也更加全面、细化,为AIGC浪潮下算力供需难题提供了有效的解决方案。
下一步AIGC时代会迸发出什么样的创新应用,通往通用人工智能时代还会出现哪些门槛我们尚且无从得知,但可以确定的是,开放加速计算技术有望成为这些玩家去突破AIGC时代算力瓶颈的一条有效路径
因此走向实际应用的过程中,AIGC应用亟需一套完整的开放加速计算设计指南,以此为桥梁,使得多元算力之道成为破解大模型训练算力难题的有效解法。

04.
结语:补上算力缺口
让AIGC创新应用加速迸发


AIGC的发展需要大量的计算资源,因此对算力的需求将会迎来系统级变化。当下,其规模化应用的步伐已经加快,因此,如何低成本补上算力缺口成为难题。开放计算这一新技术的落地与技术路线,都说明了其与AIGC时代这一难题的适配性。
作为开放加速计算的重要参与者,浪潮信息正铆足全力保障AIGC时代的多元算力供应,这背后有两重身份支撑,首先它是国内率先布局开放加速计算的玩家,同时它也是国内AI服务器龙头企业,在产品落地应用中积累了众多有效经验。
张政谈道,面向AIGC领域的规划,短期内,浪潮信息将继续在软硬件布局,硬件中继续为合作伙伴提供先进且强大的开放加速硬件平台,软件、算法层面将基于资源管理平台实现对多元算力的高效管理和调度,目前,这一管理平台已经可以适配业内30多种算力芯片。
长期来看,浪潮信息将继续围绕大模型、智算中心、AI算力服务等场景的多元算力产业化应用实践进一步探索。
展望未来,在成本可控、能灵活应用扩展的基础上,AIGC时代的众多参与者就可以全力挖掘创新应用,找到大模型狂飙背后的落地破局入口。

2023全球AI芯片峰会预告

9月14-15日,2023全球AI芯片峰会(GACS 2023)将登陆深圳。峰会将以「AI大时代 逐鹿芯世界」为主题,邀请50+位AI芯片领域覆盖产学研用的学术代表、商业领袖、技术专家与资深投资人,共探AI芯片的求新、求变、求索之径。欢迎报名。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
聚焦ESC,巅峰论道丨霍勇教授深度解读2023ESC糖尿病患者心血管疾病管理指南港理工袁教授:电动汽车先进扭矩控制器设计|收获一作论文与导师推荐信!第三届中国集成电路设计创新大会暨IC应用博览会(ICDIA 2023)圆满落幕!富滇银行:中小金融机构该如何思考和落地AIGC应用?华为Mate 60拆出了什么?央视首次深度解读,芯片跑出中国速度,卫星通话很惊艳京东回应收购永辉传闻;多个AIGC应用在苹果应用商店下架;华中科大初步复现韩国室温超导材料;顺丰遗失的38万元劳力士手表已找回淘天集团成立KA服务部;茶颜悦色否认开放加盟;李佳琦成立新公司;KK集团招股书失效;三只松鼠国民零食店开放加盟|联商头条热搜爆了!"李玟生前控诉"录音曝光,《中国好声音》深夜回应深度解读首份大模型报告:技术只是门槛,落地才是赛点苹果的怪兽芯片,M2 Ultra深度解读国产硬件仿真混合验证平台,深度解读No Go Zone!编委主席提出抗栓“禁区”,一睹最新《ACS指南》抗血小板治疗完整解读 | ESC 2023直播预告:主讲特定领域处理器设计与加速后量子密码学应用的ASIP一蔚来汽车撞柱起火,驾驶员身亡;多个AIGC应用在苹果应用商店下架;韩国室温超导重复实验结果出炉;梅西代言酱酒品牌丨邦早报沙漠中的動物舒適圈656名实务专家倾力打造,21个合规重点领域,《中国中小企业合规指南》上新!从PUBG MOBILE x 《龙珠超》深度联动,看出海领军者如何持续破圈重磅全文 |《网络安全保险应用指南》征求意见最高法院意义非凡的判决,黑人选民的重大胜利深度解读 | 2024QS世界大学排名新增3个指标,学校排名直接大地震!王佑春教授主编《假病毒》出版,系统阐述假病毒方法开发和应用策略智算在网 | 锐捷网络AIGC网络方案深度解读把感恩送出去,宇宙会给你更多的回馈【应用引领集成电路产业高质量发展】第三届中国集成电路设计创新大会暨无锡IC应用博览会(ICDIA 2023)7月即将在无锡召开和单位女孩谈人生50页深度解读,陀螺研究院发布《2023上半年VR/AR行业投融资报告》将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型破局之作:首部开源 AIGC 软件工程应用电子书《构筑大语言模型应用:应用开发与架构设计》深度解读重磅利好“四连炸”!有多大用?投资者该怎么办?马斯克被曝要合并特斯拉和Neuralink,目标AGI,《银河系漫游指南》中描绘的那种RISC-V,加速跑向服务器芯片2023年7月29~8月2日长沙歆然导师《生命大智慧》深度工作坊初升高转轨必备!限量200册,《上海国际高中择校指南》免费领取!沁园春 曙光智能周报|苹果营收连续3个季度下降;苹果中国区应用商店下架多款AIGC应用;鸿蒙4.0将接入盘古大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。