积跬步以至千里 本土GPU企业再创佳绩科技2023-06-15 13:06ChatGPT的火爆引燃了业界对于大模型的应用需求。GPU作为大模型的算力“发动机”,市场需求量暴增,一度供不应求。在国际龙头企业不断发力GPU的同时,国内GPU企业也在加速成长。6月10日,在第五届智源大会AI系统分论坛上,上海天数智芯半导体有限公司(以下简称“天数智芯”)宣布,天垓100加速卡的算力集群,在北京智源人工智能研究院(以下简称“智源研究院”)70亿参数规模的Aquila语言基础模型上,使用代码数据进行训练,已稳定运行19天,且模型收敛效果符合预期,该项测试证明天数智芯已经具备支持百亿级参数大模型训练的能力。天数智芯天垓100加速卡聚焦自主通用GPU 瞄准大模型底层市场记者获悉,受大模型热潮提振,算力市场需求旺盛,算力服务器呈现持续紧缺状态,配货周期偏长。服务器厂商预计要等待6个月以上才能拿到最新的GPU,且GPU短缺情况至少会持续到明年。供不应求的市场,也为本土GPU企业提供了展示自我的“舞台”。而虽为后起之秀,但本土GPU企业的实力却不容小觑。天数智芯副总裁邹翾介绍,天数智芯是中国最早研发GPU的企业之一,从2018年创业至今,实现了很多从0到1的技术突破,并探索出了一条本土通用GPU的创新发展道路。据了解,天数智芯已经实现通用GPU量产。作为拥有云边协同、训推组合的通用算力系统全方案提供商,天数智芯的系统架构、指令集、核心算子、软件栈均为自主研发。此次完成百亿级大模型训练的天垓100加速卡,是一款全自研、GPU架构的云端训练芯片。天数智芯大模型训练全栈方案邹翾介绍,在此次训练中,基于天垓100加速卡的算力集群,在100B Tokens(语料汇总)编程语料、70亿参数量的AquilaCode(“悟道·天鹰”代码模型)大模型参数优化工作中的结果显示,1个Epoch(超参数)后loss值(模型预测结果与真实结果之间的差距)下降到0.8,训练速度达到87K Tokens/s,线性加速比高达95%以上。与国际主流的加速卡集群相比,天垓100加速卡集群的收敛效果、训练速度、线性加速比与其实力相当。在HumanEval基准数据集(一种用于自然语言处理任务评估的数据集)上,以Pass@1(一种代码模式)作为评估指标,自主算力集群训练出来的模型的测试结果,达到了相近参数级别大模型的SOTA(最先进技术)水平,AI编程能力与国际主流GPU产品训练结果相近。基于天垓100算力集群的AquilaCode大模型训练性能采样天垓100加速卡率先完成百亿级参数大模型训练,迈出了自主通用GPU大模型应用的重要一步。这一成果证明了天垓产品可以支持大模型训练,打通了国内大模型创新发展的关键“堵点”,推动了我国大模型自主生态建设。大模型风口已至 GPU面向三大算力需求数据显示,相较2020年,2022年我国智能算力规模近乎翻倍,达到268 EFLOPS,超过通用算力规模;预计未来5年我国智能算力规模的年复合增长率将达到52.3%。记者获悉,自3月16日百度公布“文心一言”大模型以来,国内已有超过30项大模型产品亮相。站在大模型的风口上,本土GPU企业要抓住AI大模型兴起的产业机遇,需要从底层定位大模型的算力需求。邹翾表示,从模型、计算框架层和算子加速等维度出发,算力要满足三大需求。一是通用,可支持模型的快速变形、快速支持新算子、快速支持新通信;二是易用,可利用现有算法模块,对新的重组架构进行调优;三是好用,可重构并行计算、访存全交换、计算全互联等。“我们希望客户在使用我们的产品时,无须重新评估和设计,可以用现有的硬件设备直接兼容我们的产品,甚至让工程师和专家在使用过程中也可以沿用此前的调试方式,这样可以为客户节省很多成本。”邹翾向《中国电子报》记者说道。基于此,天垓100加速卡实现了多维度技术创新,具备应用覆盖广、性能可预期、开发易迁移,以及全栈可定制等特点,能够适配主流CPU芯片和服务器厂商,支持国内外主流AI生态和多种深度学习框架,并通过标准化的软硬件生态接口为行业解决产品使用难、开发平台迁移成本高等痛点,缩短适配验证周期。目前,天垓100加速卡已支撑超过200个不同种类的模型训练,服务于教育、互联网、金融、自动驾驶、医疗及安防等相关行业,支持机器学习、数学运算、加解密及数字信号处理等用例,并实现了对x86、ARM、MIPS等多种CPU架构的适配。此外,天数智芯还发布了全自研通用GPU推理芯片“智铠100”,以及通用GPU推理产品“智铠50加速卡”和“智铠100加速卡”。同时,天数智芯还打造了高性能异构计算平台——天数智芯软件栈。该平台针对通用计算和深度学习应用的开发和部署提供了一套软件栈工具,支持x86和ARM等架构,集成了多种主流的深度学习编程框架,并且提供了基于C/C++的编程接口拓展和高性能函数库,赋予模型训练及推理更优异的性能表现。该平台还提供了一系列调试和调优工具,可以满足不同层次的应用开发及调试需求,为高性能计算和人工智能应用的开发和部署提供了便利。基于天数智芯软件栈对主流深度学习编程框架、主流算子及网络模型的支持,开发者可以采用天数智芯通用GPU开发更加简洁且通用的应用,更有效率地实现深度学习以及各类数据科学应用的开发和调试。自此,天数智芯正式成为一家拥有基于GPU架构的云边协同、训推组合的通用算力系统全方案提供商。提升本土化服务能力 支持大模型创新应用尽管取得了诸多成就,但作为“追赶者”的本土GPU企业,仍面临着诸多挑战。邹翾表示,在高性能运算等技术壁垒高的领域中,本土GPU产品和国际主流GPU产品相比,尤其是在旗舰产品层面,仍存在差距。此外,本土GPU企业多为初创企业,品牌塑造需要一定的时间,还需要逐渐培养下游企业对于本土GPU企业的认知。不积跬步,无以至千里。天数智芯及众多本土GPU企业,正在通过“跬步”持续成长。邹翾认为,所谓的“跬步”,便是在努力追赶国际龙头企业的同时,服务好本土客户。“对于天数智芯而言,我们并不仅仅追求与国际龙头企业水平相当,而是指将其视为一个过渡的节点,最终目标在于如何服务好本土客户。此外,作为本土GPU企业,不一定在每个赛道上都追求和国际顶尖产品同样的水平,可以先从某一方面入手,再逐渐‘以点带线、以线带面’逐步发展,通过我们的产品性能和服务水平,吸引更多本土客户与我们合作。”邹翾说道。邹翾介绍,在服务本土客户方面可以主要从三个方面入手,一是为头部大模型企业做算力补充;二是微调,即在模型训练好后再根据领域数据做一次微调优化,以实现算力的推理功能。目前,天数智芯在微调方面,已经可以满足主流需求。邹翾表示,ChatGPT等AI产品的火爆,不仅带来了短期的巨大算力缺口,也将持续带来并行化的通用计算需求。企业开发大模型的竞争焦点在于挖掘大模型的更多能力,实现这一目标需要算力的堆积,以提升大模型的参数值。此外,随着科学计算、AI建模的不断发展,市场对算力的需求也将显著扩大。基于此,邹翾表示,天数智芯将继续与合作伙伴深入合作,建设更大规模的天垓100算力集群,完成更大参数规模的大模型训练,未来的参数将达到650亿。此外,天数智芯将打造更多自主通用的GPU产品,更好地支持国内大模型创新应用,进一步夯实我国算力基础,助力人工智能产业建设自主生态。作者丨沈丛编辑丨张心怡美编丨马利亚监制丨连晓东微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章