刚刚,华为重大发布!公众号新闻2023-07-07 12:07【导读】从不对标ChatGPT 成为AI算力另一极!华为大模型发布中国基金报记者 冯尧 “华为的大模型不作诗,只做事”,华为常务董事、华为云CEO张平安在2023年华为开发者大会上直言。 7月7日,在华为开发者大会上,华为正式发布盘古大模型3.0。与此前发布的大模型不同,盘古大模型“不为聊天而生”,专注于包括矿山、气象、金融等不同场景、不同行业多样化需求。用张平安的话说就是“我们从来不会将盘古大模型对标ChatGPT”。 今年上半年,国内大模型如雨后春笋般出现,令国内AI算力需求陡增在。此次发布的盘古大模型另一大看点在于底层基于华为昇腾AI算力集群,按照华为方面设想,相较于火遍全球的GPU架构,昇腾AI算力集群希望成为国内AI算力另一极。 不作诗、只做事 “今年上半年,光国内就发布了86个大模型,这些大模型都有很强对话能力,市场也在疑惑,华为的大模型在哪里?”张平安在开发者大会上表达出业内对于华为的疑惑。在这一背景下,华为盘古大模型“千呼万唤始出来”。只不过,按照华为给予的定位,与其他大模型不同,盘古大模型“不作诗,只做事”。 实际上,华为在2021年就立项盘古大模型,目前在CV大模型、NLP大模型、科学计算大模型等领域都有技术和落地案例。在此次开发者大会上,华为正式发布盘古大模型3.0。 据介绍,本次大会发布的盘古大模型3.0是一个面向行业的大模型系列,包括“5+N+X”三层架构。 其中L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求,另外华为方面提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。 同时,盘古大模型提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力。 在L1层,是N个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。 张平安在会上提及,L0和L1未来将会是盘古大模型规划重点。而L2层则是提供更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景。 不为聊天而生 “盘古大模型出生就不是为聊天而生,我们也从来没有想过对标ChatGPT,这是与其他大模型最大的不同,”张平安对记者表示。 那么,盘古大模型究竟能用于什么场景?华为在开发者大会上举例介绍,在煤矿领域,盘古矿山大模型已经在全国8个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景,让更多的煤矿工人能够在地面上作业,极大地减少安全事故。 在铁路领域,盘古铁路大模型能精准识别现网运行的67种货车、430多种故障,无故障图片筛除率高达95%,将列检员从每日数百万张的“图海”检测中解放出来。 在气象领域,盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型,同时预测速度也有大幅提升。原来预测一个台风未来10天的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型,通过AI推理的方式,研究者只需单台服务器上单卡配置,10秒内就可以获得更精确的预测结果。 在制造领域,过去单产线制定器件分配计划,往往要花费3个小时以上才能做齐1天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后,能够对业务需求进行准确的意图理解,并调用天筹AI求解器插件,1分钟即可做出未来3天的生产计划。 AI算力另一极 值得注意的是,盘古大模型从芯片、AI框架、AI平台实现了全栈创新。 “众所周知,我们不能使用行业主流的GPU架构,因此我们只能自己搭建框架和平台,” 张平安在会上表示。据他介绍,盘古大模型算力基于华为昇腾AI集群,其中核心则是达芬奇架构的昇腾芯片适配神经网络计算。 资料显示,达芬奇架构是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。 大模型加速迭代赶超的背后,是不容忽视的算力挑战。大模型研发高度依赖高端AI芯片、集群及生态,高计算性能、高通信带宽和大显存成为大模型训练必不可少的算力底座。 “现在行业中面临的普遍问题是GPU芯片获取困难,这一领域也存在‘卡脖子’风险,”张平安在会上直言。在他看来,昇腾AI集群方案投入使用,可以解决AI领域高成本问题。 张平安表示,基于昇腾AI集群的模型训练效率对比GPU架构提升1.1倍。此外,据他介绍,在大模型训练过程中经常会遇到GPU故障,研发人员不得不经常重启训练,时间长代价大。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。 而且,昇腾云服务除了支持华为的AI框架Mindspore外,还支持Pytorch,Tensorflow等主流AI框架,框架中的90%算子,都可以通过华为的迁移工具从GPU平滑迁移到昇腾。 需要注意的是,就在一天前,此前推出讯飞星火认知大模型的科大讯飞宣布与昇腾AI合作打造通用智能新底座。 科大讯飞方面也表示,讯飞星火认知大模型基于训练推理一体化设计,实现大模型稀疏化、低精度量化的技术突破,能高效适配昇腾AI,加速大模型的行业落地应用和迭代;另一方面,以昇腾AI为核心,软硬件协同优化,构建算力集中、性能优越、供给稳定、数据安全的大模型训练集群。 记者在开发者大会上获悉,目前华为云2000P Flops单集群的昇腾AI云服务已经在7日在乌兰察布和贵安同时上线。张平安在会上对记者表示,面对目前业界普遍认可的GPU架构,昇腾AI算力集群希望成为AI算力的另一极。编辑:舰长审核:许闻版权声明《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。授权转载合作联系人:于先生(电话:0755-82468670)刚刚,知乎宣布:下线!微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章