刚刚，华为重大发布！

公众号新闻

2023-07-07 12:07

【导读】从不对标ChatGPT 成为AI算力另一极！华为大模型发布

中国基金报记者冯尧

“华为的大模型不作诗，只做事”，华为常务董事、华为云CEO张平安在2023年华为开发者大会上直言。

7月7日，在华为开发者大会上，华为正式发布盘古大模型3.0。与此前发布的大模型不同，盘古大模型“不为聊天而生”，专注于包括矿山、气象、金融等不同场景、不同行业多样化需求。用张平安的话说就是“我们从来不会将盘古大模型对标ChatGPT”。

今年上半年，国内大模型如雨后春笋般出现，令国内AI算力需求陡增在。此次发布的盘古大模型另一大看点在于底层基于华为昇腾AI算力集群，按照华为方面设想，相较于火遍全球的GPU架构，昇腾AI算力集群希望成为国内AI算力另一极。

不作诗、只做事

“今年上半年，光国内就发布了86个大模型，这些大模型都有很强对话能力，市场也在疑惑，华为的大模型在哪里？”张平安在开发者大会上表达出业内对于华为的疑惑。在这一背景下，华为盘古大模型“千呼万唤始出来”。只不过，按照华为给予的定位，与其他大模型不同，盘古大模型“不作诗，只做事”。

实际上，华为在2021年就立项盘古大模型，目前在CV大模型、NLP大模型、科学计算大模型等领域都有技术和落地案例。在此次开发者大会上，华为正式发布盘古大模型3.0。

据介绍，本次大会发布的盘古大模型3.0是一个面向行业的大模型系列，包括“5+N+X”三层架构。

其中L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型，提供满足行业场景中的多种技能需求，另外华为方面提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型，匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。

同时，盘古大模型提供全新能力集，包括NLP大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力。

在L1层，是N个行业大模型，华为云既可以提供使用行业公开数据训练的行业通用大模型，包括政务，金融，制造，矿山，气象等大模型；也可以基于行业客户的自有数据，在盘古大模型的L0和L1层上，为客户训练自己的专有大模型。

张平安在会上提及，L0和L1未来将会是盘古大模型规划重点。而L2层则是提供更多细化场景的模型，更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景。

不为聊天而生

“盘古大模型出生就不是为聊天而生，我们也从来没有想过对标ChatGPT，这是与其他大模型最大的不同，”张平安对记者表示。

那么，盘古大模型究竟能用于什么场景？华为在开发者大会上举例介绍，在煤矿领域，盘古矿山大模型已经在全国8个矿井规模使用，一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景，让更多的煤矿工人能够在地面上作业，极大地减少安全事故。

在铁路领域，盘古铁路大模型能精准识别现网运行的67种货车、430多种故障，无故障图片筛除率高达95%，将列检员从每日数百万张的“图海”检测中解放出来。

在气象领域，盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型，同时预测速度也有大幅提升。原来预测一个台风未来10天的路径，需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型，通过AI推理的方式，研究者只需单台服务器上单卡配置，10秒内就可以获得更精确的预测结果。

在制造领域，过去单产线制定器件分配计划，往往要花费3个小时以上才能做齐1天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后，能够对业务需求进行准确的意图理解，并调用天筹AI求解器插件，1分钟即可做出未来3天的生产计划。

AI算力另一极

值得注意的是，盘古大模型从芯片、AI框架、AI平台实现了全栈创新。

“众所周知，我们不能使用行业主流的GPU架构，因此我们只能自己搭建框架和平台，” 张平安在会上表示。据他介绍，盘古大模型算力基于华为昇腾AI集群，其中核心则是达芬奇架构的昇腾芯片适配神经网络计算。

资料显示，达芬奇架构是华为自研的面向AI计算特征的全新计算架构，具备高算力、高能效、灵活可裁剪的特性。具体来说，达芬奇架构采用3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现数量级的提升。

大模型加速迭代赶超的背后，是不容忽视的算力挑战。大模型研发高度依赖高端AI芯片、集群及生态，高计算性能、高通信带宽和大显存成为大模型训练必不可少的算力底座。

“现在行业中面临的普遍问题是GPU芯片获取困难，这一领域也存在‘卡脖子’风险，”张平安在会上直言。在他看来，昇腾AI集群方案投入使用，可以解决AI领域高成本问题。

张平安表示，基于昇腾AI集群的模型训练效率对比GPU架构提升1.1倍。此外，据他介绍，在大模型训练过程中经常会遇到GPU故障，研发人员不得不经常重启训练，时间长代价大。昇腾AI云服务可以提供更长稳的AI算力服务，千卡训练30天长稳率达到90%，断点恢复时长不超过10分钟。

而且，昇腾云服务除了支持华为的AI框架Mindspore外，还支持Pytorch，Tensorflow等主流AI框架，框架中的90%算子，都可以通过华为的迁移工具从GPU平滑迁移到昇腾。

需要注意的是，就在一天前，此前推出讯飞星火认知大模型的科大讯飞宣布与昇腾AI合作打造通用智能新底座。

科大讯飞方面也表示，讯飞星火认知大模型基于训练推理一体化设计，实现大模型稀疏化、低精度量化的技术突破，能高效适配昇腾AI，加速大模型的行业落地应用和迭代；另一方面，以昇腾AI为核心，软硬件协同优化，构建算力集中、性能优越、供给稳定、数据安全的大模型训练集群。

记者在开发者大会上获悉，目前华为云2000P Flops单集群的昇腾AI云服务已经在7日在乌兰察布和贵安同时上线。张平安在会上对记者表示，面对目前业界普遍认可的GPU架构，昇腾AI算力集群希望成为AI算力的另一极。

编辑：舰长

审核：许闻

《中国基金报》对本平台所刊载的原创内容享有著作权，未经授权禁止转载，否则将追究法律责任。

授权转载合作联系人：于先生（电话：0755-82468670）

刚刚，知乎宣布：下线！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章