算力、模型、操作系统,华为一口气发布了 AI 基础设施超级全家桶。 作者 | 宛辰 编辑 | 郑玄华为继续深化在智能时代的战略和基础设施布局。 两个月前,华为云官宣将在今年的开发者大会上发布盘古大模型 5.0,并将和 HarmonyOS NEXT 鸿蒙星河版首次联袂亮相。这波预热引发了两者深度整合的猜测,尤其是随着 5 月 14 日 OpenAI 发布的 GPT-4o 和 6 月 11 日苹果带来的 Apple Intelligence,多模态融合大模型与端侧的结合被寄予厚望。6 月 21 日下午,2024 年华为开发者大会(HDC)正式开幕,答案得以揭晓。盘古大模型 5.0,在全系列、多模态、强思维三个方面带来全新升级。没有附榜单评测、模型架构等介绍,从华为云的角度,盘古大模型 5.0 将继续坚持「AI for Industries」的 ToB 路线,在诸如高铁巡检、工业设计、媒体生产等产业场景里发挥作用。另一边,华为全场景智能操作系统 HarmonyOS NEXT 面向开发者启动 Beta,这个智能时代的全新操作系统有着巨大的想象空间,「不是把安卓、iOS 的代码重写一遍,而是(用包括 AI 在内的能力)重新设计终端用户体验」。拥有算力、模型、操作系统全栈基础设施布局,和开发者一起加速应用落地,这是华为在智能时代的生态思考。
01
智能时代,
「纯血鸿蒙」来了
下一个十年的操作系统,会是什么样子?开幕式主题演讲上,华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东认为,在 AI 时代,终端操作系统将实现智能化、空间化和一体化的再进化。其中,智能化突破人机协作的边界,空间化突破数字世界和物理世界的边界,一体化突破设备与设备之间的边界。在这个趋势下,华为宣布正式推出 HarmonyOS NEXT 开发者 beta 版,他表示,「这是基于 OpenHarmony 打造的全场景智能操作系统,是源自中国、自主可控的操作系统」。华为终端 BG 首席执行官何刚称,HarmonyOS NEXT 采用端云垂直整合的全新系统架构,是鸿蒙操作系统有史以来最大的一次升级,其将带来全场景、鸿蒙原生智能(Harmony Intelligence)、原生安全等创新体验。就「全场景」的特点而言,HarmonyOS NEXT 延续了 HarmonyOS 跨端的基因,手机、平板和智能屏等都能共享一个系统,开发者仅需开发维护一个鸿蒙原生应用版本,即可在不同设备上带给消费者便捷一致的体验。面对不同终端的屏幕尺寸,淘宝 App 仅需开发维护一个版本,就能在不同的设备上给消费者带来一致的购物体验,并充分发挥不同设备的差异化优势。|截图来源:华为视频号其中,在满足跨端体验上,分布式软总线全面升级,在更低功耗的情况下,连接速度提升 3 倍,最多可同时连接 4 个设备。多设备间的连接交互也得到优化,靠近即可自动感知,有默契,交互变得更简单自然。不同硬件相互靠近,就可以跨设备实现内容接续。比如在平板电脑的 WPS 上做 PPT 时,从手机端小红书里长按、抠图出一只小狗后,可以通过跨设备复制直接粘贴到平板上继续做 PPT,像在一台设备中操作一样自然。|截图来源:华为视频号HarmonyOS NEXT 的第二大亮点是Harmony Intelligence 鸿蒙原生智能,这是 HarmonyOS NEXT 首次将大模型 AI 能力融入系统,围绕图像智能、通话智能、文档智能、跨应用协同等,华为全面构筑了开放给应用的 AI 能力,和开发者共同打造生态级的鸿蒙原生智能。AIGC 功能示例:根据一位小朋友的照片,生成个性化的手绘线稿、定做卡通形象,一键设置到多设备上,比如折叠机的小外屏、手机壁纸、表盘、联系人头像等。|截图来源:华为视频号华为终端自带语音助手「小艺」可以通过手机的摄像头结合视觉大模型的识别、理解、推理能力,并且连接海量的知识来帮「你」看世界。比如可以帮助视障人群找到冰箱中的食物,并且判断食物的新鲜度。|截图来源:华为视频号鸿蒙原生智能(Harmony Intelligence)功能一览|图片来源:华为终端今年,智慧助手「小艺」也正式升级为「小艺智能体」,可以执行更复杂的操作,并在端云大模型协同和意图框架的加持下获得更好的场景感知、意图识别和用户理解能力,能够帮助用户更好地获取所需个性化服务。在交互设计上,你甚至无需唤醒「小艺」,只要把内容拖拽到导航条上,「小艺」就可以自行的分析并给出行动建议。比如当你接收到一段会议通知,只需要把整段话拖拽到导航条「投喂」给小艺,小艺就能自动识别会议信息,并快速帮你创建好一个日程。小艺交互界如图,当一本书的封面「投喂」给小艺,它便可以快速给你找到内容介绍,甚至还可以帮你打开喜马拉雅听这本书。|图片来源:华为视频号AI 大模型时代的隐私保护与数据安全同样是华为关注的重点。华为终端 BG 软件部总裁龚体举例说明了 HarmonyOS NEXT 重构安全体系与秩序。以隐私数据获取规则为例,开发者在一些操作系统上,原本只想获取一张照片,但是不得不申请整个图库的权限;想获取一个人的电话,但是不得不申请整个通讯录的权限。在这一点上,HarmonyOS NEXT 重新定义应用获取隐私数据的规则,经过全面的梳理,取消通话记录、短信、电话、读取已安装应用列表等 9 类不合理的权限,降低用户的管理成本,也从根源上降低隐私泄漏的风险。全新的安全访问机制,通过改变应用获取隐私数据的机制,实现从「管权限」到「管数据」,彻底革新用户管理权限的方式,把隐私控制权真正交还给用户。例如,因为有了安全访问相机的机制,在扫码拍照的操作中,应用只能获得本次扫码的结果,用户无需给出使用相机拍照的权限。数据高安方面,HarmonyOS NEXT 也实现了从个人单设备安全、多设备安全到多人多设备协同安全的技术革新,推出系统级文件加密,文件在手机或平板上被分享出去后,只有授权用户才能打开。架构上,HarmonyOS NEXT 从源头构建秩序,严格的流程和机制保障了用户安装和运行的应用天生安全,未经安全检测的应用和代码无法上架和安装,确保运行在 HarmonyOS NEXT 中都是原生纯净,可信赖、可溯源的可靠应用,用户不必担心病毒和恶意应用的骚扰。通过 HarmonyOS NEXT 原生智能操作系统,华为致力于创建一个原生智能的操作系统,统一 AI 能力,使系统层和大模型真正打通。预计在今年第四季度,随着 Mate7 系列的上市,HarmonyOS NEXT 真正走上大规模商用,新机型也将会搭载鸿蒙原生的应用生态。开场演讲中,余承东也带来了鸿蒙生态的最新进展。HarmonyOS 操作系统从 2019 年 8 月 9 日正式发布,历时 1778 天,历经 4 代,鸿蒙生态设备数量已超过 9 亿。去年 HDC 后,华为启动了鸿蒙原生应用开发,5000 多个常用应用已全部启动开发,其中超过 1500 家已完成上架。比如美团重新设计了骑车体验,骑行一步扫码解锁,锁屏状态直接还车,熟悉的功能也能焕然一新;钉钉与 HarmonyOS NEXT 深度融合,用户从系统日历中一键就可以入会,不方便操作手机时会,小艺语音助力直达会议。超大规模的软件 WPS,4000 万多行代码,实现全面的移植适配,为其他大型软件的适配上提供了实践经验。作为移动互联网重要的中间件平台,蚂蚁数科 mPaaS 的鸿蒙化将惠及中国数以万计的应用。华为也将对未来的思考和预测整理成了《鸿蒙 2030 白皮书》,并宣布下一代编程语言仓颉和下一代 AI 辅助编码 IDE 等工具开启预览。
02
盘古 5.0,能够理解
物理世界的多模态模型
华为盘古大模型自 2021 年面世以来,就不单指一个模型,而是一组模型。去年华为开发者大会上,「盘古大模型家族」最新阵容包含 L0 基础模型(包含五个模型:语言、视觉、多模态、预测、科学计算)、L1 行业模型和 L2 细分场景模型。今年,「盘古大模型家族」的阵容更加多元,能力也更加强大。华为常务董事、华为云 CEO 张平安宣布,盘古大模型 5.0 在全系列、多模态、强思维三个方面带来全新升级。盘古 5.0 推出适配不同业务场景多种规格模型,并与物理世界结合,加速大模型行业落地。今年,在大模型走向行业纵深落地的过程中,「效价比」成为考量实际场景中挑选模型的核心指标,多大尺寸、多强的推理能力依据场景而有所不同,大模型厂商也都纷纷推出不同尺寸、特性的模型。盘古大模型 5.0 也是如此,「全系列」模型包含了不同参数规格。其中,十亿级参数的 Pangu E 系列可支撑手机、PC 等端侧的智能应用;百亿级参数的 Pangu P 系列,适用于低时延、高效率的推理场景;千亿级参数的 Pangu U 系列适用于处理复杂任务;万亿级参数的 Pangu S 系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。在能力上,多模态和强思维成为盘古大模型 5.0 的首要目标,这也是大模型通向 AGI 水平时,需要进一步提升的两个核心能力。就多模态路线选择而言,盘古大模型 5.0 能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持 10K 超高分辨率;在内容生成方面,采用业界首创的 STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。例如,在多模态识别方面,盘古大模型 5.0 能够识别卫星遥感图像,准确分析出区域农作物的生长情况,用于产量预估、病虫害监测等。还能识别红外影像,当夜间通过可见光无法看清的时候,盘古 5.0 能够通过红外影像精准的识别车辆的位置,进行交通违停的管理;此外,盘古 5.0 能够通过可见光和雷达的影像综合判断该地区的植被覆盖情况,帮助生态部门进行自然保护地的监测。在内容生成方面,在自动驾驶领域,盘古大模型 5.0 通过创新的可控时空生成技术,结合场景视频生成、4D BEV 视频生成、自动驾驶仿真库及路网信息,能更好地理解物理规律,大规模生成和实际场景相一致的驾驶视频数据,还可以灵活增加控制条件,生成不同路况、不同光照、不同天气的训练视频数据,加速自动驾驶技术的快速成熟。值得注意的是,模型在生成雨天视频时,还能细腻地模拟出车辆尾灯因光线昏暗而开启的细节,体现了其对真实世界复杂规律的深刻理解和学习能力。|图片来源:华为复杂逻辑推理则是大模型走向下一步,尤其是能够完成多轮、复杂任务的智能体场景里的关键因素。盘古大模型 5.0 将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。例如,在一道立体几何题中,需要证明图中的直线 PQ 与三棱柱的侧面平行。盘古大模型 5.0 可以将输入的 2D 图片在 3D 空间中进行推理,首先给出了正确的解题思路,并通过思维链多步生成和策略搜索,一步一步完成题目的证明。除了盘古大模型 5.0 的全新升级,张平安还分享了盘古大模型在工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。在工业设计领域,以新车造型设计为例,周期一般需要 1-2 年,盘古大模型可以让汽车的造型设计时间大幅缩短。造型设计师可以将自己的灵感,通过对话、画图与大模型交互,生成 3D 汽车数字模型,并可进行风格化调整、零部件编辑、颜色更换等。盘古大模型生成的数字模型还可直接输出成 3D 文件,支持 10 几种主流格式,设计师可以直接 3D 打印成样品,减少制作油泥模型的轮次,极大地节省成本和时间。在建筑设计领域,基于盘古大模型的可控生成能力,只需输入设计的黑白草图,即可生成彩色并带有纹理的建筑群 360°实景视频;基于盘古 3D 重建能力,还可以构建出高真实感的建筑 3D 模型,将复杂建筑群的概念设计周期从数周缩短到数十分钟,助力建筑师创造出更加出色的建筑作品。集成了盘古 5.0 的夸父机器人可以识别出面前的苹果、正方体盒子、和水,也可以根据指令完整动作,比如把水递给人类,或者跟人类击掌。在具身智能领域,盘古大模型能够让机器人完成 10 步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。华为云盘古媒体大模型以原人物音色、情感、语气,用 AI 将《无尽攀登》翻译为多种外文并匹配口型,将中国文化、中国精神远传世界各地在媒体内容生产和应用领域,盘古大模型能够将实拍视频快速转换成特定风格的动漫,并保持角色样貌特征前后一致,舞蹈、武打等大运动轨迹也能确保合理一致的视觉效果;能自动将视频译制成不同语言,并保留原始角色的音色、情感、语气;将译制配音、动漫生成等场景的制作周期从月级缩短到天级,大大提升制作效率,作品一次拍摄多元化制作,实现价值最大化;还能通过 AI 翻译和拟人化语音合成能力,实现 AI 同声传译,让云会议、视频通话等可以实现母语交流体验。在铁路领域,全国每天需要检测的动车大概有 3.2 万节车厢,过去需要大量的巡检工人在凌晨时段去完成,耗时耗力。如今结合盘古大模型和巡检机器人,可精准识别一列动车的 3.2 万个项点,覆盖 8 大类、350 多种复杂故障,帮助高铁提升运营效率,降低成本,减少人工在凌晨时段去巡检的艰辛作业。盘古大模型上线宝武钢铁集团 1880 热轧生产线在钢铁领域,以上海宝武钢铁热轧生产线为例,每次调整生产钢板的种类和尺寸,都需要工程师重新调整 7 道精轧机组的 300 多个参数,需要耗费约 5 天的时间。盘古大模型能够对最优参数进行预测,显著降低热轧生产线调优时间,并提高预测精度和钢板成材率。目前盘古大模型目前已在宝钢 1880 热轧生产线上线,预测精度提高 5% 以上,钢板成材率提升 0.5%,预计每年可以多产钢板 2 万余吨,年收益达 9000 余万元。此外,盘古大模型还将应用于高炉场景,对炉温、铁水温度、硅含量等炉况进行仿真,从而辅助高炉精准控制,充分利用每一分能源,降低能源成本。
03
华为云,AI Native 的云
除了盘古大模型的创新升级, 华为云还通过AI的全栈系统性创新,以及 AI 重塑云服务,这两个方面打造 AI Native 的云。华为云 CTO 张宇昕表示,通过全栈系统性创新,能够让大模型的数据准备、训练、推理、应用实现全流程的高效率和高性能。华为云的全栈系统性创新覆盖了数据中心、云平台架构和基础设施服务,为 AI 开发提供 AI Native 的基础设施。当前云平台在大模型的训练和使用中通常存在「算力墙」「内存墙」「能效墙」等问题。为此,华为云打造了下一代的云基础设施 CloudMatrix,改变传统数据中心的架构和算力供给模式,将传统的以 CPU 为中心的主从架构,演进为多元算力对等全互联架构;并通过高速互联网络协议,将 CPU、NPU、GPU 等算力资源全部互联和池化,从而把 AI 算力从单体算力演进到矩阵算力,开启智能算力新纪元。同时,针对云平台在大模型的训练和使用中存在的「内存墙」问题,华为云正式发布 EMS 弹性内存存储服务,基于 Memory Pooling 专利技术,通过显存扩展、算力卸载、以存代算等三大手段来打破内存墙,释放极致算力。基于新一代云基础设施和 EMS 弹性内存存储服务、昇腾 AI 云服务等创新,华为云已经在贵安、乌兰察布和芜湖,构建了三大 AI 算力中心 CloudOcean;同时也在华北、华东、华南等热点区域部署了 AI 算力资源池 CloudSea;还通过华为云 CloudLake 和 CloudPond 边缘云平台,将 AI 算力推到客户身边,提供最低时延的 AI 训推服务。由此,华为云打造了云、网、边、端协同的 AI Native 的算力平台,提供给开发者、客户和伙伴使用。同时,华为云对 AI 开发生产线 ModelArts 进行升级,在 AI 开发基础设施和流水线之上,构建了大模型即服务平台 ModelArts Studio,提供百模千态的第三方大模型托管服务,支持对大模型定制开发,并提供相应的工具和行业集成套件,让客户可以方便的将大模型与业务系统结合。ModelArts Studio 大模型即服务平台具备三大特点:一、支持零代码、免配置模型开发:华为云沉淀盘古大模型的开发经验,以及 100 多个第三方大模型基于昇腾平台适配和调优的经验,为企业模型调优自动推荐最优配置参数。二、支持多模型智能路由:ModelArts Studio 能够根据任务类型、模型效果自动选择合适的模型,例如将复杂推理类任务路由给盘古处理,而将简单的文案生成类请求路由给开源模型来处理。从而提升企业的模型管理和维护效率,降低模型调用成本 25% 以上。三、提供多个智能 Agent:ModelArts Studio 沉淀了 50 多个智能 Agent,可以准确理解业务意图,分解复杂任务,帮助企业快速智能构建和部署大模型应用。除了系统性创新,华为云还将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等各个领域积累的数据和经验相结合,「跳了自己的降落伞」,应用在了华为云 CodeArts、DataArts、MetaStudio 和 GaussDB、云安全等系列云服务的智能化上。将华为云的服务重塑和升级,从而更智能、更高效。在软件开发方面,华为云通过结合 AI Agent 能力,将 CodeArts 软件开发生产线从单点智能升级到项目级智能,大幅提升了问题定位率和项目级问题修复成功率,让开发者能轻松实现项目级智能。在数据治理方面,华为云将盘古大模型和华为多年数据治理经验相结合,让不熟悉 IT 技术的业务人员、管理人员可以通过自然语言交互的方式,快速获取需要的数据,形成可视化的图表,直接高效的管数、用数。在数字内容生产方面,华为云将盘古媒体大模型和华为有着深厚积累的音视频编解码、3D 模型物理仿真、图形渲染等引擎能力相结合,一起用于 AI 内容生成。这样生成的数字内容更符合物理世界的规律,并且可以实现任意时长的实时互动,突破了当前 AIGC 的局限。在数据库方面,华为云将产品文档、专家知识、运维经验等数据库专业数据和大模型相结合,构建盘古数据库大模型,让 GaussDB 数据库在开发、测试、迁移、运维等全生命周期实现智能化,显著提升开发人员和 DBA 的使用效率。在安全方面,华为云打造了面向安全领域的盘古安全大模型,能够快速、精准地给出安全治理咨询的专业意见,让企业安全更加智能。华为云还对昇腾 AI 云服务进行了持续优化。业界万亿参数模型训练的平均无中断时长约 2.8 天,昇腾 AI 云服务可实现 40 天无中断;业界平均集群故障恢复时间约 60 分钟,昇腾 AI 云服务可以缩短到 10 分钟,同时能将大模型的资源开通时间从月级缩短到天级,加速大模型的开发。目前昇腾 AI 云服务已全面适配行业主流的 100 多个大模型,以云服务的方式协助客户开发,训练,托管和应用模型,打造百模千态的「黑土地」。从操作系统、到大模型和云计算,华为正在通过整合智能时代不同的技术生态来支持开发者,进一步推动智能化应用的落地。