Redian新闻
>
盘古大模型之外,华为首秀大模型时代「硬实力」

盘古大模型之外,华为首秀大模型时代「硬实力」

科技

让企业「无痛」进入大模型时代,华为要靠「硬实力」。


作者 | 靖宇

就像当年所有公司都在你追我赶的「上云」,现在所有公司都在问,如何才能用上大模型?

不少公司不断推出不同的大模型,来帮助企业进入到这个 AI 的新时代。
如果说大模型代表的「算法」、GPU 代表的算力都在因为大模型而不断进化时,在数据方面,尤其是数据存储方向上,业界目前还没有更好的方案,来解决大模型时代数据的存储、训练和传输。
7 月 14 日,在华为盘古 Chat3.0 发布一周后,华为数据存储发布了新产品 OceanStor A310 和 FusionCube A3000,两款产品分别在深度学习数据存储,以及训(练)/推(理)融合能力上进行了提升,有望进一步降低 AI 大模型的使用门槛。
华为公司副总裁,数据存储产品线总裁周跃峰|华为


01

两小时完成大模型部署 


「如果用人类进化历史做比喻,大脑类似于算力、算法类似于方法论,而文字类似于数据,有了文字,才能传承文明。」
华为公司副总裁,数据存储产品线总裁周跃峰如此描述算力、算法和数据,三个在 AI 时代最重要的元素的关系。
在大模型为代表的新的 AI 时代,算力和算法在快速推进,这就对数据也提出了更高的要求——一方面大模型需要的数据量更大,一方面数据存储需要更好的配合算力,避免让 GPU「空闲」浪费算力资源和成本。
华为团队认为,大模型时代存储的技术挑战有两个:

数据准备阶段的问题,

包括数据归集慢以及

数据预处理周期长。

数据归集需要从跨地域的多个数据源拷贝原始数据,这些原始数据不能直接用于 AI 模型训练,需要将多样化、多格式的数据进行清洗、去重、过滤、加工,大量的数据预处理工作需要耗用大量的 GPU,我们知道 100 个 GPU 每小时的训练成本是几十万,可以用「近存计算技术」系统性地处理这个问题,从而让整个系统更高效。

训练集加载效率问题

和训练中断处理。

相较于传统深度学习模型,大模型带来训练参数、训练数据集呈指数级增加,如何实现海量的小文件数据集快速加载,降低 GPU 等待时间都是需要认真考虑的问题。同时,主流训练模型已经有千亿级参数,甚至将发展至万亿级。
AI 大模型训练不稳定,频繁的参数调优、服务器故障或者网络的故障经常造成中断,需要 Checkpoint(检查点)机制确保训练能够快速返回。
针对上述痛点,华为团队推出了 OceanStor A310 和 FusionCube A3000 两款产品:


OceanStor A310 

深度学习数据湖存储

为智能数据而生,实现从数据归集、预处理到模型训练、推理应用的 AI 全流程海量数据管理。
利用全局文件系统 GFS 构建智能的数据编织能力,接入分散在各地域的原始数据,实现跨系统、跨地域、跨云的全局统一数据视图和调度,简化数据归集流程;
通过存储内嵌的算力实现近数据的预处理,减少无效数据传输,同时降低预处理服务器等待时间,预处理效率提升 30%

FusionCube A3000 

训/推超融合一体机

面向十亿级模型应用,集成存储节点、训/推节点、交换设备、AI 平台与管理运维软件,可实现一站式快速部署,通过预置 AI 大模型,2 小时即可完成开局,开箱即用。
高性能容器实现 GPU 共享,提升资源利用率。客户可以在边缘部署全流程的推理业务,并且每周或每月进行一次模型调优,这就需要多应用融合调度,大模型小模型融合调度。
通过容器应用共享 GPU 资源池,资源利用率可以达到 70% 以上。

02

「存算互助」 


不久前 Snowflakes 的年度大会上,这家知名数据平台公司宣布了和英伟达达成合作协议,将在大模型训练等领域进行深度合作。
英伟达的 GPU 堪称是大数据时代的「新核弹」,从某种意义上说,谁能拿到足够多英伟达的 GPU,就在算力上取得了优势。
但这件事还有另一个角度。
当前计算机体系结构依然是以 CPU 计算芯片为代表传统的冯·诺依曼架构,而 GPU 是针对 AI 场景定制的芯片,CPU 和 GPU 速度差可达 4-20 倍以上。
这带来的最大的问题是大多数情况下 CPU 跟不上 GPU 的处理速度,这样就会长时间使得 GPU 处于饥饿状态,导致昂贵的 GPU 资源浪费。
华为苏黎世研究所存储首席科学家张霁透露,团队正在研究如何利用近存计算/存内逻辑的能力,在海量 AI 数据存放的源头进行适当的计算逻辑的卸载,释放 CPU 的部分能力,降低 CPU 和 GPU 的效率差,进而提高 GPU 的处理效率
这意味,如果在数据存储端,就能把一些预处理的工作完成,就能减轻 CPU 的压力,进而让 CPU 和 GPU 能更高效的合作,提升 GPU 的处理效率。
尤其在目前 GPU 算力相对紧缺的当下,数据存储端如果能和 GPU 产生「互补」,无疑是一件好事。
周跃峰认为,目前大模型算力成本约占整个成本的 25%,而数据清洗、预处理等工作,在不算数据存储硬件的情况下,占到成本 22%,从这个角度看,数据机器存储过程,在大模型时代越来越重要。
「这不仅仅是简单的数据量变大,而且数据的处理过程,以及过程中对于硬件性能的要求越来越高。」
周跃峰认为,随着大模型出现,数据存储和处理相关领域未来会越来越有前景。

*头图来源:华为
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO


极客一问

在你看来,

大模型时代存储的技术挑战是什么





 

热点视频

马斯克今日宣布正式创立新公司 xAI,称其目标定位于了解宇宙的真实本质。

点赞关注极客公园视频号
观看更多精彩视频



 

更多阅读




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI for Industries!华为云发布盘古大模型3.0华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报华为云盘古大模型:下矿坑、测台风、进产线,没时间作诗|甲子光年后疫情时代如何用软技能为硬实力加杠杆?!——律政界顶流TOT对话卓越领袖华为盘古大模型将在 7 月重大升级;Keep 通过港交所聆讯;FF 延迟交付,贾跃亭发文致歉 | 极客早知道蚂蚁集团回应被罚没 71 亿元 / 华为发布盘古大模型3.0 / 知乎将下线匿名功能 | 未来周报华为盘古大模型全布局揭秘,惊为天人!独家 | 原华为盘古大模型成员史佳欣离职创业盘古大模型+华为NearLink星闪技术+方舟引擎,鸿蒙4.0这是什么全明星阵容?上海发布大模型政策,打造AI“模”都;罗永浩“曲线上市”成功;华为云正式发布盘古大模型3.0……百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报《Nature》刊发华为云盘古大模型最新成果 盛赞:重新审视气象预报的未来OpenAI 向所有付费用户开放 GPT-4;华为云发布盘古大模型 3.0;蚂蚁集团被罚 71.23 亿元 | 极客早知道胡厚崑:大模型时代,华为的定位和路径波兰移民卡尔要是当初不出国(5)智能周报|苹果营收连续3个季度下降;苹果中国区应用商店下架多款AIGC应用;鸿蒙4.0将接入盘古大模型华为盘古大模型3.0正式发布!一句对话生成代码,还能解决世界难题...第二十六章IBM watsonx:功夫在大模型之外火星乐园第三部《灰界》第十七章 原值曝光华为轮值董事长胡厚崑:盘古大模型 3.0 将于 7 月 7 日发布印度洋文明,不可避免的冲击,有人否定,有人支持华为云盘古大模型登Nature:秒级完成气象预测,速度快10000多倍一年一度AI大考,大模型之外,为何游戏公司的答卷也很重要?华为盘古大模型 3.0 发布:不开源,现阶段谈投入和收益为时尚早首批AI大模型获批上线,BATH在列;华为Mate 60开售即火,接入盘古大模型;AI操控无人机能力超越人类冠军丨AI周报微信测试新功能,蔚来总裁称充电桩应优先保障纯电车,华为将推出盘古数字人大模型,马斯克保留推特浅色模式,这就是今天的其他大新闻!改造后的盘古大观亮了“不作诗,只做事”的盘古大模型怎么为文娱行业赋能?华为盘古大模型或迎大升级;张勇首谈全心投入阿里云原因;美团证实王慧文离岗丨AIGC大事日报6000 字详解盘古大模型:能否撑起世界 AI 另一极?深度好文|华为盘古大模型全布局揭秘,惊为天人!知乎将正式下线匿名功能;罗永浩交个朋友公司在港股上市;华为云发布盘古大模型3.0丨大公司动态DeepMind推出AI图像识别工具;华为Mate 60 Pro接入盘古大模型;传谷歌Gemini算力达GPT-4五倍
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。