Redian新闻
>
一文掌握数据存储技术趋势(2023)

一文掌握数据存储技术趋势(2023)

公众号新闻

AI大模型已超出人类想象的速度,将我们带入智能世界。算力、算法、数据构成了AI的三要素。算力、算法是AI大模型时代的工具,数据的规模和质量才真正决定了AI智能的高度。数据存储将信息变为语料库、知识库,正在和计算一起成为最重要的AI大模型基础设施。

本文来自“《迈向智能世界白皮书2023版(合集)》”。高可靠、高性能、共享的数据存储,成为以Oracle为代表的数据库的最佳数据基础设施。面向未来,对企业数据存储进行了如下展望:

  • AI大模型将AI带入新的发展阶段。AI大模型需要更高效的海量原始数据收集和预处理,更高性能的训练数据加载和模型数据保存,以及更加及时和精准的行业推理知识库。以近存计算、向量存储为代表的AI数据新范式正在蓬勃发展。

  • 大数据应用经历了历史信息统计、未来趋势预测阶段,正在进入辅助实时精准决策、智能决策阶段。以近存计算为代表的数据新范式,将大幅提升湖仓一体大数据平台的分析效率。

  • 以开源为基础的分布式数据库,正在承担越来越关键的企业应用,新的分布式数据库+共享存储的高性能、高可靠架构正在形成。

  • 多云成为企业数据中心新常态,企业自建数据中心和公有云形成有效互补。云计算的建设模式从封闭全栈走向开放解耦,从而实现应用多云部署、数据/资源集中共享。

  • AI大模型应用聚集海量企业私域数据,数据安全风险剧增。构建包括存储内生安全在内的完整数据安全体系,迫在眉睫。

  • AI大模型推动数据中心的计算、存储架构从以CPU为中心走向以数据为中心,新的系统架构、生态正在重新构建。

  • AI技术正在越来越多地融入在数据存储产品及其管理,从而大幅改善数据基础设施的SLA水平。


1、AI大模型

AI的发展远超过预期,2022年末,当OpenAI发布ChatGPT时,没有人能想到,AI大模型接下来将为人类社会带来历史性变革。

简单来说,AI大模型时代的到来,存储作为数据的关键载体,需要在三个方面演进,即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上,需要满足百GBps级的带宽和千万级IOPS,实现10倍以上的性能提升。

企业在使用AI大模型、HPC、大数据时均需要丰富的原始数据,它们的来源是相同的,均是企业所积累的生产交易数据、科研实验数据和用户行为数据。因此,大模型采用和HPC、大数据同源的建设模式是最经济高效的,实现一份数据在不同环境中协同工作。

全闪存存储将带来性能大幅提升,加快AI大模型开发落地的速度;以数据为中心的架构可以带来硬件资源的解耦与互联,加速数据的按需流动;数据编织、向量存储与近存计算等新兴数据处理技术,将最大程度降低企业整合数据、使用数据的门槛,满足资源的高效利用,降低行业接入AI大模型的难度;存储内生安全体系将保护企业核心私密数据资产,让企业更加放心地使用AI大模型。

2、大数据

大数据应用的发展可以描述为传统数据应用、预测分析和主动决策三个阶段。

传统数据仓库时代:企业通过数据仓库构建面向主题的、可随时间变化的数据集合,从而实现对历史数据进行准确的描述和统计,为分析决策服务,但仅能处理TB级结构化数据。

传统数据湖时代:企业使用Hadoop技术构建数据湖,处理结构化、半结构化数据,实现基于历史数据预测未来的发展趋势。这个阶段形成了数据湖和数据仓库并存的“烟囱”架构,数据需要在数据湖和数据仓库之间流转,因而无法实现实时决策、主动决策。

湖仓一体时代:企业开始尝试从IT堆栈优化上寻找实时决策、主动决策解决方案,将大数据平台快速推向湖仓一体的新架构。其核心举措是与存储厂商联合创新,将大数据IT堆栈存算解耦,以数据湖存储实现数据湖和数据仓库共享同一份数据,无需在数据湖和数据仓库间进行数据流转,从而实现实时、主动决策。

3、分布式数据库

开源数据库MySQLPostgreSQL占据全球数据库市场格局TOP2。开源数据库正在重构企业核心系统。同时为确保业务平稳运行,分布式数据库存算分离架构正在成为事实标准。

目前,全球主要银行均已通过存算分离架构分布式数据库建设新核心系统,亚马逊Aurora、阿里PolarDB、华为GaussDB、腾讯TDSQL等主要新型数据库厂商均已将其架构转向存算分离,存算分离架构已经成为分布式数据库建设的事实标准。

4、云原生

企业云计算基础设施已经从单云走向多云。不论哪一朵云都无法同时满足企业所有对应用与成本的诉求。因此,89%的企业选择建设多个公有云和私有云并存的多云IT架构。

目前基础设施面向多云打造的关键能力大致可分为两类。第一类是使能数据跨云流动,如华为和NetApp存储支持数据跨云分级、跨云备份能力,使数据始终使用性价比最高的存储服务;另一类是数据跨云管理,让用户通过全局数据视图把握数据总体情况,并将数据调度到产生价值最大的应用中。

企业采用开放解耦架构建设,让硬件资源可被多个云共享,数据可在多个云间按需流动,方可真正发挥多云架构优势。

从硬件、平台到应用,最优的服务往往来自不同供应商,因此通过开放解耦的建设方式企业能搭建最优的IT堆栈。以AI为例。当前市面上最为火热的AI大模型供应商,如openAIMeta等,其硬件基础设施能力远不如NVIDIADDN、华为等IT巨头。没有任何一个厂商能够提供端到端的最优AI训练/推理方案,因此企业在搭建自己的AI训练/推理集群时,会选择开放解耦的架构,选择最优的硬件和训练/推理模型。

5、非结构化数据

随着5G、云计算、大数据、AI、高性能数据分析(HPDA)等新技术、新应用的蓬勃发展,企业非结构化数据快速增长,如视频,语音,图片,文件等,容量正在从PBEB级跨越。例如,一台基因测序仪每年产生数据达到8.5PB,某运营商集团每天平均处理数据量达到15PB,一颗遥感卫星每年采集数据量可以达到18PB,一辆自动驾驶训练车每年产生训练数据达到180PB

首先需要让数据“存得下”:以最低的成本、最小的机房空间、最低的功耗存下更多的数据。

其次要让数据在都要“流得动”:数据中心间和数据中心内的数据需要根据策略按需高效流动。

最后还需要让数据“用得好”:企业的视频、音频、图片、文本等多种混合负载应用都能满足要求。

6、存储内生安全

数据作为AI的根基,其重要性进一步凸显,数据的安全就是企业核心资产的安全。据splunk公司发布的《2023年安全现状报告》显示,超过52%的组织遭受了恶意攻击导致数据泄露,66%的机构遭受勒索软件攻击,数据安全的重要性正在不断上升。

数据在产生、采集、传输、使用、销毁的全生命周期处理过程中始终离不开存储设备。存储作为数据的最终载体,数据的“保险箱”,拥有近数据的保护能力,近介质的控制能力,在数据安全防护、数据备份与恢复、数据安全销毁等领域有不可替代的作用。

存储内生安全体系通过先天的架构与设计,不断增强存储的安全能力,包含两个方面:存储设备自身的安全能力、存储的数据安全防护能力。

7、全场景闪存

根据市场统计到2022年,SSD的市场份额和出货数量已经是机械盘的2倍以上,占比超过了65%。我们有理由相信企业正在迎来全面闪存化的时代。

企业级 SSD 的核心组成部分——NAND颗粒,很大程度上决定其成本。而3D NAND堆叠层数升级与QLC颗粒的应用,推动全闪存物料成本不断降低。目前,主流颗粒厂商量产的3DNAND颗粒堆叠层数已经达到176L,并纷纷给出200层以上设计路标,比2018年提升接近2倍。除了堆叠层数,在颗粒类型方面,TLC颗粒已经成为企业级SSD主流选择,QLC SSD也已登上舞台。

更多SSD内容,参考“2023年计算机SSD固态硬盘词条报告”,“企业级SSD技术和行业发展(汇总) ”、“《中国企业级SSD行业技术合集》”、“《SSD技术白皮书系列》”和“《SSD介质技术》”。

8、以数据为中心的架构

近年来,AI和实时大数据分析应用蓬勃发展,以CPU为主的算力向CPU+GPU+NPU+DPU的多样化算力发展。

未来,随着AI、大数据等应用更高的性能时延要求、CPU性能增速放缓,在服务器架构演进为Composable架构的同时,存储架构也将演进为以数据为中心的Composable架构,从而大幅提升存储系统的性能。存储系统的多样化处理器(CPUDPU)、内存池、闪存池、容量盘池,将通过新型数据总线互联,从而实现数据进入存储系统之后可以直接存放至内存或闪存,避免CPU成为数据访问的瓶颈。

9、AI赋能存储

基于传统AI实现性能、容量、备件故障等趋势提前预测,降低异常发生概率;在复杂的异常处理场景,存储管理系统可基于AI大模型快速强化交互逻辑,辅助人工快速定位问题,从而大幅缩短故障处理周期。

10、存储绿色节能

在“碳达峰、碳中和”大背景下,绿色低碳成为数据中心的重要发展方向。存储能耗在数据中心占比超过30%。因此,除了降低PUE之外,降低以存储为代表的IT设备能耗,对于促进数据中心零碳排至关重要。

通过多协议融合和孤岛融合,实现多合一,提升资源利用率。一套存储可支持文件、对象、HDFS等多种协议,满足多样化需求,整合多种类型存储;同时通过融合资源池,实现资源池化,从而提升利用率。

存储有83%的能耗来自于存储介质,在相同容量下,SSD相比机械硬盘的能耗降低70%,空间占用节省50%。通过大容量SSD和高密硬盘框,提升存储容量功耗占比,减少相同数据量附带产生的数据处理和存储能耗,进而推动存储单位容量能耗降低,用更小的空间存储更大的容量。


更多存储技术参考服务器基础知识全解(终极版)姊妹篇存储系统基础知识全解,包含存储介质技术、存储系统及形态介绍、存储协议详解、存储系统技术概述、存储关键技术、存储系统技术创新及趋势、存储虚拟化技术、存储系统数据备份技术、存储备份方案设计等9个章节。


申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。

推荐阅读

1、全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送服务器基础知识全解(终极版)存储系统基础知识全解 pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价439元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。

温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
故乡轶事(八)大学包的传奇科研热点CAR-T大数据(2023):正在新一轮突破,在这两个领域最为明显咖啡是天使或恶魔?健康利弊一文掌握,这4种人最好别碰Resolution in 2023#016 研究Castleman病的中国医生和医院 - 基于SCI论文大数据分析报告(2023)存储技术,未来怎么发展?未来储能研究:跨季储热技术 | 热能存储技术国际线上研讨会报名中!直播报名 | 数据存储难题有何新解法?我们为你找到了应对之策!以网络IO为中心,无服务器数据中心(2023)一文掌握网络技术发展趋势(2023)江波龙,车规级eMMC/UFS助力智能汽车数据存储升级|年会展商算力研究:计算、存储、网络(2023)#023 研究先天性脊柱侧弯的中国医生和医院 - 基于SCI论文大数据分析报告(2023)生成式人工智能催生算力需求 数据存储产业迎来新机遇清华五道口:全球普惠金融发展趋势报告(2023)2023 US Open 美国网球公开赛#018 研究瓜氨酸血症的中国医生和医院 - 基于SCI论文大数据分析报告(2023)#010 研究自身免疫性垂体炎的中国医生和医院 - 基于SCI论文大数据分析报告(2023)一文掌握算力技术发展趋势(2023)一文掌握【全美权威】拉丁语竞赛盛事!文末含拉丁语水平免费测评福利!大理石台面油污清除(加州的老墨 - 7)US News 2023抗疫胜利音乐会苏珊米勒一周星座运势(8.28-9.3)免费试听|全面掌握数据分析、机器学习、A/B实验基础理论和实践知识,高效斩获心仪offer!2023/08最新民调,台湾人对于独立还是统一是怎么看的?把握数字时代脉搏 共创幸福美好未来——习近平主席致2023中国国际智能产业博览会贺信为数字经济发展指明方向存储芯片技术基础知识介绍(2023)未来储能研究:储热热泵及在建筑中的应用 | 热能存储技术国际线上研讨会报名中!解读 Gartner 2024 年十大战略技术趋势金刚石,助力数据存储介质新突破“野渡”舟自横一文掌握RDMA、NVMe和NVMe-oF市场分析:分布式存储、软件定义存储、超融合存储(2023)Gartner发布2024 年十大战略技术趋势也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?咖啡是天使或恶魔?健康利弊一文掌握,这4种人最好别碰!一文掌握信创SAN存储转型路线微醉10倍性能提升-SLS Prometheus 时序存储技术演进
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。