分布式存储:三种主流形态及主要场景
分布式存储其产品交付形态包括分布式存储一体机产品和分布式存储纯软件产品。内容参考自“分布式存储发展白皮书(2022年)”。
分布式存储一体机产品的硬件是采用特定设计或针对性优化的存储硬件,并通过软硬协同实现端到端的高可靠、高性能、高扩展以及一体化的运维能力。
分布式存储纯软件产品只交付存储软件,并给出对应的通用硬件兼容性列表,硬件由用户另行选择购买,分布式存储的服务由存储软件厂商和通用硬件厂商分别提供。分布式存储一体机产品在整体性能上得到最佳优化验证,基于软件+硬件提供更细致的运维管理粒度,降低用户的运维复杂度和成本,并提供一站式售后服务。分布式存储纯软件产品采用通用硬件兼容的方式,在硬件的选择上比一体机产品更灵活。
一、分布式存储从产品组成形态
分布式存储从产品组成形态上看,包括商业软件+专用硬件、商业软件+通用硬件、开源软件+通用硬件三种形态。
其中自研商业软件分为两条路线,一是完全自主研发,完全掌握底层架构设计和核心代码主动权;二是基于开源分布式存储软件进行开发,做深度改造和优化,使之达到可商用的级别。硬件也分为两条路线,一是采用专用硬件,结合自研商业软件软硬协同设计达到最佳的性能和可靠性;二是采用通用硬件,以软件兼容的方式选择硬件。
商业软件+专用硬件
厂家具备软件和硬件的完全自主开发能力和知识产权,结合软硬件能力进行最佳的设计,对客户提供软件+硬件一体化交付的整体服务,整体性能会有较高保证,同时降低运维的复杂度,代表产品包括(但不限于)∶DellEMC Isilon、NetApp FAS、华为 OceanStor Pacific、新华三UniStor X10000、曙光ParaStor、联想DXN等。
2.商业软件+通用硬件
厂家具备软件的自主开发能力和知识产权。采用一体机交付形态时,硬件选用软硬协同优化的通用X86、ARM等服务器,对客户提供软硬件一体化交付的整体服务,能保障整体性能和简化运维,代表产品包括(但不限于)∶新华三UniStorCX、XSKYXSCALER/XINFINI等;采用纯软件产品交付形态时,对客户只提供软件的服务,硬件由客户自行选用软件兼容性列表中的通用X86、ARM等服务器,选型灵活度较高,由服务器厂家提供服务器自身的服务。代表产品包括(但不限于)∶XSKYXEBS/XUDS/XGFS、SandStone MOS/USP/HuaYan等。
3.开源软件+通用硬件
采用开源软件可以便捷的在通用X86、ARM等服务器上搭建分布式存储,开源软件一般由客户自己来运维服务,通用硬件由服务器厂家提供服务,开源软件以美国为主,代表产品包括(但不限于)∶Ceph,Lustre,GPFS,BeeGFS等。
二、分布式存储产业生态
2022年2月,分布式存储产业方阵联合产、学、研、用各界共同发起编制国内首个分布式存储产业生态图景,2022年6月,产业生态图景完成编制工作。
此生态图景共有五个维度,自下而上分别是∶关键部件、产品形态、服务类型、应用场景、应用行业,旨在为分布式存储产业链企业及最终用户提供清晰的分布式存储生态图景,梳理产业发展脉络,呈现不同领域的典型企业,展现分布式存储生态格局。从分布式存储全产业链发展的角度来看,无论是位于上游的IT基础设施提供商、存储关键部件提供商,还是面向客户和行业的解决方案提供商、系统集成商,在以分布式存储为核心的生态圈中均呈现规模增长。与此同时,不同企业在提供产品或服务时,基于各家战略定位、商业决策以及运营模式的差异化,最终面向市场和用户的产品形态及服务类型呈现多元化态势。此外,分布式存储的细分赛道发展及不同行业的实际落地情况是分布式存储产业生态成熟的标志,不同领域生态伙伴的密切合作将成为连接产业供需双方的重要纽带。
根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,分布式存储的典型应用可以分为九大场景,本章将对每个细分场景需求和分布式存储应用发展给出详细的分析和建议。
1、虚拟化/云计算
虚拟化/云计算资源池是分布式块存储的典型应用场景,主要用于为各种私有云/虚拟化平台提供块存储资源,支撑私有云/虚拟化平台的存储弹性扩展、业务敏捷开发、快速应对浪涌,保证在虚拟化/私有云中运行的各种应用的高可用及高性能。
1)应用场景特征和需求∶
1.承载越来越多企业核心应用∶随着更多的企业核心应用基于虚拟化与云计算平台,分布式存储作为其数据底座,对IOPS、时延及可靠性等方面均提出更高要求。
2.业务要求更加敏捷∶企业数字化转型加速,业务增量难以预测,需要虚拟化/云计算平台提供更加弹性的数据存储,实现敏捷IT设施交付与服务。
3.安全稳定∶业务要求虚拟化/云计算平台长期稳定运行、满足安全等保要求及对应的数据保护能力。
4.绿色节能要求∶存储设备在云数据中心的能耗占比约20%-30%,数据存储的低碳运行是虚拟化/云计算节能减排的重要支撑。
2)分布式存储优势及发展建议∶
1.闪存化∶分布式存储像集中式存储一样逐步闪存化。通过闪存配置,同样的机房空间下,可以提供更高的IOPS、更低的时延及功耗。闪存介质价格的不断降低带动全闪存分布式存储的更加普及。
2.完备的数据保护能力∶分布式存储需要完备的数据保护能力,异步复制、同步复制、双活会成为未来分布式存储的必备能力。
3.软硬一体交付∶软硬一体交付的分布式存储能提供更高的可靠性;一站式端到端交付,时间短;服务界面统一,问题响应更加简单高效。
4.超融合架构∶超融合在分布式存储之上还提供计算能力,虚拟化能力,甚至云化能力,对客户提供软件+硬件的整体服务。超融合将成为虚拟化/云计算场景的一种主流交付形态。
5.绿色节能∶数据存储的能耗将随数据量的增加不断上升,同等容量下要求设备占用空间更小,功耗更低。
2、高性能计算
高性能计算是分布式存储的高价值应用场景,是在传统HPC向HPDA演进过程中,为应对海量数据高性能并行访问与计算的高吞吐、高IOPS、混合负载需求出现的应用场景。高性能计算场景典型应用子场景包含基因测序、自动驾驶、能源勘探、教育科研、气象预测、卫星遥感、类脑科学、高能物理、天文物理、灾害模拟、媒体计算。
1)应用场景特征和需求∶
1.负载类型从单一变多样∶从内存计算+少量存储IO到频繁存储IO访问,从单一负载到高带宽、高IOPS混合负载并存。如能源勘探领域,地震资料处理需要存储集群聚合带宽高达每PB数十GB/s,油藏模拟需要高IOPS,单IO 延时低至百微秒级。基因测序需要存储系统单线程数GB/s以上的吞吐能力。
2.应用类型从简单变复杂∶从传统HPC侧重数值计算到HPC+大数据+Al 融合。如自动驾驶领域,业务流程处理较多,数据传输导入、预处理、训练、仿真、结果分析各个环节使用不同的协议类型。
3.容量需求从PB级走向EB级∶HPC应用的数据量级从PB级正在加速走向EB级,耗能增加迅速。如基因测序领域,1台基因测序仪一年产生原始数据和膨胀数据约8.5PB,自动驾驶向L3及以上级别升级,每量车每天有数百TB 路采数据导入。
4.数据管理需要平衡性能和成本∶热数据要求高性能,冷数据要求低成本,需要将数据及时灵活地分配至合理的存储空间,平衡数据的性能和成本矛盾。
5.高性能计算的长稳性要求∶HPC集群承担重要生产任务,需要长期稳定运行,对可靠性和可用性要求极高。如气象预测业务运行时效性强,过程不中断。一次科学研究计算耗费几周,一旦中间发生中断,将导致科研项目延期交付。
2)分布式存储优势及发展建议∶
1.支持混合负载∶随着传统HPC与大数据和Al技术逐渐走向融合,一套存储需要同时满足极致带宽、极致IOPS和极致时延的混合负载要求。存储集群应采用全对称分布式架构,All-Active元数据集群,提升海量文件处理能力。
2.多协议互通∶统一数据存储底座,一套存储系统提供并行文件系统、HDFS和对象存储服务,各种存储服务统一管理。多种非结构化数据服务之间支持协议互通、数据互访,免数据迁移。
3.数据全生命周期管理∶通过智能集群管理,SSD、HDD、蓝光等多种存储介质融合,冷热温数据协同分析。支持用户定义工作流中数据的价值,将高价值的文件放置在高性能的存储节点,低价值的文件放置在成本较低的、性能较低的节点,数据的分级流动对上层应用透明。
3、大数据分析
企业通过大数据分析让海量数据价值二次变现,这使得企业愿意更多、更久地保存数据,带来了数据量从PB到EB级的跨越式增长。大数据分析是以Hadoop为代表,对海量的、多类型的数据进行获取、存储和分析,并经济性的提取价值。今天我们讲的大数技术,已不仅限于Hadoop,而是一个汇集多种多样的数据处理技术、非常广泛的生态圈。大数据分析是分布式存储的典型应用场景。通过把Hadoop集群计算与存储分离部署,分布式存储对上层计算提供原生HDFS能力,按需配置计算能力与存储资源,提升资源利用率。
1)应用场景特征和需求∶
1.大数据平台资源利用率低∶当前大数据平台的三副本策略,存储资源利用率只有33%。同时考虑硬件采购、空间占用等因素,实际存储成本是有效存储成本的2倍以上。应用的多元化导致计算和存储需求难以均衡,存算一体的建设模式不可避免的存在资源浪费。
2.不同大数据集群管理∶多数用户拥有多个大数据集群,由于现有HDFS 单命名空间文件个数上限较小,海量数据需通过多个独立的原生HDFS命名空间进行管理。计算集群需根据不同的命名空间分别配置和管理,不利于数据共享,难以简化管理。
3.元数据管理分散∶用户普遍存在多个大数据平台,由于不同厂商提供不同的元数据实例,Schema分散不统一,在不同厂商之间难以共享数据,报表数量增加等场景下,单一的元数据实例在大量并发分析作业schema查询阶段将会出现瓶颈。
4.大数据升级为生产系统∶大数据分析应用逐渐由支撑业务系统变为生产业务系统,可靠性与稳定运行要求越来越高。
5.大数据重复拷贝∶多套大数据平台,同时存在多个同质化大数据组件服务于不同业务平台,缺少统一的入湖入口和元数据格式,导致数据在各个大数据平台件存在不同程度的重复拷贝现象。数据重复、多次ETL和格式转换,使得算力和存储无法高效使用。
2)分布式存储优势及发展建议∶
1.计算存储分离,降低数据存储TCO。分布式存储提供原生HDFS协议,支持上层应用无需修改。通过计算与存储分离部署,利用分布式存储EC机制,容量利用率提升至60%~91.6%。存储和计算资源解耦可以按需配置计算能力与存储资源,避免存储扩容导致计算资源也必须扩容的问题。
2.多集群异构联邦管理。通过异构集群联邦管理提供全局、对外统一的HDFS命名空间,管理多个HDFS子命名空间,解决集群大规模的横向扩展的问题。通过纳管存量HDFS集群,保护既有投资。
3.统一元数据。提供一套可扩展的元数据管理服务,实现元数据统一管理,实现数据的自由流动,跨地域跨系统协同分析,打通数据孤岛。通过计算组件与元数据解耦,让计算组件可无状态部署,实现大数据组件热插拔。
4.多协议互通。一套存储,一份文件,同时支持HDFS、文件和对象协议访问。
5.流式入湖。分布式存储支持kafka流式入湖,统一入湖格式,免ETL直转hudi Schema,数据高效共享。
6.算子下推加速。存储平面理解大数据数据格式,通过算子下推方式,可以把过滤、聚合等NDP算子下推,S3Select、优化与Presto/Hive/Spark等计算引擎协同,卸载部分计算到存储减少网络IO,提升查询时延。
微信扫码关注该文公众号作者