Redian新闻
>
基于RDMA/NVMe低时延存储系统设计

基于RDMA/NVMe低时延存储系统设计

公众号新闻

今天,接着上篇文章“关于企业闪存系统关键技术介绍”,以Dorado闪存产品为例,谈谈基于RDMA/NVMe低时延存储系统方案介绍、设计实践。

下载地址:NVMe网络协议发展趋势

开源分布式存储架构概览

IPS分布式存储技术探讨
RDMA技术原理白皮书
基于RDMA的高性能分布式文件存储

Ceph存储部署和调优指南

《Ceph存储部署指南》

存储控制器之间的数据可以通过RDMA互联,RDMA 直接 一跳到达到对端节点内存,无需再次搬移或中转。控制框与智能 NVMe 硬盘框、智能 SAS 硬盘框之间也采用 RDMA 组网连接。

1、低时延 RDMA 设计

数据经过 RDMA 链路进行远程 DMA 数据搬移,搬移工作由接口模块完成,无需两侧CPU 参与,大大提高了数据传输效率,降低了访问时延。通常,数据的传输过程分为两个步骤:

1. 把控制消息发送到对端,对端准备好接受的内存资源等,通知发送端准备好了;

2. 发送端再把数据发送到接收端。

RDMA 的通讯过程,通过接收端预先准备好内存资源等方式,控制消息和数据一起发送到接收端,减少了一次交互过程,实现了通讯的低时延。使用 RoCE 的 RDMA 技术,相比 PCIE/SAS 链路,具备更高可靠和更低通信时延。

下图是基于 PCIE 的 DMA 链路和 RoCE 链路的 IO 交互过程对比。数据传递包含三个阶段:启动控制命令,传递传输到对端,以及对端接收数据进行验证并回响应消息。在 PCIe 通信模型下为双边通信模型,即数据从控制器 发送到控制器 以后,控制器 的 CPU 还需要通过控制流通知控制器 数据已送达(触发控制器 的中断),控制器 调用中断处理过程,对消息进行校验并回响应消息。

图:Dorado闪存产品介绍

对于 RoCE 链路Dorado 采用单边通信模型,即当数据发送成功后,控制器 无需通知控制器 数据已经送达,控制器 会轮询并处理达到的数据,并回响应。因此 RoCE 相比PCIE 就减少了通知数据已经到达的过程,减少了交互次数,时延更低,带宽更高。

RDMA 全互联设计在连接距离、扩展灵活性、共享访问上还产生额外收益,下表是PCIERoCE 以及 SAS 通道比较。

图:Dorado闪存产品介绍

2、端到端NVMe设计

NVMe 是一种抽象协议层,提供可靠的 NVMe 命令和数据传输。为了支持数据中心的网络存储,通过 NVMe over Fabric 可以实现 NVMe 标准在多种网络上的扩展,达到降低存储网络协议栈处理开销并提供高并发低延时的目的,适应 SSD 介质驱动的存储架构演进。NVMe over Fabric 支持把 NVMe 命令和数据映射到多个 Fabric 传输链路,主要包括 FCInfiniBandRoCE v2iWARP 和 TCPOceanStor Dorado 支持端到端的 NVMe,包括:

存储与主机网络支持 FC-NVMeNVMe over FC),NVMe over RoCE v2,后续将扩展到 NVMe over TCP/IP

更高的接口速率,支持 32Gbps FC-NVMe 和 25Gb NVMe over RoCE100GbNVMe over RoCE

iSCSI 连接 TCP/IP 协议栈卸载技术,减少 CPU 消耗以及降低网络协议栈时延。

为多核定制设计的 NVMe 多队列轮询,免锁处理多并发 I/O,处理器算力发挥更彻底。

针对 NVMe SSD 访问而设计,对下盘请求提高读优先级调度,减少在写 SSD 盘的时候,对主机读请求的访问阻塞时长,使得更快响应。

采用端到端 NVMe 设计的系统最低访问时延降低至 100us 以内,相比上一代降幅达 50%

主机到存储NVMe over Fabric端到端部署,支持从主机、前端网络到存储系统,包括存储系统后端的磁盘框和 SSD,全数据路径支持 NVMe 协议。

主机 OS:支持 NVMe 协议的操作系统,SUSERetHat 等主流操作系统。

主机网卡:FC-HBA 卡,RoCE 卡,安装 NVMe 网卡驱动。

SAN FabricFC Switch DCB ETH Switch,对 NVMe 协议透明。

存储阵列:存储基于FC-NVMe 接口卡,NVME over RoCE 接口卡;

硬盘框:智能 NVMe 硬盘框,NVMe SSD

对于 FC-NVMe 应用,基于现有数据中心 FC SAN 的组网和交换机配置等基础设施,在主机 FC HBA 卡上安装 NVMe 驱动就可以支持 NVMe 协议,保护已有投资的同时向NVMe 演进。

对于 NVMe over RoCE 应用,需要基于 RoCE 网卡和 DCB 以太网交换机构建,适用于新建数据中心,实现数据中心的服务器集群、前端 LAN 网络和存储 SAN 网络的融合和统一,降低 TCO

RoCE 网卡和 DCB 交换机支持基于业务流的拥塞反压控制,组成了无丢包增强以太网,是 RDMA 和 NVME 运行的网络基础。NVMe 作为新一代的块存储协议命令集,从后端直连存储向全数据路径的网络连接存储的演进。

1NVMe 作为 SCSI 协议一种替代,定义了一套新的块存储协议命令集,使用 PCIe 为传输通道,极大的提升了时延和带宽。

2FC 和 iSCSI 解决了 SCSI 协议的扩展和拉远问题,同样 NVMe over Fabric 解决了NVMe 的扩展和拉远问题:

1PCIe NVMe 受限 PCIe 总线地址数,最大支持 255 个节点,通常只能支持到 100 个左右的 SSD 盘。

2PCIe NVMe 只能通过直连方式连接控制器,距离有限。

3NVMe Over RoCE,基于 DCB 的无损以太网基础设施,利用 RDMA 的低时延和低CPU 占用率,构建端到端 NVMe,并实现数据中心 LAN 网络和 SAN 网络融合。DCB是数据中心以太网标准,支持基于业务流的拥塞控制和反压,实现以太网的无损不丢包。

4NVMe Over FC,基于现有 FC 基础设施,快速构建端到端的 NVMe

随着存储介质从 HDD 发展到 SSD,存储高性能吞吐与 SCSI 协议传输较低性能吞吐之间的矛盾日益严重,从而出现了 NVMe 存储协议。NVMe 规范了 SSD 访问接口,简化了协议复杂性,充分利用 PCIe(Peripheral Component Interconnect Express)通道的低延时以及并行性,利用多核处理器,通过降低协议交互时延,增加协议并发能力,并且精简操作系统协议堆栈,显著提高了 SSD 的读写性能。

全场景闪存化推动了数据中心的网络改革,NVMe 最大化释放了 SSD 介质的能力。更快的存储呼吁更快的网络。NoF 存储网络应运而生,通过使用 IP 网络对专用网络的创新性革新,实现了更高的带宽和更低的时延,同时也兼具 IP 易管理的优势,是更好地实现端到端 NVMe 存储网络的最佳方案。

参考资料:OceanStor Dorado闪存产品介绍

相关链接:
RDMA技术原理白皮书
NVMe存储基于SPDK加速I/O性能
《Pacific分布式存储产品介绍》
1、OceanStor Pacific产品详细描述

2、OceanStor Pacific系列高性能数据分析(HPDA)存储

《数据中心前沿网络技术合集(1)》
1、超融合数据中心网络智能运维方案.pdf
2、IPv6+系列电子书确定性IP网络.pdf 
3、NoF+存储网络解决方案.pdf 
4、超融合数据中心网络.pdf" 
《数据中心前沿网络技术合集(2)》
1、运营商智能云网解决方案.pdf 
2、华为云园区网络生态合作白皮书.pdf 
3、华为云园区网络智能运维技术白皮书.pdf 
4、华为云园区网络自动化技术白皮书.pdf" 

云原生安全技术报告



转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。


温馨提示:
扫描二维码关注公众号,点击小程序链接获取架构师技术联盟书店电子书资料详情

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
洛杉矶岗位严重缺人,最低时薪$19!亚马逊招10000人,UPS招8000人,USPS不限量这块黑科技菜板,抗菌率99%,颠覆传统设计,10年用不坏!爱国的高度 — 谁更有资格爱国亿铸科技CEO熊大鹏:基于ReRAM的全数字存算一体AI大算力芯片架构创新|直播课预告New plaques unveiled for Gulangyu landmarksCardless Simon Amex 信用卡【新卡预告:Cardless 的第一张运通卡】社区烧烤超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNet秒杀系统设计套路,一套带走【黑五价】Mountain Warehouse低至3折+满额再减$10大快人心!亚麻系统设计面试标准答案内部全泄露…人力吃紧 上州最低时薪 年底升至14.2元Meta 首席产品设计主管离职;配合MR 头显,苹果或重新设计iMessage;全球53亿台手机被废置 | 极客早知道最后机会!Mountain Warehouse低至3折+额外9折分享基于R语言的100个统计检验小例子直播预告:基于 NVIDIA DOCA 的开发及用例介绍有没有人告诉你​KDD 2022 | kgTransformer:基于知识图谱与Transformer的复杂逻辑查询【远见豪宅赏析】Medford 现代设计开放空间豪宅夏走英伦D29-D30 西敏寺 格林威治 白金汉宫钓鱼,看车展涨工资!2023年华州最低时薪15.74美元,西雅图更高!加班费豁免门槛提高,拼车司机有最低工资标准部分再降 夹克仅售$50!The North Face低至3.8折!俄军空降兵获得BRDM-2MS装甲侦察车,其实是俄罗斯对外军援抢手货移民局公布新政指南关于R签证漫谈NVMe、NoF和RDMA技术[时尚] 【两双一件Visvim】FKT; Corda-Folk; SS 101XX JKT DMGD-1010AMD官方对比,RX 7900系列显卡强于RTX4080WSDM 2023 | 基于实体对齐的文图检索优化算法NeurIPS 2022 | ConvMAE:当Masked卷积遇见何恺明的MAE[评测]Samsung 990 PRO NVMe M.2 SSD 2TB 评测USB接口之争:基于竞争的封闭,基于计划的开放,哪个更好?Envoy Gateway会成为网关现有格局的冲击者吗?| 专访Envoy创始人字节跳动基于Iceberg的海量特征存储实践坦帕泳池别墅位于Richmond Place 环境优美 社区设施成熟 售价59.5万美金
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。