[电脑] YMTC 232L+NVMe 2.0--Lexar ARES 4TB M.2 SSD专业向评测
CHH ID:gaojie20@
▐ Lexar ARES 4TB M.2 SSD Professional Review
▲在我的上一篇文章 [电脑] 迟到的巨头--SK Hynix Platinum P41 2TB SSD专业向评测中有两位同学对长江存储的产品提出评测的需求,所以就有了以下这篇文章。
0▐ 前言
4TB—Sequential read up to 7400MB/s,
4TB—sequential write up to 6500MB/s
4TB—TBW=3000TBW
▲迷惑的是大陆官网有ARES 4TB没有NM790。
1▐ 开箱
▲包装正面
▲包装背面
▲开箱
▲SSD本体正面
▲SSD本体背面
到手P/N为LNMARES004T-HNNNG,并不是Lexar大陆官网显示LNM790X004T-RNNNC,所以我怀疑该产品在海外销售使用的型号是NM790,而国内使用的是ARES系列,临时修改了P/N如此来区分国内和海外渠道,目的是避免串货合理进行区域价格保护。
2▐ 芯片解析
▲揭掉贴纸
典型的单面设计,正面四颗NAND,无缓存,一颗主控。
型号:
主控:MAXIO MAP1602A
缓存:Dramless
闪存:Longsys RY18TAA48421024
2.1▐ Longsys RY18TAA48421024
▲Longsys RY18TAA48421024 首先是一颗单颗1TB容量的NAND,Longsys的编号规则很难猜测,我就盲猜一下,各位且当作我“胡言乱语”:
▲
1:工厂标识码
R=是什么不重要
2:原厂flash wafer代码
Y18=YMTC 232L 3D NAND
3:flash类型
T=TLC
4:BGA封装方式
A=132-pin BGA
5:BGA尺寸
A4=18mm x12mm
6:Die数
8=8 Die
7:CE数
4=4CE
8:CH通道数
2=2CH
9:容量
1024=1TB
所以这颗NAND就很好解析了:
Longsys封装的YMTC(长江存储)晶栈Xtacking 3.0最新一代232L 3D NAND闪存颗粒,每颗闪存颗粒均为8Die 4CE 2CH封装,容量1TB,原生速度2400 MT/s。
下面我们闲聊一下这颗Die!
▲这颗232L的Die在YMTC内部编号为EET1A,Die尺寸12.62mm x 5.4mm=68.15 mm²,总Layers是253L,扩展Layers是21L,所以有效激活的Layers是232L,有效容量是1024Gb=128GB。
▲从来自TechInsights的X射线扫描情况来看,Die的角标标有EET1A字样也应证了上面的问题。
▲YMTC经过4代产品的迭代,232L 3D TLC单Die已经达到15.03 Gb/mm2的密度,超过了Micron 232L 3D TLC的单Die 14.6 Gb/mm2的密度。这意味着YMTC在和Micron竞争中比较容易达成更低的成本优势。
▲YMTC从第一代32L 3D NAND之后就没有死磕48L的产品,而是直接开发64L并推出Xtacking 1.0技术,使用NAND晶圆和外围逻辑电路晶圆进行键合,从而实现比传统3D NAND更高的存储密度,芯片面积可减少约25%。同时利用存储单元和外围电路的独立加工优势,实现了并行的、模块化的产品设计及制造,产品开发时间可缩短三个月,生产周期可缩短20%。
随后又直接跳过96L,直接进入128L Xtacking2.0的开发,采用了新栅极材料NiSi替代WSi,让CMOS外围电路有更好的器件性能,进一步提升闪存IO吞吐速率、也使得系统级存储的综合性能得到提升。
最后直接**232L Xtacking 3.0的开发,232L Xtacking 3.0主要革新了两点:
▲1、采用了新的BSSC(Backside Source Connect)技术来简化源极连接流程,并且通过去除Deck之间的夹层来显着降低成本和提升吞吐量。
▲2、232L的EET1A Die由6个Plane组成,每个Plane含有一个Center X-DEC(中心X解码器),可以实现multi-plane独立异步操作,使得Xtacking 3.0的IO速率提升50%。与之前128L的Edge X-DEC(边缘X解码器)相比,Center X-DEC(中心X解码器)设计将WL电容减少了一半,并降低了RC负载和RC延迟(tRC), 最终性能相较Edge X-DEC(边缘X解码器)得到15~20%的提升。提升了NAND的操作速度。
2.2▐ MAXIO MAP1602A-F3C U
▲MAXIO MAP1602A-F3C U是一颗PCIe 4.0 x4的HBM无缓存主控:
1、支持NVMe 2.0协议,
2、内置ARM 32-bit Cortex-R5 双核SoC,主频550MHz,TSMC 12nm制程制造。
3、支持四通道,每通道支持4CE,共16CE。
4、原生支持2400 MT/s的NAND,
5、HMB (Host-Memory-Buffer)的大小设定4TB容量为40MB。
MAXIO MAP1602-F3C U配合四颗Longsys RY18TAA48421024正好塞满16CE,容量也填满极限4TB容量。可以说4TB是满血版本。协议的话,9月之后出产的Lexar ARES 4TB都是MAXIO MAP1602-F3C U主控且都是NVMe 2.0协议,9月之前出产的NM790 4TB以及部分Lexar ARES 4TB是MAXIO MAP1602-F1C主控,所以只能支持NVMe 1.4协议。
3▐ Windows 11测试
3.1▐ 测试平台
▲测试平台:
CPU:Intel Xeon-w9 3495X
主板:ASUS Pro WS W790E Sage SE
内存:SKhynix DDR4-4800 2RX8 RDIMM 32GB x8
显卡:NVIDIA Geforce RTX 4090 24GB Founder Edition
SSD:Lexar ARES 4TB M.2
SSD:Micron 9300MAX 6.4TB U.2
水冷:ABEE APEX PLUS SPR360
电源:ASUS ROG THOR II 1600W
3.2▐ SMART
3.3▐ MAXIO nvme fid v0.34a
▲MAXIO nvme fid v0.34a
这个软件可以很直观看到NAND是四颗YMTC 3D V4 232L (X3-9070),单Die容量1024Gb=128GB,
市面上同方案4TB产品,9月之前的老版本HMB大小基本都为32MB,9月后产品因为Lexar增强了ECC机制使用了新版固件的HBM增大为40MB。
3.4▐ Smartmontools
▲通过smartmontools可以探知到一些CDI获取不到的smart信息,比如这个盘的Supported Power States有五档,分别设定在:
PS0=6.5W、PS1=5.8W、PS2=3.6W、PS3=0.05W、PS4=0.0025W。
实话实说,其实MAXIO MAP1602A的既定功耗设计并不低,PS0已经6.5W了。作为一个Dramless主控来看其实并不低。
3.5▐ 性能定标
▲CrystalDiskMark 8.0.24的持续读写使用QD32T1的默认设置,随机读写使用QD32T20的条件,可以非常接近官标所标识的UP TO的最大值:
Sequential Read [持续读取](Q=32,T=1) : 7433 MB/s > 7400 MB/s(官标)
Sequential Write [持续写入](Q=32,T=1) : 4166 MB/s < 6500 MB/s(官标)
Random Read 4KiB [4K随机读取](Q=32,T=20) : 931K IOPS (无官标)
Random Write 4KiB[4K随机写入] (Q=32,T=20) : 751K IOPS (无官标)
这次是官标数据很少,可以验证的数据不多,我测试持续读取这一块是达标的,持续写入这一块还是低于官标,不排除是新版12237固件的特殊效果。
4▐ SNIA PTS评估验证
▲全球网络存储工业协会(Storage Networking Industry Association,SNIA)是成立时间比较早的存储厂家中立的行业协会组织,宗旨是领导全世界范围的存储行业开发、推广标准、技术和培训服务,增强组织的信息管理能力。作为一家非盈利的行业组织,拥有420多家来自世界各地的公司成员以及7100多位个人成员,遍及整个存储行业。它的成员包括不同的厂商和用户,有投票权的核心成员有Dell、IBM、NetApp、EMC、Intel、Oracle、FUJITSU、JUNIPER、QLOGIC、HP、LSI、SYMANTEC、HITACHI、Microsoft、VMware、Huawei-Symantec十五家,其他成员有近百以上,从成员的组成可以看出,核心成员来自核心的存储厂商,所以SNIA就是存储行业的领导组织。在全球范围SNIA已经拥有七家分支机构:欧洲、加拿大、日本、中国、南亚、印度以及澳洲&新西兰。
Solid State Storage Performance Test Specification Enterprise v1.0是SNIA于2011年给Enterprise SSD都制定了Performance Test(性能测试)的规范,可以到其网站www.snia.org下载。
▲系统及设置
操作系统
• Kernel Version: 6.3.0-060300-generic
• Description: Ubuntu 22.04.2 LTS
测试样品检测信息:
• sn : NGE892R003195P2202
• mn : Lexar SSD ARES 4TB
• fr : 12237
• frmw : 0x14
• tnvmcap : 4096805658624
• mntmt : 373
• mnan : 0
• Device Interface: nvme
• Device Logical Sector Size: 512
• Device Physical Sector Size: 512
测试系统
• Fio Version: fio-3.28
• Date of test run: 2023-10-29
• Number of jobs: 2
• Number of outstanding IOs (iodepth): 32
使用了T2线程进行测试是因为双核环境我相信是目前最广普的环境。QD32的深度也是服务器比较常见的存储应用深度。
4.1▐ IOPS测试(IOPS)
测试方法
进行Secure Erase安全擦除
预处理:128K持续写入双倍SSD容量
每一轮测试包含.512B,4K,8K,16K,32K,64K,128K,以及1MB数据块大小,每个数据块在100%,95%,65%,50%,35%,5%和0%运行读/写混合测试,各为一分钟。试验由25回合(Round)组成(一个循环需要56分钟,25回合=1400分钟)
使用4K随机写入的IOPS作为测试目标,写入振幅20%平均值与测量值线性最佳拟合线的斜率作为验证进入稳定态的标准。
在SNIA组织定义的规范中,规范了如何测试闪存设备或固态存储。业界希望有一种来比较SSD的科学方法,这也是需要SNIA测试规范的原因。SSD的写入性能在很大程度上取决于NAND的写入历史。SSD一般有三个写阶段:
1、FOB(全新从盒子里拿出来的状态)
2、Transition(过渡)
3、Steady State(稳定状态)
以上图例来自SINA PTS 1.1测试规范
Transition(过渡)过渡是FOB和稳态的良好表现之间的阶段。大多数情况下,性能会随着时间的推移而持续下降,直到达到稳定状态为止。SNIA PTS1.1的测试规范则很严格的监控了FOB到稳定态的每一个阶段,以及评估标准帮你去确认你的企业级SSD确实达到了稳定态,所以根据以上溯源我们有了预处理的过程。
4.1.1▐ 预处理
预处理的128K数据块大小持续写入双倍SSD容量这个过程进行了近11个小时。我通过NETDATA记录下这个过程并可视化展现。
▲预处理测试的数据块大小始终维持在128K。
预处理的过程符合FOB--Transition--Steady State的速度过渡特征,较为平滑,无0值数据出现。
4.1.2▐ 稳定态
IOPS测试里面的【回合】是:在512B,4K,8K,16K,32K,64K,128K,以及1MB数据块大小下,每个数据块在100%,95%,65%,50%,35%,5%和0%运行读/写混合测试,各为1分钟,整个测试组成一个回合,每个回合共耗费56分钟。
4.1.3▐ 数据
下面我们来看下测试结果
▲IOPS稳态收敛图-QD32
显示相关变量如何试图收敛到稳定状态的过程
▲IOPS稳定态验证图-QD32
显示直到([18, 19, 20, 21, 22]) 回合进入稳态,窗口计量的IOPS分别是([7614, 8043, 7855, 7871, 7987]) ,均线的IOPS: 7874.0。这里需要说明的是,ARES 4TB的4K随机写入性能参考均线的振幅能控制在20%以内,所以这里正常进入稳态。
▲IOPS测试2D图-QD32
▲IOPS测试3D图-QD32
通过IOPS测试之后,系统会执1次Secure Earse安全擦除,继续执行1次预处理(128K数据块持续写入双倍SSD容量),然后执行延迟测试(LAT)。
4.2▐ 延迟测试(LAT)
测试方法
进行Secure Erase安全擦除
预处理:128K持续写入双倍SSD容量
对于['8k','4k','512']数据块大小进行100%读,65%读35%写,100%写的随机读写测试,测量最大最小以及平均的延迟,60秒为一个回合(Round)
使用4K随机写入的平均延迟作为测试目标,写入振幅20%平均值与测量值线性最佳拟合线的斜率作为验证进入稳定态的标准
4.2.1▐ 预处理
预处理的128K数据块大小持续写入双倍SSD容量这个过程和之前一样持续进行了近11个小时。我通过NETDATA记录下这个过程并可视化展现。
预处理的过程符合FOB--Transition--Steady State的速度过渡特征,较为平滑,无0值数据出现。
4.2.2▐ 稳定态
▲上图是一个LAT测试中完整达到稳定态的多回合测试,绿色为读取,红色为写入,纵坐标是数据块大小,横坐标是时间。可以看到一共有5回合,明显没有达到25回合,这是因为([0, 1, 2, 3, 4]) 回合中,连续5个回合的4K随机写入的IOPS振幅低于20%平均值,所以这里默认进入稳定态,测试通过。如果连续25回合都没有连续5个回合达标,则显示测试失败。在([0, 1, 2, 3, 4]) 回合进入稳定态是这个测试得最优解!
▲5回合的读写速度变化,绿色为读取,红色为写入,速度单位 K IOPS。
▲5回合的温度变化,Sensor1为主控温度,Sensor2为NAND温度。
4.2.3▐ 数据
▲延迟稳定态收敛图-QD32显示相关变量如何收敛到稳定状态的过程
▲延迟稳定态确认图-QD32显示了4K随机写入过程中,在([0, 1, 2, 3, 4]) 回合达到了稳定态,窗口计量数值为([114.384261, 118.049462, 114.304526, 108.776517, 113.72813]) us。均线为113.85 us,耗费最少的回合,说明稳定性很好。
▲平均延迟在所有进程中的表现在0.24毫秒以内。
▲最大延迟在所有进程中的表现在500毫秒以内。随机读以及混合读写部分是最大延迟控制的极好在350毫秒以内,随机写的部分最大延迟相对较高。
▲平均和最大延迟3D图-QD32以及汇总数据。
4.3▐ 带宽测试(TP)
测试方法
进行Secure Erase安全擦除
对于['1024k', '64k', '8k', '4k', '512']数据块大小进行持续读写60秒为一回合(Round)
使用1024K持续写入的吞吐量作为测试目标,写入振幅20%平均值与测量值线性最佳拟合线的斜率作为验证进入稳定态的标准
4.3.1▐ 稳定态
▲上图是一个TP测试中完整达到稳定态的多回合测试,绿色为读取,红色为写入,纵坐标是数据块大小,横坐标是时间。可以看到一共有5回合,明显没有达到25回合,这是因为([0, 1, 2, 3, 4]) 回合中,连续5个回合的1024K持续写入的IOPS振幅低于20%平均值,所以这里默认进入稳定态,测试通过。如果连续25回合都没有连续5个回合达标,则显示测试失败。在([0, 1, 2, 3, 4]) 回合进入稳定态是这个测试得最优解!
▲5回合的读写速度变化,绿色为读取,红色为写入,速度单位MB/s。
▲5回合的温度变化,Sensor1为主控温度,Sensor2为NAND温度。
4.3.2▐ 数据
▲带宽稳态收敛图-QD32显示相关变量如何收敛到稳定状态的过程
▲带宽稳定态验证图-QD32
显示([0, 1, 2, 3, 4]) 回合直接进入了稳态,窗口计量数值为([4319.200, 4265.554, 4267.855, 4260.942, 4264.659])MB/s,均线数值在 4275.642MB/s。持续写入稳定性非常不错,满足验证标准给出了1M数据块下持续写入振幅20%平均值与测量值线性最佳拟合线的斜率的条件。
▲读写带宽测试2D图-QD32
我们可以看到稳定态下持续读写各个数据块下的平均表现力。
4.4▐ 写饱和度测试(WRITESAT)
测试方法
进行Secure Erase安全擦除
执行4K随机写入1分钟为一回合(Round),写入4倍全盘容量或者24h,以先达到者为准
计算各个回合的平均IOPS(Avg IOPS)
4.4.1▐ 稳定态
▲上图是一个WRITESAT测试中完整达到稳定态的多回合测试,红色为写入,纵坐标是数据块大小,横坐标是时间。一共有1439回合写满了全盘4倍容量。
▲1439回合的读写速度变化,红色为写入,速度单位IOPS
▲1439回合的温度变化,Sensor1为主控温度,Sensor2为NAND温度。
4.4.2▐ 数据
▲写饱和平均IOPS图-QD32
这个测试实际写入也就1439回合写满4倍全盘容量,平均速度约在10500 IOPS,曲线很稳定几乎一条线。虽然纯写入任务相对于混合读写比例的测试要简单很多,这个测试的压力程度对无缓存主控的资源以及固件的GC TRIM以及SLC Cache性能回复还是造成了压力,所以从空盘到写满四倍全盘容量的过程中虽然没有衰减,但是IOPS数值很低很慢。
一句话概括就是:无缓存主控在这里表现欠佳,虽然很稳定但是很慢。
▲写饱和平均延迟图-QD32
测试跑在6.2毫秒附近以内一直到测试结束,还是那句话:无缓存主控在这里表现欠佳,虽然很稳定但是速度很慢延迟较高。
4.5▐ 横向对比
没有对比就没有伤害,我们这次选用了几款SSD产品进行SNIA PTS测试后进行对比:
企业级组:
SKhynix HFS3T8GECVX124N 3.84TB U.2
无缓存消费级组:
Lexar NM760 1TB M.2
WD SN770 1TB M.2
有缓存消费级组:
Samsung 980Pro 1TB M.2
Plextor M10P 2TB M.2
▲IOPS测试环节综合来看,无缓存消费级三款里面互有胜负,Lexar ARES 4TB M.2因为读取的优势较大,综合性能胜出。这个测试有缓存版本和无缓存版本差异较大,没什么好说的。
▲LAT延迟测试环节,无缓存消费级延迟最小的是WD SN770 1TB M.2,其次是Lexar ARES 4TB M.2,最差是Lexar NM760 1TB M.2,NM760搭载的SMI 2269XT处理读和写都还行,但是在混合读写阶段就显得资源不足,导致延迟爆高,这一点上,Lexar ARES 和WD SN770就会好很多,至少可以提供混合读写足够资源运转,延迟也可以接受。
▲TP带宽测试环节,无缓存消费级组综合表现最佳的是Lexar ARES 4TB M.2,其次是WD SN770 1TB M.2,即使和有缓存消费级组对比,也毫不逊色,近年来的无缓存主控做的都还是不错的,因为持续读写是用户最直观的感受,这一点做不好就没法卖了。
▲WRITESAT写饱和度测试环节,容量不一样其实没法客观比较,完成测试的时间不能作为参考,要看纵坐标IOPS,Lexar ARES 4TB M.2的IOPS表现是最低的。这一点我一直想不通,MAP1602A明明资源要优于2269XT和SN770,为何在这个测试中会垫底,这个锅不在固件就是在NAND上。
4.6▐ 补充性内容
然后我们来看一下整个测试跑了多长时间?
▲跑完全程上个基于数据块大小的SNIA PTS全程图,可以看到横坐标一共跑了三天!三天里面有22个小时在跑预处理,有24小时在跑写饱和度测试,
最后让我们分析一下这个盘在残酷的PTS验证压榨下的温度表现:
▲SNIA PTS测试全程的温度变化。可以看出75度是这个盘的温度阀,超过这个温度就会出发降速降温保护机制,虽然我跑这个盘温度触顶就那么几次,但是建议大家还是要使用主板自带的M.2盔甲或者购买散热片进行装护,确保这块SSD能发挥正常性能。
关于SLC cache我用1MB的数据块大小,QD32深度,进行空盘持续写入,得到如下结果:
4▐ 总结
Lexar ARES 4TB M.2起初在我印象中怀疑过不去PTS测试,毕竟是无缓存产品嘛,但是实测后发现顺利过了PTS稳定性测试,这也是市面上为数不多的能过企业级SSD PTS性能验证的消费级无缓存SSD,这里的FW固件能力功不可没。1200RMB不到的价格给4TB容量,而且能过SNIA PTS稳定性验证的盘,再给五年保修,还是单面,这个性价比确实到位了,虽然同类的MAP1602A+YMTC 232L市面不少,但是Lexar在品牌张力和保修年限还是占有一定优势,同类产品还是建议采购这种大品牌比较稳!性价比的话刚查了下现在三星990Pro 4TB还是稳在2300-2500RMB左右,区别就是有缓跟无缓,如果不是经常进行大规模渲染等高计算量的操作的话,建议选择无缓即可,性价比更高。
Lexar ARES 4TB M.2使用了PCIe Gen4x4 Dramless方案中目前最强MAP1602A+YMTC 232L的组合,定义的容量和价格刷新了我对市场的预判,这款产品对市场积极的作用是提升了PCIe Gen4x4主流产品的性能门槛,做了一个良性的示范。产品推出对市场风向的推导很重要,君子爱财取之有道,如果大家都不断降低PCIe Gen4x4入门级产品的下线,这个入门级的市场就会烂掉。
微信扫码关注该文公众号作者