收藏：详谈SSD故障预测技术

2022-12-30 12:12

在上篇文章“企业级存储盘中的操作特性”中，基于一家主要存储供应商的近200万个SSD的大量企业存储系统，对生产使用中SSD的关键操作特性进行了大规模的现场研究。今天接着分享SSD故障预测技术。

固态驱动器(SSD)故障很可能导致系统级故障，从而导致停机，从而使SSD故障预测对大规模SSD部署至关重要。现有的SSD故障预测研究大多基于定制的SSD，具有专有的监控指标，难以重现。为了支持不同驱动器模型和供应商的一般SSD故障预测，本文提出了一种向外更新集成特征排序(WEFR)，以自动化、鲁棒的方式选择智能属性作为学习特征。WEFR结合了不同的特征排序结果，根据复杂度度量和磨损程度的变化点检测，自动生成最终的特征选择。

01 背景及动机

一、数据收集

本文从阿里巴巴的五个基于ssd的数据中心收集数据。该数据集涵盖了从2018年1月到2019年12月的为期两年的、来自三个供应商的6个驱动器模型的近500Kssd。本文将这三个供应商称为MA、MB和MC，每个供应商都包括两个驱动器模型（用供应商后面的数字表示）。本文的数据集包括两种数据类型：SMART日志和故障票据。

SMART日志。SMART是一种广泛采用的监视磁盘驱动器状态（称为属性）的工具。SMART属性是特定于供应商的。它们每个都有原始的和标准化的数值(在SMART属性名称之后分别用“R”和“N”表示)。本文每天收集每个SSD的智能属性。表一显示了为每个驱动器模型收集的SMART属性的概述。该数据集总共跨越了22个SMART属性。

故障记录。本文的维护系统在每个服务器上部署监视守护进程，定期执行基于规则的检测，以检查异常行为和故障。一旦检测到异常行为和故障，维护系统就会生成故障报告（称为故障记录单）。每个故障记录单记录驱动器ID和故障发生的时间戳。该数据集总共涵盖了7K个SSD故障的故障记录单。

二、故障预测

本文将SSD故障预测作为一个离线分类问题，以预测SSD是否会在未来一段时间内（例如，在未来30天内）失败。本文将每个SMART属性的原始值和标准化值视为两个学习特征，并将一个学习特征的向量称为输入变量。本文将驱动器状态视为一个指标变量（称为目标变量）（0表示健康状态，1表示失败）。本文将每天SSD的学习特性和驱动状态作为样本。本文将出现失败ssd和健康ssd对应的样本分别称为阳性样本和阴性样本。离线故障预测的工作流程包括数据预处理、特征选择、特征生成、预测模型训练、预测模型验证和预测。

三、特征选择方法

本文考虑了五种最先进的SSD故障预测的特征选择方法。

皮尔逊相关度量学习特征与目标变量之间的线性关系。
斯皮尔曼相关性测量了学习特征和目标变量之间的单调关系（不仅仅是线性关系）。它被之前的工作用于SSD故障预测。
J-index使用分类任务来衡量一个学习特征对目标变量的类别进行正确分类的能力。它被之前的工作用于预测HDD故障。
随机森林提供特征重要性评估，它衡量在学习特征中添加噪声后分类精度的降低程度。特征重要性得分较高的特征对HDD故障预测精度的影响较大。之前的工作也将随机森林用于预测SSD故障。
XGBoost还提供了特征重要性评估，它测量了训练具有学习特征的所有增强树的分割数，以及在树中使用该特征的平均增益。

02 特征重要性研究

一、特性对SSD故障预测的重要性

表三显示了预测每个驱动器模型的SSD故障的顶部和最后三个重要的学习特征。除了重要的学习特征外，本文还观察到存在一些琐碎的特征(例如，PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分仅为0.001)。这种琐碎的学习特征可能会降低作为噪声的SSD预测精度。因此，特征选择对于预测SSD故障是必要的。

二、使用不同选择方法的特征重要性

表4显示，MC1的前5个重要学习特征的排名因特征选择方法的不同而不同。这一发现也适用于其他驱动器模型（表中未显示）。这种不同的排名带来了以下问题：(i)哪种特征选择方法对SSD故障预测更有效？(ii)本文应该选择多少个重要的功能？

三、在不同的磨损程度下的特征重要性

表五显示出在不同的磨损程度下，相同的使用随机森林在同一数据集中进行特征选择却出现了不同的结果。这提示本文不同磨损阶段是否有着不同的表现。

图1显示了六种驱动模型的存活率与MWIN之间的关系。本文观察到，MA1、MA2、MC1和MC2的存活率随MWIN的变化而变化，而MB1和MB2的存活率由于变化范围较小而没有明显的变化趋势。具体来说，对于MA1、MA2和MC1的存活率随着MWIN的降低而降低，而对于MC2，随着MWIN的降低，MWIN的存活率首先增加到70左右，然后由于固件逐渐固定的一些问题而降低。这表明，SSD的特性可能会随着磨损程度的变化而变化。因此，特征的重要性也可能随着MWIN值的不同而改变。

03 磨损更新的集成特征选择

本文提出了磨损更新集成特征排序(WEFR)，这是一种实用的特征排序方法，在自动和稳健的属性中选择学习特征，从而推广不同模型和供应商的SSD故障预测。WEFR解决了在SSD故障预测的特征选择方面面临的以下挑战：

健壮的功能选择。不同的特征选择方法可以选择不同的学习特征。此外，特征选择方法并不总是最优的各种驱动模型。因此，WEFR应该结合特征选择方法，以一种稳健的方式来选择特征。

正在更新功能选择。选择的特性不同具有不同磨损程度的SSD。此外，ssd的磨损程度也随时间的增加而增加。因此，WEFR应该为MWIN值的ssd选择学习特征，并随着时间的推移更新所选特征。

算法概述：

算法1显示了WEFR的工作流程。具体来说，它将来自相同驱动器模型的SMART属性的学习特征作为输入。它采用常用的特征选择方法进行初步的特征选择，并根据特征的重要性对学习特征进行排序。为了防止某些方法的偏差（即无效的特征选择），它删除了与其他方法偏差较大的排名，并通过排名的平均值（排名行1-7）获得最终排名。它根据最终的排名自动确定特征计数，并选择最终的学习特征（第8行）。如果它检测到MWIN的存活率的变化点，它将更新具有不同MWIN组的SSD组的所选特征（第9-15行）。最后，它输出在同一驱动器模型中的所有ssd或每一组MWIN的学习的学习特性。

偏差的计算如下图所示：

04 实验结果

一、鲁棒特征选择的有效性

本文比较了没有特征选择（即使用所有学习特征）和五种最先进的特征选择方法(第II-C节)的WEFR的预测精度。对于五种最先进的特征选择方法，本文将所选特征的百分比从10%线性调整到100%，以找到最高的预测精度。表VI显示，与没有特征选择相比，WEFR对MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分别提高了13%（8%）、18%、18%（12%）、17%（10%）、25%（13%）、12%（6%）和13%（6%）。总的来说，与所有驱动模型没有特征选择相比，WEFR将精度(f0.5分数)提高了22%（10%），证实了特征选择对SSD故障预测的重要性。

二、自动特征选择的有效性

本文评估了WEFR中自动特征选择的有效性，并将其与使用固定百分比的被选择特征（从10%线性增加到100%）进行比较。图2显示，当确定6个驱动器模型的所选特性的百分比时，WEFR的F0.5-score始终高于或等于最高的F0.5-score。具体来说，WEFR自动确定的MA1、MA2、MB1、MB2、MC1、MC2所选择的特征的百分比分别为31%、34%、28%、26%、63%和28%，在确定所选特征的百分比时，与最高F0.5-score对应的所选特征的百分比接近。请注意，使用自动特性选择也比调优生产中选定特性的适当百分比更灵活。

三、更新特征选择的有效性

从表7中可以看出，与不更新特征选择相比，WEFR通过更新MA1、MA2、MC1和MC2的选定特征，提高了精度和F0.5-score。具体来说，与WEFR（无更新）相比，WEFR将MA1、MA2、MC1和MC2的精度(F0.5-score)分别提高了6%（4%）、4%（2%）、5%（2%）和6%（2%）。

对于低MWIN的ssd，与WEFR（无更新）相比，WEFR对MA1、MA2、MC1和MC2的精度(f0.5分数)分别提高了13%（9%）、12%（8%）、13%（6%）和13%（6%）。这证实了特征的重要性随着MWIN的变化而变化，有必要用MWIN更新所选的特征。高MWIN的WEFR和WEFR之间的F0.5-score（无更新）差异不显著，且在1%以内（未见表七）。

感谢本次论文解读者，来自华东师范大学的硕士生梁宇炯，主要研究方向为SSD故障预测。

来源：SCS存储专委

原文链接：

https://mp.weixin.qq.com/s/mIyy53bA0oo76H4UsZB9xA

论文链接：

https://ieeexplore.ieee.org/document/9505157/;jsessionid=W_hi8Vvk_8c0WwL-WBUqtz4k8TbpqUDUgQQ1hobF67wHeEuFyqWS!-1212808535

相关阅读：

高性能计算技术、方案和行业全解(第二版)

InfiniBand架构和技术实战总结(第二版)

RDMA原理分析、对比和技术实现解析

全店铺技术资料打包(全)