Redian新闻
>
收藏:详谈SSD故障预测技术

收藏:详谈SSD故障预测技术

公众号新闻

在上篇文章“企业级存储盘中的操作特性”中,基于一家主要存储供应商的近200万个SSD的大量企业存储系统,对生产使用中SSD的关键操作特性进行了大规模的现场研究。今天接着分享SSD故障预测技术。

固态驱动器(SSD)故障很可能导致系统级故障,从而导致停机,从而使SSD故障预测对大规模SSD部署至关重要。现有的SSD故障预测研究大多基于定制的SSD,具有专有的监控指标,难以重现。为了支持不同驱动器模型和供应商的一般SSD故障预测,本文提出了一种向外更新集成特征排序(WEFR),以自动化、鲁棒的方式选择智能属性作为学习特征。WEFR结合了不同的特征排序结果,根据复杂度度量和磨损程度的变化点检测,自动生成最终的特征选择。

01 背景及动机

一、数据收集


    本文从阿里巴巴的五个基于ssd的数据中心收集数据。该数据集涵盖了从2018年1月到2019年12月的为期两年的、来自三个供应商的6个驱动器模型的近500Kssd。本文将这三个供应商称为MA、MB和MC,每个供应商都包括两个驱动器模型(用供应商后面的数字表示)。本文的数据集包括两种数据类型:SMART日志和故障票据。
    SMART日志。SMART是一种广泛采用的监视磁盘驱动器状态(称为属性)的工具。SMART属性是特定于供应商的。它们每个都有原始的和标准化的数值(在SMART属性名称之后分别用“R”和“N”表示)。本文每天收集每个SSD的智能属性。表一显示了为每个驱动器模型收集的SMART属性的概述。该数据集总共跨越了22个SMART属性。
    故障记录。本文的维护系统在每个服务器上部署监视守护进程,定期执行基于规则的检测,以检查异常行为和故障。一旦检测到异常行为和故障,维护系统就会生成故障报告(称为故障记录单)。每个故障记录单记录驱动器ID和故障发生的时间戳。该数据集总共涵盖了7K个SSD故障的故障记录单。

二、故障预测
    本文将SSD故障预测作为一个离线分类问题,以预测SSD是否会在未来一段时间内(例如,在未来30天内)失败。本文将每个SMART属性的原始值和标准化值视为两个学习特征,并将一个学习特征的向量称为输入变量。本文将驱动器状态视为一个指标变量(称为目标变量)(0表示健康状态,1表示失败)。本文将每天SSD的学习特性和驱动状态作为样本。本文将出现失败ssd和健康ssd对应的样本分别称为阳性样本和阴性样本。离线故障预测的工作流程包括数据预处理、特征选择、特征生成、预测模型训练、预测模型验证和预测。

三、特征选择方法
本文考虑了五种最先进的SSD故障预测的特征选择方法。
  • 皮尔逊相关度量学习特征与目标变量之间的线性关系。
  • 斯皮尔曼相关性测量了学习特征和目标变量之间的单调关系(不仅仅是线性关系)。它被之前的工作用于SSD故障预测。
  • J-index使用分类任务来衡量一个学习特征对目标变量的类别进行正确分类的能力。它被之前的工作用于预测HDD故障。
  • 随机森林提供特征重要性评估,它衡量在学习特征中添加噪声后分类精度的降低程度。特征重要性得分较高的特征对HDD故障预测精度的影响较大。之前的工作也将随机森林用于预测SSD故障。
  • XGBoost还提供了特征重要性评估,它测量了训练具有学习特征的所有增强树的分割数,以及在树中使用该特征的平均增益。
02 特征重要性研究
一、特性对SSD故障预测的重要性

    表三显示了预测每个驱动器模型的SSD故障的顶部和最后三个重要的学习特征。除了重要的学习特征外,本文还观察到存在一些琐碎的特征(例如,PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分仅为0.001)。这种琐碎的学习特征可能会降低作为噪声的SSD预测精度。因此,特征选择对于预测SSD故障是必要的。

二、使用不同选择方法的特征重要性
    表4显示,MC1的前5个重要学习特征的排名因特征选择方法的不同而不同。这一发现也适用于其他驱动器模型(表中未显示)。这种不同的排名带来了以下问题:(i)哪种特征选择方法对SSD故障预测更有效?(ii)本文应该选择多少个重要的功能?

三、在不同的磨损程度下的特征重要性
    表五显示出在不同的磨损程度下,相同的使用随机森林在同一数据集中进行特征选择却出现了不同的结果。这提示本文不同磨损阶段是否有着不同的表现。
    图1显示了六种驱动模型的存活率与MWIN之间的关系。本文观察到,MA1、MA2、MC1和MC2的存活率随MWIN的变化而变化,而MB1和MB2的存活率由于变化范围较小而没有明显的变化趋势。具体来说,对于MA1、MA2和MC1的存活率随着MWIN的降低而降低,而对于MC2,随着MWIN的降低,MWIN的存活率首先增加到70左右,然后由于固件逐渐固定的一些问题而降低。这表明,SSD的特性可能会随着磨损程度的变化而变化。因此,特征的重要性也可能随着MWIN值的不同而改变。
03 磨损更新的集成特征选择
    本文提出了磨损更新集成特征排序(WEFR),这是一种实用的特征排序方法,在自动和稳健的属性中选择学习特征,从而推广不同模型和供应商的SSD故障预测。WEFR解决了在SSD故障预测的特征选择方面面临的以下挑战:
    健壮的功能选择。同的特征选择方法可以选择不同的学习特征。此外,特征选择方法并不总是最优的各种驱动模型。因此,WEFR应该结合特征选择方法,以一种稳健的方式来选择特征。
    正在更新功能选择。选择的特性不同具有不同磨损程度的SSD。此外,ssd的磨损程度也随时间的增加而增加。因此,WEFR应该为MWIN值的ssd选择学习特征,并随着时间的推移更新所选特征。

算法概述:
    算法1显示了WEFR的工作流程。具体来说,它将来自相同驱动器模型的SMART属性的学习特征作为输入。它采用常用的特征选择方法进行初步的特征选择,并根据特征的重要性对学习特征进行排序。为了防止某些方法的偏差(即无效的特征选择),它删除了与其他方法偏差较大的排名,并通过排名的平均值(排名行1-7)获得最终排名。它根据最终的排名自动确定特征计数,并选择最终的学习特征(第8行)。如果它检测到MWIN的存活率的变化点,它将更新具有不同MWIN组的SSD组的所选特征(第9-15行)。最后,它输出在同一驱动器模型中的所有ssd或每一组MWIN的学习的学习特性。
偏差的计算如下图所示:

04 实验结果
一、鲁棒特征选择的有效性


    本文比较了没有特征选择(即使用所有学习特征)和五种最先进的特征选择方法(第II-C节)的WEFR的预测精度。对于五种最先进的特征选择方法,本文将所选特征的百分比从10%线性调整到100%,以找到最高的预测精度。表VI显示,与没有特征选择相比,WEFR对MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分别提高了13%(8%)、18%、18%(12%)、17%(10%)、25%(13%)、12%(6%)和13%(6%)。总的来说,与所有驱动模型没有特征选择相比,WEFR将精度(f0.5分数)提高了22%(10%),证实了特征选择对SSD故障预测的重要性。

二、自动特征选择的有效性
    本文评估了WEFR中自动特征选择的有效性,并将其与使用固定百分比的被选择特征(从10%线性增加到100%)进行比较。图2显示,当确定6个驱动器模型的所选特性的百分比时,WEFR的F0.5-score始终高于或等于最高的F0.5-score。具体来说,WEFR自动确定的MA1、MA2、MB1、MB2、MC1、MC2所选择的特征的百分比分别为31%、34%、28%、26%、63%和28%,在确定所选特征的百分比时,与最高F0.5-score对应的所选特征的百分比接近。请注意,使用自动特性选择也比调优生产中选定特性的适当百分比更灵活。


三、更新特征选择的有效性
    从表7中可以看出,与不更新特征选择相比,WEFR通过更新MA1、MA2、MC1和MC2的选定特征,提高了精度和F0.5-score。具体来说,与WEFR(无更新)相比,WEFR将MA1、MA2、MC1和MC2的精度(F0.5-score)分别提高了6%(4%)、4%(2%)、5%(2%)和6%(2%)。
对于低MWIN的ssd,与WEFR(无更新)相比,WEFR对MA1、MA2、MC1和MC2的精度(f0.5分数)分别提高了13%(9%)、12%(8%)、13%(6%)和13%(6%)。这证实了特征的重要性随着MWIN的变化而变化,有必要用MWIN更新所选的特征。高MWIN的WEFR和WEFR之间的F0.5-score(无更新)差异不显著,且在1%以内(未见表七)。
感谢本次论文解读者,来自华东师范大学的硕士生梁宇炯,主要研究方向为SSD故障预测。
来源:SCS存储专委
原文链接:
https://mp.weixin.qq.com/s/mIyy53bA0oo76H4UsZB9xA
论文链接:
https://ieeexplore.ieee.org/document/9505157/;jsessionid=W_hi8Vvk_8c0WwL-WBUqtz4k8TbpqUDUgQQ1hobF67wHeEuFyqWS!-1212808535


相关阅读:

高性能计算技术、方案和行业全解(第二版)

InfiniBand架构和技术实战总结(第二版)

RDMA原理分析、对比和技术实现解析


全店铺技术资料打包(全)




转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。



温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英国宝藏:晚清·龙纹如意耳尊帮美国小伙戒掉毒瘾,大英图书馆收藏:中国网络小说出海,到底有多神奇?「谛声科技」完成B轮融资,利用AI声学检测技术服务企业运维|36氪首发Business Desktop(i5-8400/8gram/128GSSD/1T HDD)美国入境档案--西南联大美军翻译赴美,许芥煜、吴文津等收藏:存储器技术发展概述收藏:网络通信技术基础收藏:英语学习中一定要掌握的50个用法,绝对干货!收藏:美国Gifted资优班考试CogAT超详细介绍收藏:不容错过的11个美国英文学习网站UCSD新增第八学院——让很多人都困惑的UCSD八个学院,究竟怎么选?人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史BP三星/英特尔存储2T SSD 749元;UT长江存储2T SSD 999元Linux 内核观测技术 eBPF 中文入门指南快速移民美国项目:详解EB-1A申请要求、适宜人群及误区答疑!奋斗者正青春丨倪永付:用检测技术保障百姓“舌尖安全”校友,十年后再聚首英国宝藏:​​​​清康熙·梅竹牡丹纹盘2023全国生物标志物检测技术与研究学术论坛诚邀您参与预测 2022 年 FIFA 世界杯冠军大概率是荷兰!自制机器学习预测模型技术原理详解英国宝藏:​民国·松绿釉开光仕女纹盖罐最新综述:详细分析14种可用于时间序列预测的损失函数字节跳动、阿里、小红书、华为如何实践可观测技术,实现研发增效?| ArchSummit【双养日课 1035】打开记忆的宝藏:探索人生密码口罩我国今年将全面推进6G技术研发;美国联邦航空局出现系统故障丨科技早新闻快速移民美国:详解EB-1A申请要求、适宜人群及误区答疑 | 公司专栏Crested Butte 黄叶似海 - 多彩科州之旅(五)年营收破亿, 一目科技用“水质监测技术”领跑净水器C端市场再嘚瑟几张英伦之行的照片(更多片子正在整理中)英国宝藏:​清光绪·青花留白折枝梅花纹花觚Brain:新型检测技术或能提前3.5年诊断出阿尔兹海默病患者ROG Desktop(i7-8700k/32g/GTX 1080ti/256gSSD/500g SSD/wifi)收藏:买火车票如何添加免费乘车儿童?科普来了!打脸!反转!推特出现技术故障,马斯克正在求被裁工程师复职,条件可以谈!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。