互联网大厂“组团”宕机,服务可靠性怎么保障?| 极客时间
大家好,我是白园。
作为一个 SRE 老兵,今天想给大家分享下「服务可靠性保障」的内容。
首先简单介绍下自己,2013 年我加入了百度运维部,负责百度网盘的可靠性保障工作,亲历了网盘可靠性保障体系从无到有、从粗糙到精细,从能发现故障到快速定位再到智能决策的整个过程。
2019 年短视频业务爆火,这时我加入了快手 SRE 团队,参与了快手春晚红包、海外版 kwaipro 的可靠性保障等工作,同时也了解到除网盘、地图之外的短视频、直播、电商等业务形态。
在这 11 年工作生涯中我始终站在一线,直面过无数次故障,每一次都是对业务的巨大考验。我乐于分享,也从中学习成长。在很多平台分享过各大厂 APP 故障解析和 SRE 核心技能,你或许也看过我分享的内容。
由于业务环境复杂多变 / 降本增效,近期各互联网大厂 APP 宕机事故频频发生,从社交媒体、视频社区到出行平台,无一幸免。几乎都因为宕机,轮番上过热搜……
服务器宕机,像一座大山瞬间崩塌,带来的震动与影响远远超出了人们的想象。除了给用户带来无尽的失望和不满,也给企业信誉和业务连续性造成了严重影响。
由此可见,服务可靠性和故障应对已成为企业必须面对的重要课题。甚至可以说,服务可靠性是企业持续发展的基石。
想要确保服务的连续性和稳定性并非易事,需要我们提前预防潜在的风险,并快速响应突发事件。这不仅需要强大的技术支撑,更需要培养一种全面的可靠性思维。
这就需要我们从各个层次去建设企业的服务可靠性体系了,例如:
快速识别和填补监控体系的漏洞
构建完善的容量保障体系,让资源发挥最大效率
做好应急预案,提高响应的速度
强化可靠性保障体系基础设施建设
养成可靠性保障思维
借助 AIOps 工具,让可靠性工作更加的全面和智能
……
市面上分享「服务稳定性」「AIOPS」「智能运维」等 SRE 知识的文章和视频不少,但缺少体系化,也很难平移到自己的业务中使用。所以我萌生了写个课程的想法,期望呈现一套系统的、正确的、尽可能完备的服务可靠性保障知识手册。
也希望你不用再为了寻找一个答案而苦苦搜索,也不必再自己去一块一块地拼凑知识,所以当极客时间来联系我的时候,我不假思索就同意了,以下是我整理的「服务可靠性的全景图」,就算你不看课程,也可以把这个图保存下来自己学习:
在《SRE 实践:服务可靠性案例课》中,我会分层次介绍每个部分的作用和建设意见。
课程结合了我在 SRE 领域多年的经验和思考,从构建全面的服务可靠性保障体系讲起,解析企业级故障案例,带你掌握 6 大 SRE 核心运维技能、探索 AIOps 在服务保障中的实践,全方位提升你对服务可靠性的理解和实践能力。
课程目前已经上线,识别上图二维码试看两篇,判断是否是你需要的内容,再决定是否入手。
为了实现从技术到业务,从个人意识到组织文化,全面提升对服务可靠性的认识和能力,我将课程分成三个部分:
基础篇会系统地介绍可靠性保证最常见的六项技能:监控、容量、变更、预案、备份和恢复、以及文化和机制,了解这些能力可以解决哪些问题。此外还要培养自身的可靠性意识,不仅仅停留在使用工具和技术解决问题的阶段,而是从意识层开始改变。
在应用篇,我们将深入分析具体的案例并探讨监控、容量、变更等技能在实践中的应用。特别是互联网公司那些影响非常大的故障,我们将通过分析这些案例看到背后的问题。同时你会了解到一些复杂场景下的应对方案,比如机房故障应该如何应对等等。
这部分我们会介绍 AI 跟可靠性的结合能产生哪些火花,以及业界的优秀案例。比如通过异常检测,解决传统监控中难以发现的复杂问题,提高对系统异常的识别速度和准确性;利用 AI 进行时序数据分析和回归预测,可以更准确地预估系统负载,从而实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策,给出合理的建议。
具体内容,来看看目录吧:
时代在发展,有了 AI 的加持,可靠性保障的效率和准确性也会更上一层楼。我希望你也可以紧跟这个专栏的节奏,在这个快速变化的时代,让可靠性成为你的船帆,为每一行代码、每一项服务、每一笔交易保驾护航!
课程原价 ¥99
今日「早鸟特惠」到手仅 ¥69!
微信扫码关注该文公众号作者