互联网大厂“组团”宕机，服务可靠性怎么保障？| 极客时间

公众号新闻

2024-07-28 03:07

大家好，我是白园。

作为一个 SRE 老兵，今天想给大家分享下「服务可靠性保障」的内容。

首先简单介绍下自己，2013 年我加入了百度运维部，负责百度网盘的可靠性保障工作，亲历了网盘可靠性保障体系从无到有、从粗糙到精细，从能发现故障到快速定位再到智能决策的整个过程。

2019 年短视频业务爆火，这时我加入了快手 SRE 团队，参与了快手春晚红包、海外版 kwaipro 的可靠性保障等工作，同时也了解到除网盘、地图之外的短视频、直播、电商等业务形态。

在这 11 年工作生涯中我始终站在一线，直面过无数次故障，每一次都是对业务的巨大考验。我乐于分享，也从中学习成长。在很多平台分享过各大厂 APP 故障解析和 SRE 核心技能，你或许也看过我分享的内容。

由于业务环境复杂多变 / 降本增效，近期各互联网大厂 APP 宕机事故频频发生，从社交媒体、视频社区到出行平台，无一幸免。几乎都因为宕机，轮番上过热搜……

服务器宕机，像一座大山瞬间崩塌，带来的震动与影响远远超出了人们的想象。除了给用户带来无尽的失望和不满，也给企业信誉和业务连续性造成了严重影响。

由此可见，服务可靠性和故障应对已成为企业必须面对的重要课题。甚至可以说，服务可靠性是企业持续发展的基石。

想要确保服务的连续性和稳定性并非易事，需要我们提前预防潜在的风险，并快速响应突发事件。这不仅需要强大的技术支撑，更需要培养一种全面的可靠性思维。

这就需要我们从各个层次去建设企业的服务可靠性体系了，例如：

快速识别和填补监控体系的漏洞
构建完善的容量保障体系，让资源发挥最大效率
做好应急预案，提高响应的速度
强化可靠性保障体系基础设施建设
养成可靠性保障思维
借助 AIOps 工具，让可靠性工作更加的全面和智能
……

市面上分享「服务稳定性」「AIOPS」「智能运维」等 SRE 知识的文章和视频不少，但缺少体系化，也很难平移到自己的业务中使用。所以我萌生了写个课程的想法，期望呈现一套系统的、正确的、尽可能完备的服务可靠性保障知识手册。

也希望你不用再为了寻找一个答案而苦苦搜索，也不必再自己去一块一块地拼凑知识，所以当极客时间来联系我的时候，我不假思索就同意了，以下是我整理的「服务可靠性的全景图」，就算你不看课程，也可以把这个图保存下来自己学习：

在《SRE 实践：服务可靠性案例课》中，我会分层次介绍每个部分的作用和建设意见。

课程结合了我在 SRE 领域多年的经验和思考，从构建全面的服务可靠性保障体系讲起，解析企业级故障案例，带你掌握 6 大 SRE 核心运维技能、探索 AIOps 在服务保障中的实践，全方位提升你对服务可靠性的理解和实践能力。

课程目前已经上线，识别上图二维码试看两篇，判断是否是你需要的内容，再决定是否入手。

为了实现从技术到业务，从个人意识到组织文化，全面提升对服务可靠性的认识和能力，我将课程分成三个部分：

基础篇

基础篇会系统地介绍可靠性保证最常见的六项技能：监控、容量、变更、预案、备份和恢复、以及文化和机制，了解这些能力可以解决哪些问题。此外还要培养自身的可靠性意识，不仅仅停留在使用工具和技术解决问题的阶段，而是从意识层开始改变。

应用篇

在应用篇，我们将深入分析具体的案例并探讨监控、容量、变更等技能在实践中的应用。特别是互联网公司那些影响非常大的故障，我们将通过分析这些案例看到背后的问题。同时你会了解到一些复杂场景下的应对方案，比如机房故障应该如何应对等等。

智能运维篇

这部分我们会介绍 AI 跟可靠性的结合能产生哪些火花，以及业界的优秀案例。比如通过异常检测，解决传统监控中难以发现的复杂问题，提高对系统异常的识别速度和准确性；利用 AI 进行时序数据分析和回归预测，可以更准确地预估系统负载，从而实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策，给出合理的建议。

具体内容，来看看目录吧：

时代在发展，有了 AI 的加持，可靠性保障的效率和准确性也会更上一层楼。我希望你也可以紧跟这个专栏的节奏，在这个快速变化的时代，让可靠性成为你的船帆，为每一行代码、每一项服务、每一笔交易保驾护航！

课程原价 ¥99

今日「早鸟特惠」到手仅￥69！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章