Redian新闻
>
做好灾备,小心被“祭天”

做好灾备,小心被“祭天”

公众号新闻

对于后端程序员来说,“高并发”并非新鲜的话题,经历过一次服务器宕机,职业生涯才“完整”。

但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”!

3 月 29 日,#唯品会崩了#的话题登上热搜。 

近日,事件后续来了。

唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。



1、“崩”上热搜:损失超亿元,持续12小时

说起来,一切都还要追溯到 3 月末。

3 月 29 日,有多名网友反馈唯品会“崩了”,用验证码登录时显示网络错误,登不上去。

后,唯品会官方微博表示:因系统短时故障,导致主站“加购”等功能或出现异常。

图源:微博截图

时隔 2 个多月,唯品会官方对故障事件做出了回应。

据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。

故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。( P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大。)

与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。

其实,类似 329 号机房宕机的事故并非首次发生。

但毋庸置疑的是,唯品会作为拥有大量用户的电商平台,服务器和网络设备的正常运行至关重要。任何一次宕机事件,都会导致平台无法提供正常的服务,因此,每一次故障背后的原因和影响都值得大家思考,并引以为戒。

2、腾讯旗下社交软件受到“牵连”

同样值得注意的是,受到此次机房事故影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个功能无法使用

图源:微博截图

对此,腾讯微信团队在 3 月 29 日上午发布信息称:“今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。”
与此同时,腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了不同程度的批评、降级和和免职处罚处理。

3、高并发引起的服务器宕机,频繁发生

随着直播电商平台的发展,用户数的增多导致高并发的概率增大。

近年来,各大平台、热门 APP 的服务器,都似乎难逃卡顿、崩溃乃至宕机的宿命。

2017 年双十一凌晨,在数百万消费者的激情涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的服务器才恢复正常。

2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随后,#淘宝崩了# 话题迅速登上微博热搜榜,并占据榜首第一。

如今,即使互联网相关技术已经迭代多轮,却仍然存在许多大规模以及时间长的宕机事件发生。

针对这类问题,在 CSDN 之前报道的《“一天宕机三次”,为什么高并发这么难?》一文中提到,可以从两个方面进行解析:

  • 一方面故障是不可避免的,有人为的故障(人是容易出错的——Human Error)和非人为的故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如发布新系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。

    当前,我们所能努力的就是尽可能地做到多少个 9,这其中需要很强的技术实力支撑。

级别

可用性级别

通俗说法

年度停机时间

配套措施

基本可用性

99%

2 个 9

3d-15h-39m-29s

服务在一个数据中心里有冗余,简单基础的自动化运维

高可用性

99.9%

3 个 9

8h-45m-56s 

大量的自动化故障工具,以及各种控制调度系统等基础设施要做好

具有故障自动恢复

99.99%

4 个 9

52m-35s

本地多机房(像 AWS 一样每个地方都有三个可用区)

极高可用性

99.999%

5 个 9

5m-15s

远程多机房,异地多活

  • 另一方面,从分布式架构设计来说,世界上的软件都是有故障的,当故障发生时,大家首先希望故障不要蔓延开,能够控制得住,其次还希望故障的时间越短越好,不要太长。

然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。

4、网友:请给程序员加工资!

的确,服务器一旦宕机,消费者就无法对网站进行访问,客户下不了单,直接就会对公司经济利润造成很大的影响,甚至还可能影响到网站在搜索引擎上的收录和排名。

因此,每一年各个平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。

伴随着#唯品会崩了相关负责人被免职#等话题再次引发大家关注,许多人纷纷留言表示:

  • “希望以后大公司会有一套很完善的避免和处理宕机事故的流程”;

  • “宕机是各家常有现象,这么久的处理时间就确实邋遢了”;

  • “还是要加强基础设施建设和技术管理”;

  • “关键时候千万不能崩,这个影响到的客户数量”。

与此同时,也有不少网友借此表达了对程序员职业的关怀:

  • “服务器宕机这个事情挺正常的,辛苦开发人员们维护了”;

  • “我曾经是程序员,知道维护的不易,请给程序员们加工资”。

链接:https://blog.csdn.net/csdnsevenn/article/details/131078598

(版权归原作者所有,侵删)


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
网管呀,您坐下,咱们说个悄悄话在加拿大,这件事千万不能做!小心被重罚!【最新】市防汛指挥部办公室发布提示:严格落实防大风准备,扎实做好防暴雨准备在美国,哪些行业最担心被“裁员”?哪些行业更焦虑?卖书就像橡皮帖,卖不出去,会抑郁小心被咬,纽约2天内发生5起鲨鱼攻击事件,美近半海滩被屎尿污染。餐馆老板被“迫上绝路”!收留无证客打工被“反咬”举报小心被抓!8大道、唐人街都有人摆摊卖!属严重控罪:罚款+逮捕!「假金党」纽约法拉盛卷土重来华裔小心被骗“为部队代购”?小心被骗!美国务院发布警告:不要去多米尼加这个国家旅游,小心被抢劫侵犯!传研发人员被「祭天」,继小红书「崩」上热搜后,网友:“这难道不是测试的锅?”空巢日记摘要2006请做好失业的准备,淘汰潮才刚刚开始!!小心被辞退!卫健委:3年之内在职医生必须通过这个考试美国务院发布警告:不要去这个国家旅游,小心被抢劫侵犯!《虞美人 - 碧螺春》小心被罚上千刀!奥克维尔更新了房屋准则、地块维护和分区围栏法规!今日生效火爆外网的日本爆乳议员,全身都是假的?小心被骗钱!“小心被割肾” 东南亚旅游再不安全?本周起,经过I278这路段小心被抓!罚金650…传程序员被“祭天”,网友:“这难道不是测试的锅?”40°C高温警告!GTA本周炎热潮湿将持续数日!小心被“热病”击倒!本周起,纽约人经过I278这路段小心被抓!罚金650…术中如何做好肺保护,麻醉医生需要做好这些细致的工作注意!新型电话诈骗,小心被骗!!美国警告:不要去这个国家旅游,小心被强奸秋招开启!做好准备,在LinkedIn开启你的networking之旅!纽约客做好准备,今夏电费飙升注意这些雅思考试书写规范,小心被扣分!JFK近来有“黑车”出没!别看低价就搭乘,一不小心被宰200刀梦醒时分 结局狗子不小心被门夹了腿,用纱布吊着挂在胸前一脸委屈哈哈!房贷月供狂飙30%!专家警告:做好最坏准备,特别这批房主小心被侧录 粮食券盗刷频传 警:插卡前拉一下读卡机
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。